樹形図
樹形図樹形図は、「凝集型階層的クラスタリング」と呼ばれる統計ツールをグラフィカルに表現した図です。階層的クラスタリングの目的は、k Î [1,...,N] のように k クラスターの一連の N クラスタリングを定義し、結果のクラスターでネストされたシーケンスを構成することです。 凝縮アルゴリズムは N 属性の最初のセットから開始し、N シングルトンクラスターと見なされます。 各ステップでは、2 つの最も類似したクラスターを特定し、それらをマージして 1 つの新しいクラスターを形成して進めます。すべての属性が 1 つのクラスターにマージされるまで、このステップが繰り返されます。 属性の類似性は、値を範囲 [-1,1] にする相関係数によって測定されます。 rho(x,y) = cov(x,y) / σx.σy |
cov(x,y) は変数 X および Y 間の共分散を表します。σx は変数 X の標準偏差です。 樹形図の作成樹形図エディターを起動するには、メニューから [視覚化] > [樹形図] を選択します。あるいは、サイドバーのアイコン (Image Added) をクリックして、[新規] をクリックします。 - グラフのタイトルを入力します。
- 必要に応じて、リストからオブジェクトセットを選択します。
- [属性] リストから属性を選択し、[入力] をクリックします。樹形図で使用される属性は数値でなければなりません。
- [保存] をクリックします。
- 樹形図ツールでは、次の 2 つの異なるビューが表示されます。
- 樹形図 ([樹形図] タブを参照) には、線形的に相関する属性と相関関係が強い属性のクラスターのグループがまとめてツリーに表示されます。値が 1 または -1 に近いほど、相関関係が強くなります。高い相関関係値は右側に表示されます。
- [相関行列] には、属性の各ペアの線形相関係数を計算した全体的な結果が表示されます。正の相関係数は緑色で表示され、負の相関係数は赤色で表示されます。
属性を検索する 属性はアルファベット順に一覧表示されます。属性を検索するには、スクロールバーを使用するか、[属性] フィールドに名前を入力します。 複製の作成- [その他のアクション] > [複製] をクリックして樹形図を複製するか、[その他のアクション] > [名前を付けて複製] をクリックして、時間曲線、樹形図、集計グラフ、マルチプロットを選択します。
データをエクスポートする方法:- [その他のアクション] > [一般アクション] をクリックします。
- [データのダウンロード] をクリックします。CSV 形式 (CSV US または CSV EU) を選択します。
- [行列を CSV にエクスポート] をクリックすると、相関行列がダウンロードされます。CSV 形式 (CSV US または CSV EU) を選択します。
指定したファイル名でグラフィックをエクスポートする方法:- [その他のアクション] > [名前を付けてグラフィックをエクスポート] をクリックして、 PDF、PNG、または SVG からファイル形式を選択します。
新しい属性選択を作成する方法:- [相関行列] タブで、チェックボックスを使用して属性を選択します。1 つずつ選択するか、(属性のフィルタリングで使用する空のフィールドの横にある) 最初のチェックボックスを使用してすべて選択します。
- [その他のアクション] > [属性選択] をクリックします。次の項目を作成できます。属性セット、欠測値を入力、微分属性、移動平均、シフトされた属性。
別のグラフを作成する方法- [相関行列] タブで、チェックボックスを使用して属性を選択します。1 つずつ選択するか、(属性のフィルタリングで使用する空のフィールドの横にある) 最初のチェックボックスを使用してすべて選択します。
- [その他のアクション] > [属性選択] をクリックします。次の項目を作成できます。ヒストグラム、時間曲線、樹形図 (新しい属性のセットを使用)。
樹形図を使用するとき 樹形図は属性間の類似性を分析するために使用する効果的なツールであり、相関が強すぎる属性を排除します (このため、おそらく冗長な情報が導入されます)。また、目標属性と入力属性の間といった、関心属性と他の属性との間の重要な相関関係を検出するうえでも役立ちます。 視覚化の例樹形図と相関行列を解釈し、目標 SUN_ENERGY_WEEK_AVRG (太陽光パネルから収集されたエネルギー) に影響する変数を特定します。 ヒント いくつかのヒントを示します。 - まず、樹形図ビューを確認し、相関係数値が高い SUN_ENERGY_WEEK_AVRG 近くでグループ化された属性を分離します (上の目盛は絶対値の相関係数を表しています。最大値は 1 です)。
- [相関行列] タブに移動して、SUN_ENERGY_WEEK_AVRG 列を検索します。列ラベルをクリックすると、相関係数値が並べ替えられます。SUN_ENERGY_WEEK_AVRG で最も影響度が大きい入力属性を順位付けします。
必ず調査結果を検証してください。散布図を作成してください。 次の例は、FUEL_WEEK_AVRG_MODEL と太陽光パネルから収集されたエネルギーの相関関係を示しています。マイナス記号 (-) は、余剰太陽光があるときに燃料消費が低下していることを確認しています。SUN_ENERGY_WEEK_AVRG と SUN_WEEK_AVGR_HR と FUEL_WEEK_AVRG_MODEL の間の最小相関係数は -0.502452 です。 樹形図を解釈する方法 樹形図には相関する属性のグループが表示されます。これは相関行列の結果をグラフィカルにまとめた図です。注記: 樹形図は係数の絶対値を示しています。値範囲は -1~1 です。相関関係の強さ 0 は相関関係がないことを意味します。1 は完璧な相関関係 (正または負) を意味します。 Image Added
相関行列を解釈する方法 特定の属性に最も相関している属性を確認するには、その属性をクリックします。この特定の属性に関連する係数の絶対値で表の行が並べ替えられます。ヘッダーをクリックすると、タグに相関する属性が降順 (相関関係の強い順) で並べ替えられます。 Image Added アイコンをクリックすると、フィルターを適用して、相関係数の最小絶対値に相関する属性のみを保持することができます。 例: タグ名の下の Image Added アイコンをクリックします。> 0.5 のフィールドが表示されます。つまり、係数が 0.5 より大きい値の列をフィルタリングしていることを意味します。フィールドは編集できます。> 0.8 のように他の値を入力できます。
|