English us |
---|
For more information, see the online learning platform |
Dendrograms
A dendrogram is the graphical representation of a statistical tool called “hierarchical agglomerative clustering”. Hierarchical clustering aims at defining a sequence of N clusterings of k clusters, for k Î [1,...,N], so that the resulting clusters form a nested sequence. The agglomerative algorithm starts with the initial set of N |
variables, considered as N singleton clusters. At each step it proceeds by identifying the two most similar clusters and merging them to form a new cluster. This step is repeated until |
all variables have been merged together into a single cluster. The similarity among |
the variables is measured by means of the correlation coefficient which takes its values into the range [-1,1]:
where, cov(x,y) represents the covariance between variables X and Y; and σx is the standard-deviation of variable X. Create a DendrogramTo launch the dendrogram editor, select |
Visualize > Dendrogram from the menu. Alternatively, click the icon () in the sidebar and then |
On the Data tab:
Select a Data source from the listadd New.
|
|
|
|
| an Attribute
|
On the Properties tab:
- Enter a chart Title and select the check box if you want it to show.
- Click Compute to load the data. The results are displayed in two tabs: Dendrogram and Correlation Matrix.
Control the View
To change the view, use the control menu below the dendrogram to modify the zoom. To modify the dendrogram, click Edit and revise its parameters.
To export the chart:
Click More actionsTo clone:
To export data:
To export graphic as:
|
To create a new variable selection:
To create different charts:
Example Visualization |
Interpret the dendrogram and correlation matrix to identify which variables influence the target SUN_ENERGY_WEEK_AVRG |
(energy gathered from solar panels |
).
Dendrograms are easier to read from right to left. In the example below, the first two variables listed SUN_ENERGY_WEEK_AVRG and SUN_WEEK_AVRG_HR have a correlation coefficient of 0.53. The positive sign indicates that if SUN_ENERGY_WEEK_AVRG increases, SUN_WEEK_AVRG_HR will increase too (with a strength of 0.53). The strongest negative correlation is between this pair of variables and FUEL_WEEK_AVRG_HR, with a value of -0.50. The negative sign indicates that if FUEL_WEEK_AVRG_HR increases, the two others will decrease (with a strength of 0.50 at least).
In this second example below, the two most correlated variables are Profit/h and Meal_feed_B, with a correlation coefficient of 0.61 (a direct positive correlation). The strongest negative indirect correlation is between Wasteoil_feed and Fi_Coal_Petcoke_mix_feed with a value of -0.37. The strength of the correlation is given by the absolute value of the coefficient. Indeed, the sign just indicates the direction of the correlation. Create a Variable Set based on correlation to exclude “highly correlated” variables that bring redundant information:
|
Japanese | |
---|---|
樹形図樹形図樹形図は、「凝集型階層的クラスタリング」と呼ばれる統計ツールをグラフィカルに表現した図です。階層的クラスタリングの目的は、k Î [1,...,N] のように k クラスターの一連の N クラスタリングを定義し、結果のクラスターでネストされたシーケンスを構成することです。 凝縮アルゴリズムは N 属性の最初のセットから開始し、N シングルトンクラスターと見なされます。 各ステップでは、2 つの最も類似したクラスターを特定し、それらをマージして 1 つの新しいクラスターを形成して進めます。すべての属性が 1 つのクラスターにマージされるまで、このステップが繰り返されます。 属性の類似性は、値を範囲 [-1,1] にする相関係数によって測定されます。
cov(x,y) は変数 X および Y 間の共分散を表します。σx は変数 X の標準偏差です。 樹形図の作成樹形図エディターを起動するには、メニューから [視覚化] > [樹形図] を選択します。あるいは、サイドバーのアイコン () をクリックして、[新規] をクリックします。
属性を検索する 属性はアルファベット順に一覧表示されます。属性を検索するには、スクロールバーを使用するか、[属性] フィールドに名前を入力します。 複製の作成
データをエクスポートする方法:
指定したファイル名でグラフィックをエクスポートする方法:
新しい属性選択を作成する方法:
別のグラフを作成する方法
樹形図を使用するとき 樹形図は属性間の類似性を分析するために使用する効果的なツールであり、相関が強すぎる属性を排除します (このため、おそらく冗長な情報が導入されます)。また、目標属性と入力属性の間といった、関心属性と他の属性との間の重要な相関関係を検出するうえでも役立ちます。 視覚化の例樹形図と相関行列を解釈し、目標 SUN_ENERGY_WEEK_AVRG (太陽光パネルから収集されたエネルギー) に影響する変数を特定します。 ヒント いくつかのヒントを示します。
必ず調査結果を検証してください。散布図を作成してください。 次の例は、FUEL_WEEK_AVRG_MODEL と太陽光パネルから収集されたエネルギーの相関関係を示しています。マイナス記号 (-) は、余剰太陽光があるときに燃料消費が低下していることを確認しています。SUN_ENERGY_WEEK_AVRG と SUN_WEEK_AVGR_HR |
と FUEL_WEEK_AVRG_MODEL |
の間の最小相関係数は -0.502452 |
です。 樹形図を解釈する方法 樹形図には相関する属性のグループが表示されます。これは相関行列の結果をグラフィカルにまとめた図です。注記: 樹形図は係数の絶対値を示しています。値範囲は -1~1 です。相関関係の強さ 0 は相関関係がないことを意味します。1 は完璧な相関関係 (正または負) を意味します。 相関行列を解釈する方法 特定の属性に最も相関している属性を確認するには、その属性をクリックします。この特定の属性に関連する係数の絶対値で表の行が並べ替えられます。ヘッダーをクリックすると、タグに相関する属性が降順 (相関関係の強い順) で並べ替えられます。 アイコンをクリックすると、フィルターを適用して、相関係数の最小絶対値に相関する属性のみを保持することができます。 例: タグ名の下の アイコンをクリックします。> 0.5 のフィールドが表示されます。つまり、係数が 0.5 より大きい値の列をフィルタリングしていることを意味します。フィールドは編集できます。> 0.8 のように他の値を入力できます。 |