English us | ||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A dendrogram is the graphical representation of a statistical tool called “hierarchical agglomerative clustering”. Hierarchical clustering aims at defining a sequence of N clusterings of k clusters, for k Î [1,...,N], so that the resulting clusters form a nested sequence. The agglomerative algorithm starts with the initial set of N variables, considered as N singleton clusters. At each step it proceeds by identifying the two most similar clusters and merging them to form a new cluster. This step is repeated until all variables have been merged together into a single cluster. The similarity among the variables is measured by means of the correlation coefficient which takes its values into the range [-1,1]:
where, cov(x,y) represents the covariance between variables X and Y; and σx is the standard-deviation of variable X. Create a DendrogramTo launch the dendrogram editor, select Visualize > Dendrogram from the menu. Alternatively, click the icon () in the sidebar and then add New.
To clone:
To export data:
To export graphic as:
To create a new variable selection:
To create different charts:
Example VisualizationInterpret the dendrogram and correlation matrix to identify which variables influence the target SUN_ENERGY_WEEK_AVRG (energy gathered from solar panels).
Dendrograms are easier to read from right to left. In the example below, the first two variables listed SUN_ENERGY_WEEK_AVRG and SUN_WEEK_AVRG_HR have a correlation coefficient of 0.53. The positive sign indicates that if SUN_ENERGY_WEEK_AVRG increases, SUN_WEEK_AVRG_HR will increase too (with a strength of 0.53). The strongest negative correlation is between this pair of variables and FUEL_WEEK_AVRG_HR, with a value of -0.50. The negative sign indicates that if FUEL_WEEK_AVRG_HR increases, the two others will decrease (with a strength of 0.50 at least).
In this second example below, the two most correlated variables are Profit/h and Meal_feed_B, with a correlation coefficient of 0.61 (a direct positive correlation). The strongest negative indirect correlation is between Wasteoil_feed and Fi_Coal_Petcoke_mix_feed with a value of -0.37. The strength of the correlation is given by the absolute value of the coefficient. Indeed, the sign just indicates the direction of the correlation. |
Japanese | |
---|---|
樹形図樹形図樹形図は、「凝集型階層的クラスタリング」と呼ばれる統計ツールをグラフィカルに表現した図です。階層的クラスタリングの目的は、k Î [1,...,N] のように k クラスターの一連の N クラスタリングを定義し、結果のクラスターでネストされたシーケンスを構成することです。 凝縮アルゴリズムは N 属性の最初のセットから開始し、N シングルトンクラスターと見なされます。 各ステップでは、2 つの最も類似したクラスターを特定し、それらをマージして 1 つの新しいクラスターを形成して進めます。すべての属性が 1 つのクラスターにマージされるまで、このステップが繰り返されます。 属性の類似性は、値を範囲 [-1,1] にする相関係数によって測定されます。
cov(x,y) は変数 X および Y 間の共分散を表します。σx は変数 X の標準偏差です。 樹形図の作成樹形図エディターを起動するには、メニューから [視覚化] > [樹形図] を選択します。あるいは、サイドバーのアイコン () をクリックして、[新規] をクリックします。
属性を検索する 属性はアルファベット順に一覧表示されます。属性を検索するには、スクロールバーを使用するか、[属性] フィールドに名前を入力します。 複製の作成
データをエクスポートする方法:
指定したファイル名でグラフィックをエクスポートする方法:
新しい属性選択を作成する方法:
別のグラフを作成する方法
樹形図を使用するとき 樹形図は属性間の類似性を分析するために使用する効果的なツールであり、相関が強すぎる属性を排除します (このため、おそらく冗長な情報が導入されます)。また、目標属性と入力属性の間といった、関心属性と他の属性との間の重要な相関関係を検出するうえでも役立ちます。 視覚化の例樹形図と相関行列を解釈し、目標 SUN_ENERGY_WEEK_AVRG (太陽光パネルから収集されたエネルギー) に影響する変数を特定します。 ヒント いくつかのヒントを示します。
必ず調査結果を検証してください。散布図を作成してください。 次の例は、FUEL_WEEK_AVRG_MODEL と太陽光パネルから収集されたエネルギーの相関関係を示しています。マイナス記号 (-) は、余剰太陽光があるときに燃料消費が低下していることを確認しています。SUN_ENERGY_WEEK_AVRG と SUN_WEEK_AVGR_HR と FUEL_WEEK_AVRG_MODEL の間の最小相関係数は -0.502452 です。 樹形図を解釈する方法 樹形図には相関する属性のグループが表示されます。これは相関行列の結果をグラフィカルにまとめた図です。注記: 樹形図は係数の絶対値を示しています。値範囲は -1~1 です。相関関係の強さ 0 は相関関係がないことを意味します。1 は完璧な相関関係 (正または負) を意味します。 相関行列を解釈する方法 特定の属性に最も相関している属性を確認するには、その属性をクリックします。この特定の属性に関連する係数の絶対値で表の行が並べ替えられます。ヘッダーをクリックすると、タグに相関する属性が降順 (相関関係の強い順) で並べ替えられます。 アイコンをクリックすると、フィルターを適用して、相関係数の最小絶対値に相関する属性のみを保持することができます。 例: タグ名の下の アイコンをクリックします。> 0.5 のフィールドが表示されます。つまり、係数が 0.5 より大きい値の列をフィルタリングしていることを意味します。フィールドは編集できます。> 0.8 のように他の値を入力できます。 |