Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Dendrograms

English us

For more information, see the online learning platform

A dendrogram is the graphical representation of a statistical tool called “hierarchical agglomerative clustering”. Hierarchical clustering aims at defining a sequence of N clusterings of k clusters, for k Î [1,...,N], so that the resulting clusters form a nested sequence.

The agglomerative algorithm starts with the initial set of N

attributes

variables, considered as N singleton clusters. At each step it proceeds by identifying the two most similar clusters and merging them to form a new cluster. This step is repeated until

all attributes

all variables have been merged together into a single cluster.

The similarity among

the attributes

the variables is measured by means of the correlation coefficient which takes its values into the range [-1,1]:

rho(x,y) = cov(x,y) / σxy

where, cov(x,y) represents the covariance between variables X and Y; and σx is the standard-deviation of variable X.

Create a Dendrogram

To launch the dendrogram editor, select Visualize > Dendrogram from the menu. Alternatively, click the icon (Image Modified) in the sidebar and then add New.

  1. Enter a chart Title.

  2. Select an

Object
  1. Record set from the list, if required. 

Select attributes from
  1. Select variables from the

Attribute
  1. Variable list and click Input.

Attributes
  1.  Variables used in dendrograms must be numerical.

  2. Click on Save.

  3. The Dendrogram tool generates two different views:

    1. Dendrogram tree (see tab Dendrogram) shows groups of linearly
correlated attributes
    1. correlated variables and clusters highly
correlated attributes
    1. correlated variables together on the tree. The closer the value is to 1 or -1 the higher the correlation. The higher correlated values are displayed on the right.
    2. Correlation matrix give the overall results of calculating linear correlation factors, i.e. for each pair of

attributes
    1. variables. Positive correlation factors are displayed in green, negative ones in red.

Tip
titleFind
an Attribute
a Variable
Attributes

Variables are listed alphabetically. To find

an attribute

a variable, use the scroll bar or enter the name in

the Attribute

the Variable field.

To clone:

  1. Click More actions > Clone  to clone the dendrogram or More actions > Clone as and select
Temporal Curves
  1. Trends, Dendrogram, Summary Chart or Multiplot. 

To export data:

  1. Click More actions > General Actions 

    1. Click Download Data. Choose the CSV format (CSV US or CSV EU). 
    2. Click Export Matrix to CSV to download the correlation matrix. Choose the CSV format (CSV US or CSV EU). 

To export graphic as:

  1. Click More actions > Export graphic as and select a file format; either PDF, PNG or SVG.

To create a

new attribute

new variable selection:

  1. In Correlation Matrix tab, use the check boxes to select the

attributes
  1. variables, one by one or select all using the first checkbox (beside the empty field used to filter

attributes
  1. variables). 

  2. Click on More Actions >
Attribute Selection
  1. Variable Selection. It is possible to create:
Attribute
  1.  Variable Set, Fill Missing Values, Differentiated
Attribute
  1. variable, Moving Average, Shifted
Attribute
  1. Variable

To create different charts:

  1. In Correlation Matrix tab, use the check boxes to select the

attributes
  1. variables, one by one or select all using the first checkbox (beside the empty field used to filter

attributes
  1. variables). 

  2. Click on More Actions >
Attribute Selection
  1. Variable Selection. It is possible to create: Histogram,
Temporal Curves
  1. Trends and a Dendrogram (using the new set of
attributes
  1. variables). 


Info
titleWhen to use a dendrogram?

A dendrogram is an effective tool to use to analyze similarities among the

attributes

variables, and

eliminating attributes

eliminating variables that are too correlated (and thus bringing probably redundant information). It is also useful for detecting important correlations between

an attribute

a variable of interest and the other

attributes

variables, for example, between a

goal attribute

goal variable and the input

attributes

variables.

Example Visualization

The following example illustrates the correlation of FUEL

Interpret the dendrogram and correlation matrix to identify which variables influence the target SUN_ENERGY_WEEK_AVRG

_MODEL with the

(energy gathered from solar panels

. The minus sign (-) confirms that when there is abundant sunlight, fuel consumption is lower. The minimum correlation coefficient between SUN_ENERGY_WEEK_AVRG and

)

Tip
titleTips

Here are some tips:

  1. First look at the Dendrogram tree view and isolate variables grouped together near the SUN_ENERGY_WEEK_AVRG with high correlation factor values (top scale represents the correlation factor in absolute value, maximum being unity).
  2. Go to Correlation matrix tab, search for SUN_ENERGY_WEEK_AVRG column, click on the column label to sort the correlation factor values. Rank the most influencing input variables on SUN_ENERGY_WEEK_AVRG.

Don’t forget to validate your findings! Create a Scatter plot


Tip
titleHow to interpret the Dendrogram tree

Dendrogram shows groups of correlated variables. This view is a graphical summary of the correlation matrix result. Note: the dendrogram shows absolute values of coefficient,  values range between -1 and 1. Strength of correlation 0 means no correlation and 1 means a perfect correlation (positive or negative). 

Dendrograms are easier to read from right to left. In the example below, the first two variables listed SUN_ENERGY_WEEK_AVRG and SUN_WEEK_AVRG_HR have a correlation coefficient of 0.53. The positive sign indicates that if SUN_ENERGY_WEEK_AVRG increases, SUN_WEEK_AVRG_HR will increase too (with a strength of 0.53). The strongest negative correlation is between this pair of variables and FUEL_WEEK_AVRG_HR, with a value of -0.50. The negative sign indicates that if FUEL_WEEK_AVRG_HR increases, the two others will decrease (with a strength of 0.50 at least). 

Image Added


Tip
titleHow to interpret the Correlation Matrix

To check which variables are the most correlated to a specific one, click on it. The row of the table will be sorted in terms of the absolute values of coefficients related to this specific variable. By clicking on header we can see the variables correlated to the tag in a decreasing order (from the most correlated to the least one) . 

By clicking on the Image Added icon, a filter can be applied to keep only variables that are correlated with a minimum absolute value of correlation coefficient.

E.g. Click on the Image Added icon under Tag Name. A field with > 0.5 appears, that means you are filtering your column with values with a coefficient bigger than 0.5. It is possible to edit the field, you can enter other values, for example, > 0.8.


In this second example below, the two most correlated variables are Profit/h and Meal_feed_B, with a correlation coefficient of 0.61 (a direct positive correlation). The strongest negative indirect correlation is between Wasteoil_feed and Fi_Coal_Petcoke_mix_feed with a value of -0.37. The strength of the correlation is given by the absolute value of the coefficient. Indeed, the sign just indicates the direction of the correlation.


Image Added

Create a Variable Set based on correlation to exclude “highly correlated” variables that bring redundant information: 

  1. Find Dendrogram under the Visualize and Models menus. 
  2. Once you have created the Dendrogram, under the more actions menu, select Create Variable Set Based on Correlation.
  3. Enter the Maximum correlation coefficient. For combinations of variables with a correlation higher than the maximum value, only of the group will be retained for the Variable set.
  4. Alternatively, click on the correlation value in the table to automatically fill the Maximum correlation value.
  5. The retained variables are highlighted in the table.
  6. For example, in the below dendrogram, a Maximum correlation of 0.85 would exclude one of either Rinsing temperature and Thermalisation temperature.


Image Added


Image Added



Japanese

樹形図


樹形図

樹形図は、「凝集型階層的クラスタリング」と呼ばれる統計ツールをグラフィカルに表現した図です。階層的クラスタリングの目的は、k Î [1,...,N] のように k クラスターの一連の N クラスタリングを定義し、結果のクラスターでネストされたシーケンスを構成することです。

凝縮アルゴリズムは N 属性の最初のセットから開始し、N シングルトンクラスターと見なされます。  各ステップでは、2 つの最も類似したクラスターを特定し、それらをマージして 1 つの新しいクラスターを形成して進めます。すべての属性が 1 つのクラスターにマージされるまで、このステップが繰り返されます。

属性の類似性は、値を範囲 [-1,1] にする相関係数によって測定されます。

rho(x,y) = cov(x,y) / σxy 

cov(x,y) は変数 X および Y 間の共分散を表します。σx は変数 X の標準偏差です。

樹形図の作成

樹形図エディターを起動するには、メニューから [視覚化] > [樹形図] を選択します。あるいは、サイドバーのアイコン (Image Added) をクリックして、[新規] をクリックします。

  1. グラフのタイトルを入力します。
  2. 必要に応じて、リストからオブジェクトセットを選択します。 
  3. [属性] リストから属性を選択し、[入力] をクリックします。樹形図で使用される属性は数値でなければなりません。
  4. [保存] をクリックします。
  5. 樹形図ツールでは、次の 2 つの異なるビューが表示されます。
    1. 樹形図 ([樹形図] タブを参照) には、線形的に相関する属性と相関関係が強い属性のクラスターのグループがまとめてツリーに表示されます。値が 1 または -1 に近いほど、相関関係が強くなります。高い相関関係値は右側に表示されます。
    2. [相関行列] には、属性の各ペアの線形相関係数を計算した全体的な結果が表示されます。正の相関係数は緑色で表示され、負の相関係数は赤色で表示されます。

属性を検索する

属性はアルファベット順に一覧表示されます。属性を検索するには、スクロールバーを使用するか、[属性] フィールドに名前を入力します。

複製の作成

  1. [その他のアクション] > [複製]  をクリックして樹形図を複製するか、[その他のアクション] > [名前を付けて複製] をクリックして、時間曲線、樹形図、集計グラフ、マルチプロットを選択します。 

データをエクスポートする方法:

  1. [その他のアクション] > [一般アクション] をクリックします。 
    1. [データのダウンロード] をクリックします。CSV 形式 (CSV US または CSV EU) を選択します。 
    2. [行列を CSV にエクスポート] をクリックすると、相関行列がダウンロードされます。CSV 形式 (CSV US または CSV EU) を選択します。 

指定したファイル名でグラフィックをエクスポートする方法:

  1. [その他のアクション] > [名前を付けてグラフィックをエクスポート] をクリックして、 PDF、PNG、または SVG からファイル形式を選択します。

新しい属性選択を作成する方法:

  1. [相関行列] タブで、チェックボックスを使用して属性を選択します。1 つずつ選択するか、(属性のフィルタリングで使用する空のフィールドの横にある) 最初のチェックボックスを使用してすべて選択します。 
  2. [その他のアクション] > [属性選択] をクリックします。次の項目を作成できます。属性セット、欠測値を入力、微分属性、移動平均、シフトされた属性。 

別のグラフを作成する方法

  1. [相関行列] タブで、チェックボックスを使用して属性を選択します。1 つずつ選択するか、(属性のフィルタリングで使用する空のフィールドの横にある) 最初のチェックボックスを使用してすべて選択します。 
  2. [その他のアクション] > [属性選択] をクリックします。次の項目を作成できます。ヒストグラム、時間曲線、樹形図 (新しい属性のセットを使用)。 


樹形図を使用するとき

樹形図は属性間の類似性を分析するために使用する効果的なツールであり、相関が強すぎる属性を排除します (このため、おそらく冗長な情報が導入されます)。また、目標属性と入力属性の間といった、関心属性と他の属性との間の重要な相関関係を検出するうえでも役立ちます。

視覚化の例

樹形図と相関行列を解釈し、目標 SUN_ENERGY_WEEK_AVRG (太陽光パネルから収集されたエネルギー) に影響する変数を特定します。 

ヒント 

いくつかのヒントを示します。

  1. まず、樹形図ビューを確認し、相関係数値が高い SUN_ENERGY_WEEK_AVRG 近くでグループ化された属性を分離します (上の目盛は絶対値の相関係数を表しています。最大値は 1 です)。
  2. [相関行列] タブに移動して、SUN_ENERGY_WEEK_AVRG 列を検索します。列ラベルをクリックすると、相関係数値が並べ替えられます。SUN_ENERGY_WEEK_AVRG で最も影響度が大きい入力属性を順位付けします。

必ず調査結果を検証してください。散布図を作成してください。 

次の例は、FUEL_WEEK_AVRG_MODEL と太陽光パネルから収集されたエネルギーの相関関係を示しています。マイナス記号 (-) は、余剰太陽光があるときに燃料消費が低下していることを確認しています。SUN_ENERGY_WEEK_AVRG と SUN_WEEK_AVGR_HR

and

FUEL_WEEK_AVRG_MODEL

is  Image Removed

の間の最小相関係数は -0.502452

.

です。

樹形図を解釈する方法

樹形図には相関する属性のグループが表示されます。これは相関行列の結果をグラフィカルにまとめた図です。注記: 樹形図は係数の絶対値を示しています。値範囲は -1~1 です。相関関係の強さ 0 は相関関係がないことを意味します。1 は完璧な相関関係 (正または負) を意味します。 

Image Added


相関行列を解釈する方法

特定の属性に最も相関している属性を確認するには、その属性をクリックします。この特定の属性に関連する係数の絶対値で表の行が並べ替えられます。ヘッダーをクリックすると、タグに相関する属性が降順 (相関関係の強い順) で並べ替えられます。 

Image Added  アイコンをクリックすると、フィルターを適用して、相関係数の最小絶対値に相関する属性のみを保持することができます。

例: タグ名の下の Image Added  アイコンをクリックします。> 0.5 のフィールドが表示されます。つまり、係数が 0.5 より大きい値の列をフィルタリングしていることを意味します。フィールドは編集できます。> 0.8 のように他の値を入力できます。