Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

English us

The Quick Start section is designed to help you get up and running fast. It describes how to create a simple project and use the core tools and functionality to secure a basic understanding.

Create a New Project

The data mining process is a complex sequence of tasks ranging from data selection and exploration to knowledge extraction and reporting. In DATAmaestro, this process takes place in the context of a project.

To start the process of mining and analyzing data, you must first create a new project and specify the data source. The project is saved inside a project model, which allows you to save various models, graphical items, data sets and variables sets.

To create a new project:

  1. Enter your sign in information and click Sign In.
  2. On the DATAmaestro welcome page, enter a name for your project.
  3. The name of your New Project appears in the top left corner of the home page.

Info
titleWhat is a project?

In DATAmaestro, a project is any analytical investigation conducted against data source(s). Project names often represent an area of study, for example, the name of an industrial plant or a division within it.

Use your own naming convention when you create new projects. After you create a project, you can make a copy of it and reuse the elements for a new project.

Upload a Data Source File

Data files must be uploaded to the DATAmaestro server before you can load them in your DATAmaestro project. You can assign one or more data source files to a project, but information cannot be shared between files.

CSV format or Excel data source files are valid uploads for your projects. Ensure your data source file is accurate and well formatted - your project depends on it. Anomalies and missing data can affect the output.

Tip
titleMicrosoft Excel add-in

To upload Excel files you must install a DATAmaestro Add-In, contact Technical Support. If required, you can use Excel to merge data before you upload a file to DATAmaestro.

To load a CSV file:

  1. Click Data Upload file on the menu, and Browse to locate the CSV file on your computer.
  2. Click Upload to copy the file to the DATAmaestro server.

  3. Click Load as dataset to load it to your project. 

    Tip
    titleFiles already uploaded?

    If your file is already uploaded but not loaded to your project, click Data > CSV file, and Browse to locate the file on DATAmaestro server.


  4. Select the Delimiter method that was used to create the file.
  5. If the Variables are defined in the header, select the check box. Uploading this information can be useful when you define the data type.

  6. Select the decimal separator for the number format in your CSV file: a period (.), or a comma (,).
  7. Select a Character encoding standard: utf-8 or ISO 8859-1.
  8. Click Retrieve to view the variable names and their data type.
  9. Review the variables and ensure the Type is correct; either, numerical or symbolic. If required, you can rename variables to give them more meaning.
  10. Click Load

Tools for the Job

Depending on your project objectives, you can use a combination of different tools and methods. Knowing which tool to use will simplify the process. The following table provides some typical inquiries and an entry point for you to start working with your data:

ObjectiveYour QuestionMethod(s)Considerations
Evaluate seasonal production rates.How can I see my production rates over the last five years?TrendsCreate a record set with a rule to define the five-years period. Then create a Trend using the variable that represents the production rate.
Assess the dependence level between the variables in a database.How can I see the relationships for a specific KPI?

Dendrograms


This tool produces a two views:

Dendrogram - a summary of the variable groups that have a high correlation frequency.
Correlation matrix - a table giving all the correlation factor values, one for each pair of variables.

Filter the data based on variables range limits. 

My normal variation range is less than 1100. How can I use this information to filter my data?

Record sets

Create a new record set using the “filter” rule and apply your control values (<1100) to the variable.

 
Change the nature of a subset of data, for example, change numbers into symbols.How can I convert a continuous variable in my database into quality levels? Functional variableCreate a Function variable to transform your numerical KPI into symbolic representations, for example, low, medium and high.
Export images and data. How can I use my analysis in a presentation to my team? I would also like to use the data in a report.

Export to PNG

Reports 

You can export any of the visualizations in PNG file format, as well, you can export subsets of your data for reporting purposes. 
Show a correlation between variables. How can I confirm how two variables are correlated? 

Scatter Plots 

Dendrograms

A scatter plot can show you how two variables are correlated. Correlations may be positive (rising, dots slope from lower left to upper right), negative (falling, dots slope from upper left to lower right) and none (uncorrelated).  

Understand the nature of the records in your a database.  

How can I find out if my database contains records that render a stable process with one production regime (homogeneous records), or transient periods and numerous production regimes (heterogeneous records)? 

PCA

K-Means

Use PCA to identify the variability in your database. Create 2 components and draw them with a Scatter Plot. If the records are homogeneous, the records typically form a compact cloud. If heterogeneous, the cloud is extended or distinct points.

Use K-Means to try and split your database into several groups of homogeneous clusters. If the method gives poor results, it means the records in your database are homogeneous, i.e. difficult to split. Conversely, if the method gives good results, it means your database records can be organized into several homogeneous clusters; confirming that your database is heterogeneous. 

Modeling Techniques

Model learning allows the interactive and iterative use of data mining methods. Some methods produce a model, which expresses the relationships between the input variables and the output variable. The model is added as a new variable which can then be used in turn as an input or output variable in subsequent steps of the data mining process (i.e. hybrid methods).

For more information, see Models.

Learn More

Try the Demo Project available at https://projects.mydatamaestro.com/static/welcome.html. The Demo Project includes developed features for all the visualizations and models available in DATAmaestro. You can explore the information that they reveal and see how each of these features is created. 

 You don't have to be a licensed subscriber to try DATAmaestro; simply sign up for a free trial.



Japanese

クイックスタート


 

「クイックスタート」セクションの目的は、ユーザーが短時間でソフトウェアに慣れ、操作できるように支援することです。シンプルなプロジェクトを作成し、主要なツールと機能を使用して、確実に基本事項を理解するための方法について説明します。

新しいプロジェクトの作成

データマイニングプロセスは、データ選択や解析から知識の抽出やレポートにまで及ぶ一連の複雑なタスクです。DATAmaestro では、このプロセスは「プロジェクト」というコンテキストで実行されます。

データの検索と分析のプロセスを開始するには、まず新しいプロジェクトを作成し、データソースを指定する必要があります。プロジェクトはプロジェクトモデル内に保存されます。これにより、さまざまなモデル、グラフィカル項目、データセット、変数セットを保存できます。

新しいプロジェクトの作成

  1. サインイン情報を入力し、[サインイン] をクリックします。
  2. DATAmaestro のウェルカムページでプロジェクトの名前を入力します。
  3. ホームページの左上に新しいプロジェクトの名前が表示されます。

プロジェクトの概要

DATAmaestro では、プロジェクトとは、データソースに対して実施されたすべての分析調査のことです。一般的に、プロジェクト名は調査の対象領域を表します (例: 産業プラント、プラント内の部署)。

新しいプロジェクトを作成するときには、独自の命名規約を使用します。プロジェクトを作成した後は、プロジェクトのコピーを作成し、新しいプロジェクトで要素を再利用できます。

データソースファイルのアップロード

DATAmaestro プロジェクトでデータファイルを使用する前に、データファイルを DATAmaestro サーバーにアップロードする必要があります。1 つ以上のデータソースファイルをプロジェクトに割り当てることができますが、ファイル間で情報を共有することはできません。

プロジェクトでは、CSV 形式または Excel データソースファイルをアップロードできます。データソースファイルが正確であり、正しい形式であることを確認してください。この点はプロジェクトにとって重要です。異常値やデータの欠落は出力結果に影響する可能性があります。

Microsoft Excel アドイン

Excel ファイルをアップロードするには、DATAmaestro アドインをインストールする必要があります。テクニカルサポートまでお問い合わせください。必要に応じて、ファイルを DATAmaestro にアップロードする前に Excel を使用してデータをマージできます。

CSV ファイルのアップロード

  1. メニューで [データ] [ファイルのアップロード] をクリックし、[参照] をクリックしてコンピューターにある CSV ファイルを検索します。
  2. [アップロード] をクリックして、ファイルを DATAmaestro サーバーにコピーします。
  3. [データセットとして読み込む] をクリックして、ファイルをプロジェクトに読み込みます。 

ファイルがすでにアップロードされている場合

ファイルがすでにアップロードされていて、プロジェクトには読み込まれていない場合、[データ] > [CSV ファイル] をクリックし、[参照] をクリックして DATAmaestro サーバーにあるファイルを検索します。

  1. ファイルの作成で使用した区切り文字を選択します。
  2. ヘッダーで属性が定義されている場合は、チェックボックスをオンにします。この情報をアップロードすると、データ型を定義するときに役立つことがあります。
  3. CSV ファイルの数値形式の小数点区切り文字を選択します。ピリオド (.) またはカンマ (,) です。
  4. 文字エンコーディング標準を選択します。utf-8 または ISO 8859-1 です。
  5. [取得] をクリックして、属性名とデータ型を表示します。
  6. 属性を確認し、[型] が正しい (数値または記号) ことを確認します。必要に応じて、属性の名前を変更し、わかりやすい名前にすることができます。
  7. [読み込み] をクリックします。 

ジョブのツール

プロジェクトの目的によっては、さまざまなツールや方法を組み合わせて使用することができます。使うべきツールを理解していると、プロセスが簡素化されます。次の表では、いくつかの一般的な質問と、データの操作を開始するための基本事項について説明します。

目的

質問

方法

考慮事項

季節ごとの生産率を評価する。

どのようにすれば過去 5 年間の生産率を確認できますか。

時間曲線

ルールを使用してオブジェクトセットを作成し、5 年間の期間を定義します。次に、生産率を表す属性を使用して、時間曲線を作成します。

データベースの変数の間の依存レベルを評価する。

どのようにすれば特定の KPI の関係を確認できますか。

樹形図

 

このツールでは次の 2 つのビューが表示されます。

樹形図 - 高い相関関係度数を示す変数グループの概要。
相関行列 - 相関係数値を示す表。各変数ペアにつき 1 つの相関係数があります。

属性範囲に基づいてデータをフィルタリングする。 

標準の変動範囲は 1100 未満です。どのようにすればこの情報を使用してデータをフィルタリングできますか。

オブジェクトセット

「フィルター」ルールを使用して新しいオブジェクトセットを作成し、対照値 (1100 未満) を属性に適用します。

 

データのサブセットの特性を変更します。たとえば、数値から記号に変更します。

どのようにすればデータベースの連続型変数を品質水準のデータに変換できますか。 

機能属性

機能属性を作成して、数値の KPI を低、中、高などの記号的な表現に変換します。

画像とデータをエクスポートする。 

どのようにすればチームに対するプレゼンテーションで分析を使用できますか。レポートのデータも使用するつもりです。

PNG にエクスポート

レポート 

PNG ファイル形式で任意の視覚化をエクスポートできます。また、レポート目的でデータのサブセットをエクスポートすることもできます。 

属性間の相関関係を示します。 

どのようにすれば 2 つの属性の相関関係を確認できますか。 

散布図 

樹形図

散布図は 2 つの属性の間にどのような相関関係があるのかを示すことができます。相関関係は正 (上昇、左下から右上に向かう点の傾き)、負 (下降、左上から右下に向かう点の傾き)、なし (相関関係なし) の場合があります。  

データベースのレコードの特性を理解する。  

どのようにすれば、1 つのプロダクションレジームの安定したプロセスを表すレコード (同質のレコード) がデータベースに含まれているのか、一時的な期間と多数のプロダクションレジーム (異質のレコード) が含まれているのかを確認できますか。 

PCA

k平均法

PCA を使用して、データベースのばらつきを特定します。2 つのコンポーネントを作成し、散布図に描画します。レコードが同質である場合は、一般的に、オブジェクトは小型の雲の形状になります。異質である場合は、雲が広がるか、異なる点になります。

k平均法を使用して、データベースを同質のクラスターの複数のグループに分割します。この方法で良い結果が得られない場合は、データベースのレコードが同質である (分割が難しい) ことを意味します。逆に、この方法で良い結果が得られた場合は、データベースオブジェクトを複数の同質クラスターに整理し、データベースが異質であることを確認できることを意味します。 

モデリング手法

モデル学習では、データマイニング方法を対話式で繰り返し使用することができます。一部の方法ではモデルが生成されます。このモデルは、入力属性と出力変数の間の関係を表します。モデルは新しい属性として追加されます。それから、データマイニングプロセスの後続の手順で入力または出力変数として使用することができます (ハイブリッド方法)。

詳細については、モデルを参照してください。

詳細

https://projects.mydatamaestro.com/static/welcome.html のデモプロジェクトをお試しください。デモプロジェクトには、DATAmaestro で提供されているすべての視覚化とモデル向けに開発された機能が含まれています。公開される情報を検討し、これらの各機能がどのように作成されるのかを確認できます。 

 DATAmaestro の試用では、契約に基づくライセンスは必要ありません。無料試用版に登録するだけでご利用いただけます。