Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.


English us

Upload CSV or DMFF file

This features allows the user to upload data (.csv or .dmff file format) to build (or complete) the database that will be used in any future DATAmaestro projects. Data is uploaded from your local computer drive onto the DATAmaestro cloud server and saved in a specific DATAmaestro Lake Folder to ensure complete data security. Once uploaded, it is possible to export data entirely and/or partially to any DATAmaestro Analytics projects. This provides a high-degree of flexibility in data preparation, while maintaining data integrity.

To upload a CSV or DMFF file:

  1. Click Upload in the main menu.  

  2. Click Choose file to select the file to be uploaded. Remark: CSV and DMFF files can be uploaded.

  3. Check CSV Preview. While uploading data from CSV, the software automatically detects the file format (Column Delimiter and Number Format) and provides a preview of the file content and how it is read by the system. Have your columns been correctly identified and separated? Click on Forward Backward arrows to move through database one frame at the time. Click on Option-Left or - Right arrows to jump to the end or beginning of the dataset. 

    Info
    titleCSV Preview

    Preview attempts to interpret your data (Date columns, numerical or symbolic variables), different colour is assigned to the column, depending on the type data type original value below. Hover over the “eye” to display the original value below. 


  4. Select Delimiter - Options: comma (default) or semicolon. File formats that use delimiter-separated values store arrays of data by separating the values in each row with specific delimiter characters. Any character can be used to separate values but most common are comma, tab and colon. CSV stands for comma-separated values but many datasets use a delimiter other than a comma. Typically, if you decimal separator (number format is decimal, then your delimiter is a comma, while a comma number format generally indicates a semicolon delimiter).

  5. Select Number format. Options: 1234.50 (default) or 1234,50

  6. Select the variables defined in headers. Checkbox Variables names defined in headers? is checked by default. Generally used if the file has more than one header. Select in Row 1 the definition of the header. Options: name,title, unit, classifier or skip. + Add Header Row  to add more headers. 

    Info
    titleClassifiers

    Classifiers are metadata saved to a data file (DMFF or CSV). It classifies variables according to different categories. Categories include type (symbolic/numerical), Parameter, Location, etc. For example, the variable “Steel plate thickness” can be classified as a Parameter defined as a “Dimension” and the variable “Chemical type” can be classified as a Parameter defined as a “Chemical”. For more information please check Classify Variables


  7. Are your characters displayed correctly? If characters are not displayed correctly select the Charset click on Characters are not displayed correctly ? on bottom right corner of table. The web browser must know which Charset (Character Set or Character Encoding) to use, in order to display an HTML page correctly. Options: UTF-8 (Unicode) covers almost all characters and symbols in the world, it is used by default; ISO-8859-1 supports 256 different character codes;  windows-1252 is the original Windows character sets which support for 256 character codes. Mac Roman is a character encoding used by classic Mac OS to represent the text.

  8. Click Next

  9. Check CSV Preview. Have your columns' type been correctly identified as numerical, symbolic or time? If no temporal variable is available, a message appears on top right corner of the table: Warning: No temporal column selected. If your file has no temporal column, please upload it directly in DATAmaestro Analytics > Quick Start Upload. If required, click on Previous to go backwards.  

  10. Click Next.

  11. Click on each column, if required, to edit column information. 

    1. Enter new Name, if required.

    2. Enter Title, if required. 

    3. Select different type if the column's type was wrongly automatically defined: Symbolic, Numerical, Time. 

    4. Enter Units, of required. 

  12. If time column is not selected, the column is blue (numerical value). Click on the column and the column information is displayed on the bottom. Note: Temporal variables (green column), Numeric variables (grey column) and Symbolic variables (blue column). 

  13. Select Time Format. Options: Excel time (default), Excel for Mac time, Unix time (ms), Unix time (s) and Text. For more information about the time format, please check Glossary. If the time information is not correctly detected, please manually correct it by trying other type settings under “Time Format”.If the Time is Text, enter the Time format. Remark: Text time is a Java format. Click on question mark to find different pattern syntax examples. Example: dd/MM/yyyy HH:mm:ss,SSS. ).

    Letter

    Description

    d

    Day of the month

    D

    Day of the year

    M

    Month of the year

    m

    Minutes

    y

    Year

    H

    Hour (0-23)

    h

    Hour in AM/PM (1-12)

    s

    Seconds

    S

    Milliseconds


    Info
    titleTime zone

    If your data time parameter is in Unix time no time zone is required. If your data time is Excel time or Text, you can click on Click “Time zone options” to allow data to be referenced in a “universal time” reference system. 


  14. Choose Time zone options. Example: Europe/Brussels or +02:00. This feature allows the data to be referenced in an “absolute time” reference system and thus to be compared with other data extracted at other time zones.

    1. Use Default to set as Region, defined as the time zone option by default. 

    2. Region (eg. Europe/Brussels): Select this option if the data time offset compared to GMT is different in Summer compared to Winter, even if you have data that DOES NOT overlap a daylight saving boundary (less than 6 months of data). E.g. Paris is one hour ahead of Greenwich in Winter and two hours ahead of Greenwich in Summer. 

      Info
      titleRegion time zone

      Hint 1: If your data comes from a region without daylight savings, you can select either Fixed Time Offset or Region.
      Hint 2: Generally, databases and data historians use a fixed time offset. If you are still unsure, would your data have two lines for 2am in Winter and skip 2am in summer?


    3. Fixed Offset (+02:00): Select this option if the data is always offset a fix amount form GMT, regardless of summer or winter time changes. 

      Info
      titleFixed time Offset

      Hint 1: If your data comes from a region without daylight savings, you can select either Fixed Time Offset or Region.
      Hint 2: Generally, databases and data historians use a fixed time offset. If you are still unsure, would your data have two lines for 2am in Winter and skip 2am in summer?


  15. Click Next.

  16. Check box Skip Existing Values. Activate if uploading data that 1/ overlaps previously uploaded data OR 2/ has duplicate times (e.g. during Daylight Saving Time change from Summer to Winter). When "Skip Existing Values" is activated, the duplicate data will be skipped (not replaced) and no error message will be displayed. If deactivated, an error message will appear. Remark: Data must be inserted chronologically. 

    Info
    titleChronological order

    Data in the lake should be inserted chronologically. When data is uploaded, the csv file will be read from line 1 to last line. First data line should correspond to the lowest date-time and last data should be the highest date. It enables very fast reading performance. In the lake, it is impossible to write in the past, if the line are not chronologically (ascending). 


  17. Choose Mode. Options: Append (to attach new data into the Folder) or Reset (to clean all data before entering new input).

  18. Choose the Current Folder, if there is already a Folder. This is the folder location where data should be saved.

  19. Enter a New sub Folder, if required. If data should be saved within a new sub-folder, create a new sub-folder by entering the name here.

  20. Click Upload

Info
titleLake Explorer

After upload, the page is redirectly to the DM Lake Explorer. To check if files are uploaded correctly, select one tag, then, select the “Stats” tab. 

Pay attention to the date “from date” and “to date”, by default it will show statistics for the last week. Either set the date range of your data file, or delete the “From date”.

Note on Duplicate names: 

Sometimes there are duplicate column names in the file. The system will provide a warning and the column number(s) for the duplicates. You will be able to correct this by changing the column name at step 2 of the uploader wizard.

 In this example below, the duplicated column 9, Batch_Disc, is in blue. On Data upload 2/3 - Define variables as time, text or numbers: 

  1. Click on the column number for each duplicate.

  2. Then under “Name” change the name of the tag.

Note on "Skip existing values":

1.Select the option “Skip existing values”:

  • To upload data with non-monotonically  increasing time stamps.

    • Example 1: Data is not chronological. As data must be uploaded chronologically, if “Skip existing values” is not active, an error message will be displayed. If “Skip existing values” is active, the data will be uploaded, skipping the 2017 lines.

  • To upload data containing time stamps older than already stored data (with Append mode).

    • Example 2: Based on the previously uploaded file in Example 1, we decide to change the values of Tag 1 and add additional lines before and after the previously uploaded data. As data is not monotonically increasing, if “Skip existing values” is not active, an error message will be displayed. If “Skip existing values” is displayed, the data will be uploaded, skipping the 2017 lines again, skipping the lines before 02:00 and duplicating the line for 10:00 (as we now have a different value). However, it will not overwrite the previously uploaded values (for that use Reset, refer next slide).

  • BUT, non-monotonically increasing time stamps or not properly ordered time stamps will not be uploaded (skipped).


Note to merge multiple files:

To merge data files for the same variables or tags, upload them in chronological order in the same folder using the Mode “Append”.

For example, there are two files both with the same tags but one file has 2018 data and the other file has 2019 data.

  1. To merge these two files using the Lake, follow the uploader steps 1 – 3 for the 2018 file. At step 3, select a “Current Folder” e.g. “Plant1” and create a “New sub folder” e.g. “Line1” (location will be “Plant1/Line1”).
  2. Repeat steps 1 – 3 for the 2019 file, at step 3, select Mode Append and under current folder, select “Plant1/Line” and leave “New sub folder” blank.

To merge data files for different variables, they can be uploaded in the same or different sub-directories. At export, it is possible to export variables from different sub-directories.

...

Japanese

アップロード

CSV または DMFF ファイルのアップロード 

この機能では、データ (.csv または .dmff ファイル形式) をアップロードして、今後の DATAmaestro プロジェクトで使用されるデータベースを構築 (または入力) できます。データはローカルコンピューターのドライブから  DATAmaestro クラウドサーバーにアップロードされ、特定の DATAlake ディレクトリ (= データベース/フォルダー) に保存されるため、データの安全性が確実に保証されます。アップロードが完了した後は、データの全体または一部を任意の DATAmaestro Analytics プロジェクトにエクスポートできます。これにより、データの整合性を維持しながら、データ準備における高い柔軟性を実現できます。 

CSV または DMFF ファイルのアップロード:

  1. メインメニューで [アップロード] をクリックします。  
  2. [ファイルを選択] をクリックして、アップロードするファイルを選択します。備考: CSV および DMFF ファイルをアップロードできます。
  3. [CSV プレビュー] をクリックします。CSV からデータをアップロードしているときには、ファイル形式 (列区切りおよび数値形式) が自動的に検出され、ファイルの内容とシステムでの読み取り方法が表示されます。列が正しく特定され、区切られていることを確認する前へ/次へ矢印をクリックすると、1 つずつデータベースのフレームを移動できます。オプション左/右矢印をクリックすると、データセットの先頭または末尾に移動します。 

    CSV プレビュー

    プレビューはデータ (データ列、数値、記号変数) の解釈を試みます。元の値のデータ型に応じて、異なる色が列に割り当てられます。「目」の上にカーソルを置くと、元の値が表示されます。 

  4. [区切り文字 -] を選択します。オプション: カンマ (既定) またはセミコロンです。区切り文字で区切られた値を使用するファイル形式では、各行の値を特定の区切り文字で区切って、データの配列が格納されます。値を区切るのにはすべての文字を使用できますが、一般的にはカンマ、タブ、コロンが使用されます。CSV はカンマ区切り値を表しますが、多くのデータセットではカンマ以外の区切り文字が使用されます。一般的には、桁区切り文字 (数値形式が 10 進数) の場合、区切り文字はカンマです。一般的に、カンマの数値形式ではセミコロンの区切り文字を指定します。 
  5. [数値形式] を選択します。オプション: 1234.50 (既定) または 1234,50 
  6. ヘッダーで定義された変数を選択します。既定では、[変数名がヘッダーで定義されている] チェックボックスはオンです。一般的に、ファイルに複数のヘッダーがある場合に使用されます。行 1 でヘッダーの定義を選択します。オプション: 名前、タイトル、単位、分類子、スキップ。他のヘッダーを追加するには、[+ ヘッダー行の追加] をクリックします。 

    分類子

    分類子はデータファイル (DMFF または CSV) に保存されるメタデータです。さまざまなカテゴリに従って属性を分類します。カテゴリには型 (記号/数値)、パラメーター、場所などがあります。たとえば、変数「Steel plate thickness」は「Dimension」として定義されたパラメーターに分類できます。変数「Chemical type」は「Chemical」として定義されたパラメーターに分類できます。詳細については、属性の分類を確認してください。 

  7. 文字が正しく表示されない文字が正しく表示されない場合は、[文字セット] を選択し、表の右下の [文字が正しく表示されない] をクリックします。Web ブラウザーでは、HTML ページを正しく表示するために使用する文字セット (文字セットまたは文字エンコーディング) を認識する必要があります。オプション: UTF-8 (Unicode) は世界中のほぼすべての文字と記号に対応します。既定では UTF が使用されます。ISO-8859-1 は 256 種類の異なる文字コードをサポートします。windows-1252 は 256 種類の文字コードをサポートする元の Windows 文字セットです。Mac Roman はクラシック Mac OS でテキストを表示するために使用される文字エンコーディングです。
  8. [次へ] をクリックします。 
  9. [CSV プレビュー] をクリックします。列の型が数値、記号、または時刻として正しく特定されていない時間変数が使用できない場合は、表の右上に次のメッセージが表示されます。警告:  時間列が選択されていませんファイルに時間列がない場合は、[DATAmaestro Analytics] > [クイックスタートアップロード] で直接アップロードしてください。必要に応じて、[前へ] をクリックして前の手順に戻ります。  
  10. [次へ] をクリックします。 
  11. 必要に応じて、各列をクリックし、列情報を編集します。

                    1. 必要に応じて、新しい名前を入力します。 

                    2. 必要に応じて、タイトルを入力します。 

                    3. 列の型の自動定義が正しくない場合は、別の型を選択します。記号、数値、時刻。 

                    4. 必要に応じて、単位を入力します。 

  12. 時刻列が選択されていない場合、列は青色 (数値) です。列をクリックすると、列情報が下部に表示されます。注記: 時間変数 (緑色の列)、数値変数 (灰色の列)、記号変数 (青色の列)。
  13. [時刻形式] を選択します。オプション: Excel 時間 (既定)、Excel for Mac 時間、Unix 時間 (ミリ秒)、Unix 時間 (s)、テキスト時刻形式の詳細については、「用語集」を確認してください。時刻情報が正しく検出されない場合は、[時刻形式] の下で他の型設定を試し、手動で修正してください。時刻がテキストの場合、[時刻形式] を入力します。備考: テキスト時刻は Java 形式です。疑問符をクリックすると、さまざまなパターン構文の例が表示されます。例: dd/MM/yyyy HH:mm:ss,SSS). 


    文字  説明 

    d   月の日 

    D   通日

    M   月 

    m   分 

    y    

    H    時刻 (0-23) 

    h    AM/PM 形式の時刻 (1-12)

    s    秒 

    タイムゾーン 

    データ時刻パラメーターが Unix 時刻の場合、タイムゾーンは必要ありません。データ時刻が Excel 時間またはテキストの場合、[タイムゾーン] オプションをクリックすると、「ユニバーサル時刻」参照システムでデータを参照できます。
  14. [タイムゾーン] オプションを選択します。例: 欧州/ブリュッセル +02:00この機能では、「絶対時刻」参照システムでデータを参照できるため、他のタイムゾーンで抽出された他のデータと比較できます

               1. 既定値を使用して、既定でタイムゾーンオプションとして定義されたように、[地域] として設定します。 

               2. 地域 (例: 欧州/ブリュッセル): GMT と比較したデータ時間オフセットが夏と冬で異なる場合は、データが夏時間の期間に入らない場合 (6 か月未満のデータ) でも、                  こ のオプションを選択します。例: パリは、冬はグリニッジ標準時より 1 時間進んでいますが、夏はグリニッジ標準時より 2 時間進んでいます。 
    1.      地域タイムゾーン

          ヒント 1: 夏時間が導入されていない地域のデータの場合は、[固定時間オフセット] または [地域] を選択できます。

    2.     ヒント 2: 一般的に、データベースとデータヒストリアンは固定時間オフセットを使用します。わかりくにい場合は、冬には 2am が 2 行あり、夏には 2am が省略さ       れているかどうかを考えてください。

       3. 固定オフセット (+02:00): 夏と冬の時間変更に関係なく、常に固定の量が GMT からオフセットされる場合は、このオプションを選択します。

           固定時間オフセット

           ヒント 1: 夏時間が導入されていない地域のデータの場合は、[固定時間オフセット] または [地域] を選択できます。
           ヒント 2: 一般的に、データベースとデータヒストリアンは固定時間オフセットを使用します。わかりくにい場合は、冬には 2am が 2 行あり、夏には 2am が省略さ       れているかどうかを考えてください。


  15. [次へ] をクリックします。
  16. [既存の値をスキップ] ボックスをオンにします。1/ が以前にアップロードされたデータと重複するか、2/ の時間が重複する場合は、有効にします (例: 夏時間には夏から冬に変わります)。[既存の値をスキップ] が有効であるときには、重複データがスキップされます (置換されません)。エラーメッセージは表示されません。無効な場合は、エラーメッセージが表示されます。備考: データは時系列で挿入される必要があります。 時系列  Lake のデータは時系列で挿入されます。データがアップロードされるときには、CSV ファイルが行 1 から最後の行まで読み取られます。最初のデータ行は最も古い日付時刻に対応し、最後のデータは最も新しい日付に対応します。これにより、非常に高速の読み取りパフォーマンスを実現できます。行が時系列ではない場合 (昇順の場合)、Lake では過去に書き込むことはできません
  17. モードを選択します。オプション: 追加 (新しいデータをディレクトリに追加) またはリセット (新しい入力の前にすべてのデータを消去)。
  18. すでにディレクトリがある場合は、[現在のディレクトリ] を選択します。データはこのフォルダーに保存されます。
  19. 必要に応じて、新しいサブディレクトリを入力します。データを新しいサブフォルダーに保存する場合は、ここに名前を入力して、新しいサブフォルダーを作成します。
  20. [アップロード] をクリックします。 


Lake Explorer

アップロード後、ページは DM Lake Explorer に移動します。ファイルが正常にアップロードされたかどうかを確認するには、1 つのタグを選択し、[統計情報] タブを選択します。 

「開始日」と「終了日」の日付に注意してください。既定では、先週の統計情報が表示されます。データファイルの日付範囲を設定するか、「開始日」を削除します。

重複する名前の関する注記: 

場合によっては、ファイル名が重複していることがあります。この場合、警告と重複している列番号が表示されます。これを修正するには、アップロードウィザードのステップ 2 で列名を変更します。

 次の例では、重複する列 9 Batch_Disc が青色で表示されています。データアップロード 2/3 - 変数を時刻、テキスト、または数値として定義してください。 

  1. 各重複の列番号をクリックします。
  2. [名前] の下でタグ名を変更します。

Image RemovedImage Added


[既存の値をスキップ] に関する注記:

  1. [既存の値をスキップ] オプションを選択します。
  • タイムスタンプが非単調に増加するデータをアップロードする
    • 例 1: データは時系列ではありません。データは時系列でアップロードする必要があるため、[既存の値をスキップ] が有効ではない場合、エラーメッセージが表示されます。[既存の値をスキップ] が有効な場合、データがアップロードされ、2017 の行がスキップされます
  • すでに保存されたデータよりも古いタイムスタンプを含むデータをアップロードする (「追加」モード)
  • 例 2: 例 1 でアップロードしたファイルに基づいて、Tag 1 の値を変更し、アップロードしたデータの前後に行を追加します。データは単調に増加していないため、[既存の値をスキップ] が有効ではない場合、エラーメッセージが表示されます。[既存の値をスキップ] が表示されている場合は、データがアップロードされ、もう一度 2017 の行がスキップされます。また、02:00 の前の行がスキップされ、10:00 の行が重複します (今は別の値があるため)。ただし、以前にアップロードした値は上書きされません。上書きする場合は、「リセット」を使用します (次のスライドを参照)。
  • ただし、非単調に増加しているか、適切な順序ではないタイムスタンプはアップロードされません (スキップされます)。



複数のファイルをマージする際の注記:

同じ変数またはタグのデータファイルをマージするには、「追加」モードを使用して、同じディレクトリで時系列でアップロードします。

たとえば、同じタグの 2 つのファイルがあり、1 つのファイルが 2018 のデータで、もう一つのファイルが 2019 のデータだとします。

  1. Lake を使用してこの 2 つのファイルをマージするには、2018 ファイルのアップロードステップ 1~3 に従います。ステップ 3 で、「Plant1」などの [現在のディレクトリ] を選択し、「Line1」などの [新しいサブディレクトリ] を作成します (場所は「Plant1/Line1」です)。
  2. 2019 ファイルでステップ 1~3 を繰り返します。ステップ 3 で「追加」モードを選択します。現在のディレクトリの下で「Plant1/Line1」を選択し、[新しいサブディレクトリ] を空欄にします。

別の変数のデータファイルをマージするには、同じサブディレクトリまたは別のサブディレクトリでアップロードできます。エクスポート時には、別のサブディレクトリから変数をエクスポートできます

...