Activation function (ANN)

Transfer function that translates the input signals into output signals in a neural network. It connects the weights of a neuron to the inputs and determines the state or activation of the neuron. It is a function that switches the neuron “ON” and “OFF” depending on the input. Three activation functions are available: Sigmoid, Linear, Hyperbolic tangent.


Boosting ensemble learning method used for regression and classification problems. at each iteration of the algorithm it builds a single tree by emphasizing the weights of the records that are misclassified or have a higher prediction error in the previous tree. It modifies the weights for the prediction of the next tree during training and, it uses the new weight vector to build the next tree.

Alpha Values (Decision trees)

Tests of statistical significance estimate how reliable the results are from a study based on a randomly selected sample. Indirectly it controls the size of the decision tree. Its main objective is to avoid splitting nodes if there is no statistical significance to split the node records as stated in the test node. A higher alpha value leads to a more detailed tree, while a lower alpha value results in a simplified model. Set by default to 0.01.

Alpha (PRIM Optimization)

It is the proportion of data to be eliminated at each step in the construction of a PRIM model. For example, an alpha value of 0.1 will eliminate maximum 10% of data in each step. Set by default to 0.05 in DATAmaestro.

Artificial Neural Network

Machine learning algorithm used for classification and regression. It is a set of connected input/output units in which each connection has a weight associated to it. During learning, the network learns by adjusting the weights. The inputs pass through an input layer, are weighted and fed simultaneously to the second layer (hidden layer). The outputs of one hidden layer can be inputs of another hidden layer and so on.

Average (Statistical information) 

Arithmetic mean for a given variable across a given dataset.

Average (Filling missing value) 

Technique used to fill missing values. This method will create a new variable and replace missing values in the data set with the arithmetic mean of the original variable.

Beta (PRIM)

It sets the stopping criteria for the PRIM algorithm. It is equivalent to the minimum proportion of data remaining in the final box (optimized zone).

Box Number (PRIM)

It defines the number of boxes to be built for PRIM analysis.

Box (PRIM)

It is an optimized zone identified within the historical data for a given output variable based on constrained ranges of all input variables. It is possible to construct multiple boxes (optimized zones).

Box plot 

Method for illustrating the distribution of data by means of quartiles. Quartiles of data are three points that divide the records of a variable into four equal groups, each composed of a quarter of data. In the results table, the minimum, maximum and quartiles are calculated for each Class (ranges of the variable defined in X). The first quartile (Q1) is the middle value between the smallest and the median values. The second quartile (Q2) is the median value. The third quartile (Q3) is the middle value between the median and the highest values.

Calculate cluster silhouette 

The cluster silhouette is an indicator of the clusters' consistency. The result will be between -1 and 1. The closer the silhouette is to 1, the better each record fits within its cluster.

Candidate variable count (Extra Trees)

At each test node, the best split is determined among K random splits and each one is established by a random selection of input variables and a threshold. The candidate variable count is the number of input variables which are going to be chosen randomly for the test node. If this parameter is not defined by the user, the algorithm is going to choose it automatically, depending on the type of the model. For regression, it considers all variables and; for classification, the square root of the number of variables. Alternatively, the user may choose to manually define this parameter or trial several values during Cross Validation.


Category of supervised learning where the output or goal is to predict a discrete or symbolic variable, for example, predict energy consumption as High-Medium-Low.  


Method of unsupervised learning used to define groups or patterns within the data. Records of the same group (cluster) are more related to each other than those of other clusters.

Cluster number (k-Means)

It defines the number of clusters to be created by the K-Means clustering algorithm in which each observation belongs to the cluster with the nearest mean.

Coefficient (Statistical Process Control)

It is used to calculate the control limits as a function of the sample distribution.

Common LISP 

It is one of the major dialects of the LISP programming language. It allows a combination of object-oriented, procedural and functional programming.   

Condition (Cond.)

It is a numerical or symbolic variable used to show interaction effects with another variable (values are represented by different colors on Histograms, Scatter plots and Standard Reports).

Conditional class count 

The number of buckets for the condition or number of discretized groups for a conditional variable added as color coding to Histograms and Scatter Plots.

Constraint Functions/Models (Optimizer)

Constraint Functions/Models are designed to ensure that the Optimizer respects all constraints on the process when varying the values of Manipulable inputs. All function variables and predictive model outputs can be selected as Constraint Functions/Models.

Control Charts 

Control charts are used to monitor quality. There are two chart types: univariate and multivariate. Univariate charts are used to graphically display a single process characteristic, and multivariate charts to represent multiple characteristics. For more information about using control limits in DATAmaestro, see Process control.

Cross Validation 

It is a model assessment and model selection tool. Cross validation allows learning of a model on some partition of the learning set and testing by evaluating the error on another, independent, set of records (not belonging to the learning set). Several strategies for creating the partition of records are proposed: k-Fold, Stratified k-Fold, Leave-P-Label-out, Leave-P-out, Train-test split). Cross validation also helps identify the best model parameters. It is possible to enter values for the tunable parameters and the best values are presented as Cross validation results. For more information, refer to Cross Validation.  

Cumulative plot (Histogram)

It is a plot type option presented in the Histogram editor. It is a curve that shows the cumulative frequency distribution.  


Control chart  that displays the cumulative sums of the deviations of each record value from the target value. Typically used to detect small drifts in process mean.   

Decision tree 

Decision support supervised learning method for regression and classification models. It uses tree-like models of decisions structured as “if then” rules and seeks to reduce “entropy” or variability in each leaf/node.

Default value ( Fill Missing values) 

Technique used to fill missing values. This method will create a new variable and replace missing values in the data set defined as a default value.


Tree diagram used to illustrate the distribution of clusters and the linear correlation between variables. The clusters are created by Hierarchical Clustering, a method of clustering which seeks to build a hierarchy of clusters. The algorithm presented in DmA is an Agglomerative type, each observation starts in one cluster and pairs of clusters are merged as it moves up the hierarchy.

Differentiated variable 

It generates the derivative of a variable. Three methods are available: Newton, Symmetric and High order.   

Direction (Optimizer) 

It defines if a model or a function variable should be maximized or minimized. 

Discretized variable 

It creates a symbolic function variable based on a numerical variable, by dividing continuous data into discrete categories using a set of “less-than” thresholds. For a given value, the method will associate the symbol of the first threshold. If none of the thresholds match, the value is associated to the default symbol.  

Discretized time variable 

It creates a symbolic function variable extracting relevant and understandable information such as year, months, day of the week, etc. out of a numerical time

DMFF (DATAmaestro File Format)

Private file format used for storing table data in DATAmaestro, with the advantage of a quick response time for large datasets.

Epsilon (Subclu and ISHM)

The epsilon is the maximum distance between two records. If the distance between an evaluated record and another record is lower than epsilon, the latest is added as the neighbor of the evaluated record. A high value of epsilon implies a low number of clusters and therefore, lower precision. The value of choice depends on the dataset and, it is a compromise between the minimum number of points and the distance between the points in a cluster.

Epsilon (IMS and ISHM-IMS) 

It is the maximal distance for a point to be in a cluster. A larger value tends to lead to a lower number of clusters.

Ensemble trees methods 

Supervised approaches that use the combination of models to improve a model accuracy. Each technique combines a series of learned models (classifiers or predictors) with the aim of creating an improved aggregated model. The main advantage of ET methods is that, compared to a single tree, it has the ability of reducing considerably the variance and/or bias. There are different techniques of ensemble methods. DmA proposes two approaches: boosting (Adaboost and MART) and randomized-based  (Extremely Randomized Forests).

Error Variable Name

All predictive models (Regression and Classification) provide two output variables: Predict Variable and Error Variable. The Error Variable provides the difference between the predicted output values and the real output values. By default, if no name is entered, the default name is generated based on model type and the output variable. For example, a decision tree by default is DT_ERROR_[OUTPUT].

Extra trees (Extremely Randomized Forests)

Supervised learning method for classification or regression models. It randomly creates an ensemble of decision trees and aggregates the results to provide the importance of the input variables on the output. At each test node, the optimal split is obtained by searching among K random splits, each split chooses one variable randomly (without replacement) and determines a random test from it.

Excel time 

Excel date and time stored as a number, known as date serial number. The integer portion represents the date and the decimal portion is the time. For more information, please check Excel Date

Fill curve 

Visualization functionality that fills or colors the area below a trend.

Fill missing value 

It creates a variable or set of variables replacing the missing values with a value designated by the strategy adopted such as default value, average, the previous or the next values or an interpolation of the previous and next records.  

Filter (Record set)

Method for creating record sets (data filters) based on filtering a particular variable (numerical or symbolic) based on the given filter rules (less than, greater than, etc.).

Filter Missing 

Method for creating record sets that removes any records (or rows) missing from any variables in a given variable set. NB: Data sets with high proportions of missing data may result in empty record sets.

First (Record set)

Record set rule that indicates records selected from the front of the current Record set. For example, “First 100” will select the first 100 records (or rows) within the selected data set (or record set if combining record set rules).

Function Variable (formerly Function Attribute) 

Used to create new variables by applying mathematical operations on variables. The expression can be created using different programming languages such as JavaScript, Python, R and common LISP.

Gap analysis 

Technique used to identify gaps between a current state and a targeted one.

Generalization level 

Visualization tool that defines the degree of resolution for a collection of points. Lower values provide lower resolution (large squares or fewer pixels) and higher values provide greater resolution.

Gradient descent (ANN)

Learning function or optimization method used for training Artificial Neural Networks (ANN). The learning function searches a vector of weights in which the error function takes a minimum value. Gradient descendant is the simplest learning algorithm and a first order method. It optimizes the performance of the network by adjusting the weights, it goes in the direction of the greatest error decrease in the variable space trying to find minimum error. It provides many local minimal or flat regions. There are no guarantees for convergence.  

Handle missing value 

This property is only available for tree based methods (Decision Trees, Ensemble Trees, MART, Adaboost) as most machine learning methods cannot provide an embedded support for missing values. If this option is deactivated, the procedure will remove any rows which contain at least one missing value. This may cause a significant loss of information. Handle missing values therefore allows tree models to be calculated without significant information loss.

High order (Differentiated variable)

Method used for derivative calculations. For every variable, the derivative is calculated using a higher-order (order higher than 2) difference quotient formula: [-f(t+2*Step)+8f(t+Step)-8f(t-Step) + f(t-2*Step)]/12*Step. Step is a parameter that defines the step length of the differential function.


Graphical representation of a numerical data distribution. For a numerical variable, the data is divided into consecutive and non-overlapping adjacent intervals, often of equal sizes. The height of each bar is proportional to the frequency – number of cases per interval. For symbolic variables, the intervals represent the classes (categories) of that variable. There are three histogram options in DATAmaestro, choose from the following plot types in the properties: Histogram, Pareto and Cumulative plot.

Hyperbolic tangent (ANN)

Activation function for Artificial Neural Network (ANN) models with the typical “S-curve” or Sigmoid curve.  It is very similar to the Sigmoid function. It can be considered as a rescaled version of a sigmoid function, since they have the same characteristics but its output between the range [-1,1]. Tanh is also a widely used activation function.  


Infix - characterized by placement of a binary operator between the operands <a + b is expressed in infix notation>.

Intersect (Record set) 

Record set rule that allows the combination of an existing record set with additional rules (or with additional record sets). When combining two (or more) record sets using intersect, this is equivalent to keeping data points that are in both record set 1 “and” record set 2.

Interpolation (Fill missing value)

Technique used for filling missing values which creates a new variable using the linear interpolation between the previous and next value for each missing data point.  

Inductive System Health Monitoring (ISHM)

As its name suggests is an asset monitoring algorithm based on Clustering (K-means or Subclu in DATAmaestro). For a given input vector, each cluster defines a range of allowable values for each parameter. Points that are inside the inner center of the cluster are within the system operating range, those further away can be considered as outliers or process drifts.  


Character encoding type. It is a single byte fixed length basically used for Western Europe alphabets. Could be specified by the user when a CSV is uploaded in DmA.

K (Cross Validation)

Number of folds used for K-Fold and Stratified K-Fold cross-validation strategies.

K (K-nearest neighbors) 

Number of neighbors (data points) to be used by for K-Nearest-Neighbors model queries. The best choice of k depends on data.

  • A large value of k (>10) reduces the effect of noise on classification but, the boundaries between classes are less distinct. Performance increases.

  • A small value of k will be able to capture fine structures, if it exists in the feature space. However, if k is too small it may lead to overfitting. 

In binary classification problems, it is better to choose k as an odd number in order to avoid tied votes.   

K (K-means)

Number of clusters for K-means clustering algorithm, refer Cluster Number.

K-fold (Cross-validation)

Strategy used in cross-validation. The learning data set of size N is divided in K number of consecutive folds containing N/K records. A model is trained using K-1 of the folds as training data; the resulting model is validated on the remaining part of the data (i.e., it is used as a test set to compute a performance measure such as accuracy. The error is computed by making the average of the error of each K models on their respective leaf-out fold (test set).


Type of unsupervised learning clustering algorithm used to define groups or patterns within the data based on the distance between points.


It is among the simplest machine learning algorithms. The method can be used for classification and regression. In classification, the record is assigned to the majority class of its k  nearest neighbors. K is the number of neighbors and it is a positive integer number. If k=1 the record is assigned to the class of a single nearest neighbor. In regression the predicted value is the average value of the k nearest neighbors. For high-dimensional data, k-Nearest neighbor can have a very poor performance. Therefore, before applying the k-NN algorithm, it is recommended to conduct dimension reduction using other models such as PCA, Dendrogram or Extra trees or Decision trees.  

Label variable (Cross-validation)

Symbolic variable containing the label to be used in Label-P-Label-out cross-validation strategy.

Last (Record set)

Record set rule that indicates records selected from the end of the current record set. For example, “last 100” will select the last 100 records (or rows) within the selected data set (or record set if combining record set rules).

Latent variable count

Number of latent variables which are inferred from the observed ones through the Partial Least Squares model. Latent variables reduce the dimension of data since observations can be aggregated to represent more basic conceptions.  

LCL variable name (Statistical process control) 

Parameter of the Statistical Process Control method which defines the lower control limit (LCL) above this value the process is considered to be under normal control. Graphically, the LCL is represented by a horizontal line below the average.

Learning function (ANN)

Parameter that defines the optimization algorithm that updates weights and bias values to minimize the error function. Two learning functions are available within DATAmaestro: Levenberg-Marquardt and Gradient descent.

Learning rate (MART) 

Adjusts the speed convergence for the MART method. A higher/lower learning rate shrinks the contribution of each tree. This parameter, comprised between 0 and 1, slows down the output correction at each iteration of the MART algorithm. A small value of this parameter is indicated to avoid over-fitting. Its default value is set to 0.1.

Leave-P-out (Cross validation)

Strategy used for cross validation, folds are created so that every combination of P records are removed. For each combination, a model is learned on the N – P records and the error is evaluated on the P remaining records. The final error is the average error. This method is useful for small datasets but is very expensive for large ones.

Leave-P-label-out (Cross validation)

Strategy used for cross-validation. It creates folds based on a symbolic variable other than the output variable, examples, symbolic time such as months of the year, product identifier, etc.  A given fold contains all records associated with a given label. There is a possibility of choosing the number of folds (parameter P) used for the model evaluation. The model is learned with the remaining data,  excluding the removed folders.  

Levenberg-Marquardt (ANN)

Learning function or optimization algorithm used for training Artificial Neural Networks (ANN). It is a popular method used as a linear least-squares solver. Recommended as a first choice (instead of Gradient descent) since it is an iterative technique that reduces the performance function in each iteration. It is the fastest training algorithm for small- and medium-size networks.   

Linear (ANN)

Type of activation function for Artificial Neural Network (ANN) models which is a linear operator. The network would apply a linear combination to relate input to outputs at each neuron. The network can learn effectively using a linear activation function if the weights are initialized with less randomized values. To learn more complex networks, it is fundamental to add non-linear activation functions.  

Linear regression 

It is the simplest form of regression. The data is modeled as a linear combination of input variables to create an output predictive model. The model searches a line (y=ax+b) that fits best the data. The task is to find coefficients (weights) to provide the best fit to the training data. The value of the coefficient quantifies the strength of the relation between the output and the different inputs.

Loss function (Adaboost)

Function used to update after each boosting iteration the weights - only in Adaboost Regression. The loss function is the prediction error for the record divided by the maximum error among all records. The functions provided are: linear, squared and exponential. For classification, the loss function field is ignored.   

Lower shift (Shifted variables)

Parameter used for (e.g. time) shifted variables, specifies the lower bound of the window. A lower shift of -1 would create an additional variable in the data set that has the current value equals to the value of the preceding row.  

Manipulable variables (Optimizer)

Manipulable variables are Target Function/Model inputs that can be purposefully changed on the process. If a Function/Model input is not defined as Manipulable, it is considered as a disturbance variable by the optimizer. The optimizer will then seek to vary the values for each manipulable to optimize the Target Function/Model value.


Instance of gradient boosting applied to regression problems. It builds a powerful model out of weak models. It is only implemented as a regression model. Each tree of the ensemble is built with the Single Tree building algorithm using as output of the learning records the residual error, i.e. the difference between the true output and the prediction of the current ensemble

Max iteration count (Optimizer)

Max iteration count limits the optimization iterations to a maximum number if no convergence is detected for the Optimizer.

Maximum number of cycles (ANN)

It limits the learning iterations (or Epochs) to a maximum number if no convergence is detected for Artificial Neural Network (ANN) models.

Maximum number of iterations (k-Means & ISHM)

k-Means parameter that fixes the number of iterations for cluster calculations. A high value provides a better quality clustering but there is a risk that the calculation will take longer.

Maximum number of splits (Tree based methods) 

 It sets the maximum number of decisions or splits for a decision tree (or other tree based methods). The tree grows based on the stop splitting criteria until it achieves the maximum number of splits. Once the value is achieved the decision tree stops growing. Important remark for Decision Trees: although its value represents no hard limit for expansion, the alpha value may limit the tree increase before achieving maximum number of splits.

Max record count (Optimizer)

Max record count (n) limits the number of records optimized. Based on the selected Record Set, the first n number of records will be optimized.

Maximum split count (Adaboost, Extra trees and MART) 

it is a parameter used to control the depth of the trees. For Extra trees, by default, the trees are fully developed, the case is empty. However, when using this parameter, the complexity and the computation time of the trees are reduced. For boosting methods (Adaboost and MART), by default, the maximum number of splits is defined as 10, so, each tree has 10 node splits. The accuracy of the model can be improved if this value is bigger than 10.

Method (Optimizer) 

In the context of the Optimizer, the method defines the optimization algorithm applied. There are two methods implemented in DATAmaestro: Swarm Optimization and Nearest Neighbors.

Method (PRIM)

In the context of the PRIM optimization analysis. “Max” stands for maximizes the target variable (average value or number of occurrences) and “min” stands for minimizes the target variable (average value or number of occurrences).    

Minimum number of points per cluster (ISHM - Subclu)

The minimum number of points at a distance lower or equals than epsilon needed to create a cluster.

Minimum points 

In Subclu, the minimum number of points at a distance lower or equals than epsilon needed to create a cluster.

Min cluster Dimensions 

As SubClu start by creating cluster of lower dimensions (start by 1), it will keep the cluster with at least "Min Dimensions" number of dimensions. A Dimension is created by a variable (3 inputs variable equals 3 maximum dimensions).

Model count (Ensemble trees models) 

It indicates the number of M decision trees to be built for Ensemble trees models, usually more models is better for the model quality however this increases the execution time.

Model type (ISHM)

Choose the clustering method, K-means or Subclu, to be used for the ISHM model.

Moving average 

Method used to smooth noisy data by taking a average of several data points, compared to the current data point, across a period of time.

Newton (Differentiated variable) 

Method for derivative calculations. For every variable, the derivative is calculated using a First-order difference quotient formula: [f(t+Step)-f(t)]/Step. Step is a parameter that defines the step length of the differential function.

Next (Fill missing value)

Technique used to fill missing values, this method will create a new variable and replace missing values in the data set with the next value compared to the given missing value.

Not-in (Record set)

Record set rule that excludes all data contained within a specified record set.  

Normalize (Linear Regression and Clustering) 

Scaling option that transforms the variable values to range from 0 to 1. The value is calculated as follows: scaled(x) = (x - min)/(max - min) where the min and max values are based on the learning data set.

Normalized (CUSUM)

CUSUM parameter can be used to normalize the average or standard deviation. The average normalization performs a shift of every values  by the average. The final value of the CUSUM will be zero. The STDEV performs a rescaling of data as a result the STDEV becomes 1. It is possible to use both approaches simultaneously the result will be data with an average = 0 and a stdev =1.

Number of causes (ISHM)

Indicates the number of variables which could explain the ISHM-distance value for each record or data point. If number of causes is zero then no causes are displayed.

Number of clusters (k-Means)

K number of clusters or number of groups within the data in which each observation belongs to the cluster with the nearest mean.

Number of hidden layers (ANN)

Number of layers between the input and output layer of a neural network model (at least 1 in DATAmaestro). There is no rule to define the right number of hidden layers, in most industrial cases 1 layer is sufficient, more layers can model complex behaviors but tend to overfit.

Number of nearest points (ISHM-Subclu)

Indicate the number of nearest point in the nearest cluster used to compute the ISHM Distance.

Number of neurons per hidden layer  (ANN)

Number of units per hidden layer where each unit is weighted by a numerical parameter.


Value is an integer or real number that can be numerically ordered.

Optimize cluster number 

With the help of the cluster silhouette score, will optimize the number of clusters needed. The optimization will search for a cluster number between 1 and the "Cluster Number" value. It is necessary to calculate the Cluster Silhouette for this to work.


An outlier is a piece of data that is numerically distant from the rest. Whether it is caused by error or abnormality, outliers are normally removed from analysis for clarity. According to the three sigma rule (empirical rule), nearly all values stand within three standard deviations of the mean.



Overfitting occurs when a statistical model describes random error or noise instead of the underlying relationship. Overfitting generally occurs when a model is excessively complex, such as having too many parameters relative to the number of observations. A model which has been overfit will generally have poor predictive performance, as it can exaggerate minor fluctuations in the data. 

P (Cross-validation)

Number of folds used in Label-P-Label-Out and Leave-P-Out cross-validation strategies.

Pareto (Histogram)

Bar graph for symbolic variables only, where the symbols are represented in descending order. The lengths of the bars represent the frequency of occurrence of the set of categories of a symbolic variable. The purpose of this chart is to highlight the most important among a large set of categories.

Pareto (Models and Analysis)

Chart representation of the results for certain models such as Extra trees, Adaboost trees, MART and Statistical tests. The diagram organises the information in descending order of importance of the causes (the most important cause first). The length of the bar represents the variable's impact on the output, in percentage. The Pareto provides the information of the top variables influencing a given output.  


It is defined as an orthogonal linear transformation of data. It converts possible correlated variables into a new coordinate system of linearly uncorrelated variables called principal components or principal variation modes. The first principal component has the largest possible variance (or correlation matrix that measures of joint variability of variables) and each following component must have the highest possible variance, however, the constraint is that the component must be orthogonal to the preceding ones. The resulting vector is an uncorrelated orthogonal set. This approach can help to reduce the number of explanatory variables strongly related to each other into a few components.


Creates a linear regression method in a transformed projection of the space problem. It combines features from principal components analysis (PCA) and multiple linear regression. The model aims to explain the observed variables in terms of latent variables (inferred from observed variables). As latent variables reduce the dimension of data it can be very useful for regression problems with a large number of input variables.  

Predict Variable Name

All predictive models (Regression and Classification) provide two output variables: Predict Variable and Error Variable. The Predict Variable provides the predicted output values. By default, if no name is entered, the default name is generated based on model type and the output variable. For example, a decision tree by default is DT_PREDICT_[OUTPUT].

Previous (Fill missing value)

Technique used to fill missing values, this method will create a new variable and replace missing values in the data set with the previous value compared to the given missing value.

PRIM Analysis

Patient Rule Induction Method (PRIM) is a data mining technique used to find subregions in the input space with relatively high (low) values for the target variable. By construction, PRIM directly targets these regions rather than indirectly through the estimation of a regression function. The method is such that these subregions can be described by simple rules, as the subregions are (unions of) rectangles in the input space.

Pruning set (Trees)

It evaluates the pruned tree. A pruned tree uses a pruning technique that, reduces the size of the learning tree by removing nodes that is not able to provide additional information. The aim is to optimize the size of the tree without reducing the accuracy. The dataset is divided in 3 independent sets: learning, test and pruning sets.


In descriptive statistics, the quartiles of a ranked set of data values are the three points that divide the data set into four equal groups, each group comprising a quarter of the data. One definition of the lower quartile is the middle number between the smallest number and the median of the data set. The second quartile is the middle observation, also called the median of the data. The third quartile can be measured as the middle value between the median and highest values of the data set. 

Popular programming language mainly used for statistical and data science. Function variables can support expressions written in R.

Random (Record set)

Record set rule that selects records randomly (ensures a uniform distribution). For example, “random 100” will randomly select 100 records (or rows) within the selected data set (or record set if combining record set rules).

Record (formerly Object)

A record is simply an indexed value that identifies a specific instance, data point, in a database. The identifiers are established based on the row index of the table.

Record set (formerly Object Set)

A record set is a set of data points, specific instances, records or rows in a database. Record sets can be created based on a series of rules (First, Last, Random, Intersect, Filter, etc) or via rulers on all visualization graphs.


Category of supervised learning where the output or goal is to predict a continuous or numerical variable, for example, predict energy consumption which has a range between 0 and 25.

Relative frequencies (Histogram)

Type of histogram where the observation frequencies could be presented as a percentage.

Restrict symbol peeling (PRIM)

If this parameter is selected the algorithm does not remove more records than the alpha value at each step. In case there are not enough symbolic values, this criterion is not considered. If deactivated, for symbolic variables, it allows the algorithm to peel more than alpha values at each step. Note: for numerical variables with a limited amount of values, a similar problem occurs.   

Scale factor (Summary chart)

Multiplication factor by which all y-axis variables will be adjusted.

Scatter plot 

Cartesian coordinate graph type (X-Y plot). It displays two variables, however a third one can be displayed if a condition (cond.) is designated. The purpose of this graphic is to identify possible relations (correlations), if any, between two or three variables.

Script filter (Record Set)

Method for creating record sets based on scripting rules. Rules can be scripted in Javascript, Python or R.

Search cluster number (k-Means)

Uses the Silhouette indicator to select the best number of clusters among a minimum (equal to 1) and a maximum number of clusters (parameter Number of clusters in ISHM). It iterates from 1 to Number of clusters and checks if there is an improvement of the Silhouette indicator. Therefore, for having an actual  improvement it is better to put a number of cluster bigger than 5.


Initializes the random number generator used by the random part of the learning algorithm. Two identical seeds lead to two identical random number series, thus the same learning results.

Sigmoid (ANN)

Activation function for ANN models with the typical “S-curve” or Sigmoid curve. It is like the step function but it has a smoother derivative. The output of the function is always in the range[0,1]. It is the closest to the input-output relation of biological neurons. Therefore, it is often used in ANN to introduce nonlinearity in the model. The sigmoid derivative is easy to calculate which helps the weight calculations. It is one of the most used activation functions.  


Method used to validate the consistency within clusters of data for K-means and Subclu clustering. It brings a concise representation on how well each record fits within its cluster.

Shuffle (Cross-validation)

This is a variation of the k-Fold method that can randomly shuffle data before splitting them into k folds. The parameter Seed initializes the random shuffling each time the k-Fold is iterated. Two identical seeds lead to two identical shuffling.

Skip regularization (ANN)

Once selected, usually inhibits the ANN from performing regularization, a regulator designed to control the network complexity and thus preventing over-fitting, e.g. penalty for complexity.  

Skip scaling (ANN)

Once selected, it prevents input variables of the ANN models from being rescaled and therefore, making them numerically comparable.


The Snap  method samples by taking the last stored value within each time interval. In case there are no stored values within a given interval the snap method considers the last value stored. An instantaneous value at each time interval will be extracted, no aggregation is provided.

Standard report

DmA feature which enables the creation of a report containing a trend, a histogram and scatter plots. The variable defined in Var. is the main variable and is compared to those defined in Comp. The time variable is defined in Time/Temp. If required, a conditional variable for the histogram and scatter plots, can be defined in Cond.    

Standardize ( Linear Regression and Clustering) 

Scaling option that transforms the variable to have a mean of 0 and a standard deviation of 1. The value is calculated as follows: scaled(x) = (x - µ)/(STDEV)
where the average (µ) and standard deviation (STDEV) values are calculated on the learning data set. See also Normalize. 


Method for defining process control limits. It can verify the assumption that the process is stable. The results provided as upper and lower limits indicate the range in which the process is under control. The measured values should be within those limits, otherwise the process is out of control and should be examined.

Stratified-K-fold (cross-validation)

Preferably used for classification problems which the results can be easily biased by under and over representation of classes in the output variable. It is a variation of K-fold but the difference is that it preserves the class distribution within each fold. The folds are selected so that each fold contains approximately the same proportion of target class labels. For regression problems, the mean output value is approximately equal in all folds.   

Subseq (Record set)

Record set rules that span from row n to to row m within the selected data set (or record set if combining record set rules).


Unsupervised clustering algorithm used to define groups or patterns with the data based on the density of data points. It marks as outlier’s points that lie alone in low-density regions. Each cluster is expanded one dimension at a time into a dimension that is known to have a cluster that only differs from previous clusters in one dimension. Therefore, it is not necessary to define the number of clusters as in k-Means.

Summary chart

Visual tool that uses bars to summarize data among categories. The bar chart consists of two axis X and Y. The X axis is the time variable (discretized based on the period type) and the Y axis variable can be one or several numerical variables. The period type can be changed: year, month, week, day, hour, minute and second. The variable summary type (based on sum, average, min or max) and a scale factor (multiplication factor) can also be selected.     

Summary type (Summary chart)

Method used to display data in the summary chart. The options available are: average, minimum, maximum and sum.   

Supervised learning 

Machine learning task that uses an algorithm to learn a mapping function to predict an output from input variables. The goal is to approximate the mapping function well enough, so that, when there is new input data the output variable can be adequately predicted. The output can be symbolic or numerical.


Value is a string or symbol, cannot be ordered unless if it implies an intuitive order (e.g. high low).  

Symmetric (Differentiated variable)

Method used for derivative calculations. For every variable, the derivative is calculated using a Second-order difference quotient formula: [f(t+Step)-f(t-Step)]/2*Step ; Step is a parameter that defines the step length of the differential function.

Swarm (Optimiser) 

"Differential Evolution (DE): The multi-agent optimization method known as Differential Evolution (DE) is originally due to Storn and Price (Differential evolution - a simple and efficient heuristic for global optimization over continuous space. Storn, R. and Price, K. s.l. : Journal of Global Optimization, 1997, Vol. 11, pp. 341-359.). Many DE variants exist and a simple one is implemented in the DE-class and a number of different DE variants are available through the DESuite class. DE uses a population of agents. Let denote the position of an agent being updated and which has been picked at random from the entire population. Let be its new potential position computed as follows (this is the so-called DE/rand/1/bin variant): 


where the vectors , and are the positions of distinct and randomly picked agents from the population. The index is randomly picked and is also picked randomly for each dimension . A move is made to the new position if it improves on the fitness of . The user-defined parameters consist of the differential weight , the crossover probability , and the population-size." This extract was taken from the document SwarmOps for Java

Step (Shifted variables)

Specifies the (time) step for (time) shifted variables. A step equivalent to the step window will result in only one new variable being calculated, whereas a step less than the step window will result in N new variables being created.

Step duration (Differentiated variables)

Step length of the differential function. Denominator parameter of the derivative equations: order 1, order 2 or higher order.  


In the context of the PRIM optimization, Optimizer and Dynamic Inputs analysis, “Target” defines the optimization objective. “Maximization” seeks to maximize the function value and “Minimization” seeks to minimize the function value. For PRIM, “Maximization” seeks to increase the average value or number of occurrences of the target class, whereas “Minimization” seeks to decrease the average value or number of occurrences of the target class (refer Target Symbol).

Target Function/ Model (Optimizer)

In the context of the Optimizer, the “Target Function” can be any Function Variable or Model. This function will be used to predict the output value during optimization.

Target Min (Optimizer) 

Minimum value that target model computation may lead to. It doesn't limit the output of the optimizer but it is necessary for the optimizer computation. It should be a realistic minimum value.

Targer Max (Optimizer)

Maximum value that target model computation may lead to. It doesn't limit the output of the optimizer but it is necessary for the optimizer computation. It should be a realistic maximum value.

Target Symbol (PRIM)

Symbolic variable used as the objective for a PRIM optimization model. The PRIM model will seek to minimize or maximize the probability of the target symbol in the final box(es). NB: This field is case sensitive, e.g. stable or STABLE are considered different values. For numerical optimization problems this field should be left empty.

Target value (Gap analysis)

Gap analysis function. For a maximization gap analysis, the difference between the target value and all values below the target will be calculated. For minimization gap analysis, the difference between the target value and all values above the target will be calculated.

Temporal Units 

In DATAmaestro, you can choose between Unix time (ms) and (s) and Excel time.

Timeshift tags 

It creates, for each variable, a new variable which is offset in time compared to the original variable(s). The window is specified with lower and upper bounds and a step size.

Train/Test split (Cross-validation)

It splits the learning set into a learning set and validation set. The model trains on the former reduced learning set and is evaluated on the latter. This method uses only one model to assess the error of a combination of parameters. It is the fastest method for cross-validation however performance may be degraded on small datasets.

Test fraction (Cross-validation)

Split fraction used by the Train/Test split strategy cross-validation. It defines the fraction of records that should be extracted from the learning set where the remaining records make up the validation set.

UCL variable (SPC)

It defines the upper control limit (UCL) below this value the process is considered to be under normal control. Graphically, the UCL is represented by a horizontal line below the average.

Union (Record set)

It allows the combination of existing record sets. When combining two (or more) record sets using union, this is equivalent to keeping data points that are in both record set 1 “Or” record set 2.     

Unix time 

Unix time is a system for describing a point in time. It is a number in seconds that have passed since 00:00:00 Thursday, 1st January 1970, Coordinated Universal Time (UTC), minus one second adjustment. Every day is treated as if it contains exactly 86400 seconds, so leap seconds are to be subtracted since the epoch (date and time from which a computer measures system time. Unix time can be in seconds and milliseconds. For more information, please check Unix Time

Unsupervised learning 

Machine learning task with a set of inputs only (no output). Unsupervised learning algorithms seek to infer a structure or pattern between the different inputs. The most important method of unsupervised learning is Clustering.

Upper shift (shifted variables)

Specifies the upper (time) bound of the window. An upper shift of 1 would create an additional variable in the data set that has its rows shifted up one line compared to the original variable.  


It stands for Unicode (Universal Character Set) Transformation Format - 8 bits. It is a multibyte character coding and is basically used for almost all Worldwide alphabets. Could be specified by the user when a CSV is uploaded in DmA.

Variable (formerly known as Attribute)

A variable is a property or characteristic of a record (for example, the weight of a mechanical piece, the time at which an event occurred or the eye color of a person) that varies from record to record.

  • numerical: its value is an integer or real number. Such values can obviously be numerically ordered and compared.

  • symbolic: its value is a string or symbol. It is qualitative and generally cannot be ordered (except for symbolic variables such that low/medium/high implying an intuitive order).

Candidate variables: the subset of variables which are being used as potential input variables for learning.

Test variables: the subset of candidate variables which are finally retained in the modelling rules.

Explicit variables: the set of variables which are explicitly stored in the database.

Variable prefix 

When a function or method creates additional variables, the new variable names will begin with the Variable Prefix.

Variable set (formerly Attribute set)

User defined group of variables, often used as inputs to a modelling technique. 

Window left 

It specifies left size of the window for the moving average or the number of previous rows to include in the moving average calculation for each given record.

Window right 

It specifies right size of the window for the moving average or the number of next rows to include in the moving average calculation for each given record.

Weight variable (Decision tree based models)

Initial weight used to build tree models. It is a variable that contains the weights of the corresponding records. High values of weight are meant to give more importance to an record in the learning phase of the model.

Weight decay (ANN)

During training, after each update, the weights are decreased by a small amount, a factor smaller than 1 and greater than zero (default: 0.5).





Artificial Intelligence


Automatic Learning


Artificial Neural Network


Bayesian Network


Comma-Separated values


Cumulative Sum 




Data Mining 


DATAmaestro Analytics 


Decision Tree 


Inductive System Health Monitoring


Knowledge Discovery from Databases 


K Nearest Neighbors 


Lower Control Limit 


Learning Set


Multiple Additive Regression Trees


Machine Learning


Principal Component Analysis 


Partial Least Squares


Patient Rule Induction Method


Regression Tree 


Statistical Process Control 


Scalable Vector Graphic


Support Vector Machines 


Test Set 


Upper Control Limit 





Number of candidate variables


Number of classes for a symbolic variable


Size of the learning set

Size of the test set 





活性化関数 (ANN)

ニュートラルネットワークで入力信号を出力信号に変換する伝達関数。ニューロンの重み付けを入力に関連付け、ニューロンの状態または活性化を決定します。入力に応じて、ニューロンの「オン」と「オフ」を切り替える関数です。次の 3 つの活性関数があります。シグモイド関数、線形関数、双曲線正接関数。 


回帰分析や分類問題で使用されるブースティングアンサンブル学習方法。アルゴリズムを繰り返すたびに、誤分類されたオブジェクトまたは以前の木に高い予測誤差があるオブジェクトの重みを強調して 1 つの木を作成します。学習中に次の木の予測の重みを修正し、新しい重みベクトルを使用します。 

α値 (決定木)

統計的有意性の検定は、ランダムに選択されたサンプルに基づいて調査の結果がどの程度信頼できるのかを推定します。間接的に決定木のサイズを制御します。主な目的は、統計的有意性がない場合にノードの分岐を回避し、テストノードで示されるようにノードオブジェクトを分割することです。α値が大きいと、木の詳細度が高くなります。α値が小さいと、シンプルなモデルになります。既定では 0.01 に設定されます。

α (PRIM 最適化)

PRIM モデルの構築の各ステップで排除されるデータの比率。たとえば、α値が 0.1 の場合、各ステップで最大 10% が排除されます。DATAmaestro の既定では 0.05 に設定されます。 


分類および回帰分析で使用される機械学習アルゴリズム。各接続の重みが関連付けられている接続された入出力単位のセットです。ネットワークは重みを調整することで学習します。入力層経由で渡される入力は重み付けされ、同時に第 2 層 (隠れ層) に渡されます。1 つの隠れ層の出力は、別の隠れ層の入力になることができます。 


候補属性: 学習で潜在的な入力変数として使用されている属性のサブセット。

テスト属性: 最終的にモデリングルールに保持される候補属性のサブセット。

明示属性: 明示的にデータベースに格納される属性のセット。





平均 (統計情報) 


平均 (欠測値を埋める) 


β(ベータ) (PRIM)

PRIM アルゴリズムの停止条件を設定します。最終的な箱 (最適化ゾーン) に残っているデータの最低比率と同じです。

箱数 (PRIM)

PRIM 分析で構築される箱の数を定義します。 

箱 (PRIM)

すべての入力属性の制約された範囲に基づいて、特定の出力属性の履歴データ内で特定される、最適化ゾーンです。複数の箱 (最適化ゾーン) を構築できます。 


四分位を使用して、データの分布を図で示す方法です。データの四分位は 3 つの点で、変数のオブジェクトを 4 つの等しいグループに分割します。各グループがデータの 1/4 を構成します。結果の表では、各クラスの最小値、最大値、四分位 (X で定義された属性の範囲) が計算されます。第 1 四分位 (Q1) は最小値と中央値の間の中央の値です。第 2 四分位 (Q1) は中央値です。第 3 四分位 (Q3) は中央値と最高値の間の中央の値です。

候補属性数 (Extra Trees)

各テストノードでは、K ランダム分割の間で最善の分割が決定されます。各分割は入力属性のランダム選択としきい値によって確立されます。候補属性数は、テストノードでランダムに選択される入力属性の数です。ユーザーがこのパラメーターを定義していない場合、モデルの種類に応じて、アルゴリズムで自動的に選択されます。回帰分析の場合、すべての属性が考慮されます。分類では、属性数の平方二乗です。あるいは、ユーザーが手動でこのパラメーターを定義するか、交差検証中に複数の値を試すことができます。




教師なし学習の方法。データのグループまたはパターンを定義するために使用されます。同じグループ (クラスター) のオブジェクトは、他のクラスターのオブジェクトよりも相互に強い関係があります。 

クラスター数 (K平均法)




係数 (統計的工程管理)


Common LISP 

LISP プログラミング言語の主な方言の 1 つです。オブジェクト指向、手続き型、関数型プログラミングを組み合わせることができます。   

条件 (Cond.)

数値または記号変数で、別の属性との相互作用効果を示すために使用されます (ヒストグラム、散布図、標準レポートでは値が異なる色で表示されます)。 



制約関数/モデル (オプティマイザー)



管理図は品質を監視するために使用されます。単変量と多変量という 2 種類の図があります。単変量は 1 つのプロセス特性をグラフィカルに表示するために使用されます。多変量図は複数の特性を表します。DATAmaestro での管理限界の使用の詳細については、「プロセス管理」を参照してください。


モデル評価およびモデル選択ツールです。交差検証では、学習セットの一部のパーティションに対してモデルを学習し、別の独立した (学習セットに属していない) オブジェクトセットで誤差を評価してテストできます。オブジェクトのパーティションを作成するための複数の手法が提案されます。k分割、階層化 k分割、Leave-P-Label-out、Leave-P-out、学習/テスト分割)。交差検証では、最適なモデルパラメーターも特定できます。調整可能なパラメーターの値を入力できます。交差検証結果では最適な値が表示されます。詳細については、「交差検証」を参照してください。  

累積プロット (ヒストグラム)





決定は、回帰分析と分類モデルの教師あり学習方法をサポートします。「if then」ルールとして構造化された木構造の決定モデルを使用します。各葉/ノードの「エントロピー」またはばらつきを減らそうとします。

既定値 (欠測値を埋める) 



クラスターの分布と変数間の線形相関を示す木構造の図です。クラスターは階層クラスタリングによって作成されます。これは、クラスターの階層を構築しようとするクラスタリング方法です。DmA のアルゴリズムは凝縮型です。各観察が 1 つのクラスターで開始し、階層の上に移動するときにクラスターの組み合わせがマージされます。 


属性の微分係数が生成されます。次の 3 つの方法があります。ニュートン、対称、高次   

方向 (オプティマイザー) 






DMFF (DATAmaestro ファイル形式)

DATAmaestro に表データを格納するために使用される非公開ファイル形式です。大きいデータセットでは応答が速いという利点があります。

ε(イプシロン) (Subclu および ISHM)

Subclu で構築されたクラスターの点の間にある正規化された距離の最大。εの値が大きい場合はクラスター数が少ないため、精度が低いことが示されます。選択肢の値はデータセットによって異なります。点の最小数と、クラスターの点同士の距離において、妥協があります。 


モデルの正確性を改善するためにモデルの組み合わせを使用する教師ありアプローチです。各手法では、改善された集約モデルを作成する目的で、一連の学習モデル (分類子または予測子) を組み合わせます。ET 法の主な利点は、単一の木と比較して、分散や偏りを大幅に削減できるということです。アンサンブル法にはさまざまな手法があります。DmA はブースティング (Adaboost および MART) とランダムベース (Extremely Randomized Forests) の 2 つのアプローチを提案しています。 


すべての予測モデル (回帰および分類) には次の 2 つの出力属性があります。予測属性および誤差属性。誤差属性は、予測された出力値と実際の出力値との間の差異です。既定では、名前を入力しない場合、モデルの種類と出力属性に基づいて既定の名前が生成されます。たとえば、既定の決定木は DT_ERROR_[OUTPUT] です。 

Extra trees (Extremely Randomized Forests)

分類または回帰モデルの教師あり学習方法です。決定木のアンサンブルがランダムに作成されます。結果は集約され、出力に対する入力属性の重要度を示します。各テストノードでは、K ランダム分岐を検索して、最適な分岐が得られます。各分岐は 1 つの属性をランダムに選択 (置換なし) し、ランダムテストを決定します。

Excel 時間 

数値として格納される Excel 日時で、日付シリアル番号とも呼ばれます。整数部は日付を表し、小数部は時刻を表します。詳細については、「Excel 日付」を確認してください。 





フィルター (オブジェクトセット)

特定のフィルタールール (未満、より小さいなど) に基づいて、特定の属性 (数値または記号) をフィルタリングすることで、オブジェクトセット (データフィルター) を作成する方法。


特定の属性セットの属性に欠測しているオブジェクト (または行) を削除するオブジェクトセットを作成する方法です。注記: 欠測データの比率が高いデータセットの場合、空のオブジェクトセットになる可能性があります。

最初 (オブジェクトセット)

現在のオブジェクトセットの先頭から選択されたオブジェクトを示すオブジェクトセットルールです。たとえば、「First 100」は選択したデータセット (オブジェクトセットルールを結合する場合はオブジェクトセット) 内の最初の 100 件のオブジェクト (または行) を選択します。 


属性に数学演算を適用して新しい値を作成するために使用されます。JavaScript、Python、R、common LISP などのさまざまなプログラミング言語を使用して式を作成できます。




点の集合の解像度を定義する視覚化ツールです。値が小さいと、解像度が低くなります (大きい正方形または少ないピクセル数)。値が大きいと、解像度が上がります。 

勾配降下 (ANN)

人工ニュートラルネットワーク (ANN) の学習で使用される学習関数または最適化方法です。学習関数は、誤差関数が最小値となる重みのベクトルを検索します。勾配降下は最もシンプルな学習アルゴリズムであり、一次方法です。重みを調整して、ネットワークのパフォーマンスを最適化します。属性の空間の最も大きい誤差が減るように調整し、最小の誤差を求めます。多数の局所的最小値または平面領域を示します。収束の保証はありません。  


ほとんどの機械学習方法では、欠測値の組み込みサポートがないため、このプロパティは木の方法 (決定木、アンサンブル木、MART、Adaboost) でのみ使用できます。このオプションが無効な場合、1 つ以上の欠測値を含む行がすべて削除されます。これにより、情報が大量に失われる場合があります。このため、欠測値の処理では、大幅な情報の損失なく、木モデルを計算できます。 

高次 (微分属性)

微分係数計算で使用されます。すべての属性で、高次 (3 次以上) 差分係数式を使用して、微分係数が計算されます。[-f(t+2*Step)+8f(t+Step)-8f(t-Step) + f(t-2*Step)]/12*StepStep は微分関数のステップ長を定義するパラメーターです。


数値データの分散をグラフィカルに表現します。数値属性の場合、データは連続し、重複しない隣接する (通常は同じサイズの) 間隔に分割されます。各棒の高さは頻度 (間隔ごとのクラス数) に比例します。記号属性の場合、間隔はその属性のクラス (カテゴリ) を表します。DATAmaestro には 3 つのヒストグラムオプションがあります。プロパティで次のプロットタイプを選択します。ヒストグラム、パレート図、累積プロット 

双曲線正接 (ANN)

人工ニュートラルネットワーク (ANN) モデルのの活性化関数と、一般的な「S 曲線」またはシグモイド曲線。  シグモイド関数に非常に似ています。同じ特性をもっているため、シグモイド関数の拡張版と考えることができます。ただし、出力範囲は [-1,1] です。Tanh は広く使用されている活性化関数です。  


Infix - オペランド間の二項演算子の配置 <a + binfix 記法> で表されます。

Intersect (交差) (オブジェクトセット) 

既存のオブジェクトセットを追加のルール (または追加のオブジェクトセット) と組み合わせることができるオブジェクトセットルール。Intersect を使用して 2 つ (以上) のオブジェクトセットを結合するときには、オブジェクトセット 1「AND」オブジェクトセット 2 のデータポイントを保持することと同義です。 

Interpolation (補間) (欠測値を埋める)



その名前が示すとおり、クラスタリングに基づく資産モニタリングアルゴリズムです (DATAmaestro では k平均法または Subclu)。特定の入力ベクトルで、各クラスターが各パラメーターの許可された値の範囲を定義します。クラスターの内心にある点はシステム動作範囲内にあります。離れた点は異常値またはプロセスドリフトと見なすことができます。  


文字エンコーディングタイプ。基本的に、西欧のアルファベットで使用されるシングルバイトの固定長です。DmA で CSV がアップロードされるときにユーザーが指定できます。 

K (交差検証)


K (K近傍法) 

K 近傍法モデルクエリで使用される近傍 (データポイント) の数。最善の k の選択はデータによって異なります。一般的に、k の値が大きい (>10) と、分類問題でノイズの影響が減ります。ただし、クラスの境界がはっきりしなくなります。二項分類問題では、同数を避けるために、k を奇数として選択することをお勧めします。   

K (K平均法)


K分割 (交差検証)

交差検証で使用される手法。サイズ N の学習セットが N/K オブジェクトを含む連続分割の K 数に分割されます。モデルは K-1 の分割を学習データとして使用して学習されます。結果のモデルは残りの部分のデータで検証されます (正確さのパフォーマンス測定を算出するためにテストセットとして使用)。該当する leaf-out 分割 (テストセット) で各 K モデルの誤差の平均を作成し、誤差が算出されます。 

K 平均法 



最もシンプルな機械学習アルゴリズムの 1 つです。分類と回帰で使用できます。分類では、オブジェクトが K近傍の主要クラスに割り当てられます。K は近傍数であり、正の整数です。k=1 の場合、オブジェクトが単一の近傍のクラスに割り当てられます。回帰では、予測された値が k近傍法の返金値です。高次元データでは、K近傍のパフォーマンスが非常に悪くなることがあります。このため、k-NN アルゴリズムを適用する前には、PCA、樹形図、Extra trees、決定木などの他のモデルを使用して、次元を減らすことをお勧めします。  

ラベル属性 (交差検証)

Label-P-Label-out 交差検証で使用されるラベルを含む記号属性。 

最後 (オブジェクトセット)

現在のオブジェクトセットの末尾から選択されたオブジェクトを示すオブジェクトセットルールです。たとえば、「Last 100」は選択したデータセット (オブジェクトセットルールを結合する場合はオブジェクトセット) 内の最後の 100 件のオブジェクト (または行) を選択します。



LCL 属性名 (統計的工程管理) 

統計的工程管理法のパラメーター。この値の上の下方管理限界 (LCL) を定義します。プロセスは正常管理外であると見なされます。グラフとしては、LCL は平均の下の横線で表されます。 

学習関数 (ANN)

最適化アルゴリズムを定義するパラメーター。重みや偏り値を更新し、誤差関数を最小化します。DATAmaestro では、次の 2 つの学習関数を使用できます。Levenberg-Marquardt および勾配降下。

学習率 (MART) 

MART 法の速度収束を調整します。高い/低い学習率では、各木の寄与が小さくなります。0 と 1 の間で構成されるこのパラメーターにより、MART アルゴリズムが繰り返されるたびに、出力相関の速度が低下します。過学習を回避するには、このパラメーターの値を小さくします。既定値は 0.1 に設定されます。

Leave-P-out (交差検証)

相互検証で使用される方法。P オブジェクトのすべての組み合わせが削除されるように分割が作成されます。各組み合わせでは、モデルが N – P オブジェクトで学習され、P 残りオブジェクトでエラーが評価されます。最終誤差は平均誤差です。このモデルは小さいデータセットは有効ですが、大きいデータセットでは非常にコストが高くなります。 

Leave-P-label-out (交差検証)

交差検証で使用される手法。記号時間 (月、製品 ID など) などの出力属性以外の記号属性に基づいて分割が作成されます。特定の分割には、特定のラベルに関連付けられたすべてのオブジェクトが含まれます。モデル評価で使用される分割 (パラメーター P) の数を選択できます。モデルは削除されたフォルダーを除外して、残りのデータで学習されます。  

Levenberg-Marquardt (ANN)

人工ニュートラルネットワーク (ANN) の学習で使用される学習関数または最適化アルゴリズムです。線形最小二乗として使用される一般的な方法です。繰り返すたびにパフォーマンス関数を減らす反復手法であるため、最初は勾配降下の代わりにこの方法を選ぶことをお勧めします。小規模および中規模ネットワークでは最速の学習アルゴリズムです。   

線形 (ANN)

人工ニュートラルネットワーク (ANN) モデルの活性化関数の種類。線形演算子です。ネットワークは線形の組み合わせを適用し、各ニューロンで入力を出力に関連付けます。ウィジェットがランダム化された値で初期化された場合、線形活性化関数を使用して、ネットーワークは効果的に学習できます。より複雑なネットワークでは、非線形活性化関数を追加するための基本です。  


これは最もシンプルな回帰の形態です。データが入力変数の線形の組み合わせとしてモデル化され、出力予測モデルを作成します。モデルはデータに最適な直線 (y=ax+b) を検索します。この作業は、係数 (重み) を見つけ、学習データに最適な一致を求めることです。係数の値は、出力と異なる入力の間の関係の強さを数量化します。

損失関数 (Adaboost)

各ブースティングイテレーションの後に重みを更新するために使用される関数です。Adaboost 回帰分析でのみ使用されます。損失関数は、オブジェクトの予測誤差をすべてのオブジェクトの最大誤差で除算した結果です。線形、二乗、指数関数を使用できます。分類では損失関数フィールドが無視されます。   

下シフト (シフト属性)

時間などのシフト属性で使用されるパラメーター。範囲の下界を指定します。下界 -1 では、現在の値が前の行の値と等しい追加の変数がデータセットに作成されます。  

操作可能属性 (オプティマイザー)



回帰分析問題に適用される勾配ブースティングのインスタンス。弱いモデルから強力なモデルを構築します。回帰分析モデルとしてのみ実装されます。各アンサンブル木は、学習オブジェクトの出力として残差 (実際の出力と現在のアンサンブルの予測との間の誤差) を使用する単木構築アルゴリズムによって作成されます。

最大イテレーション数 (オプティマイザー)


最大サイクル数 (ANN)

人工ニュートラルネットワーク (ANN) モデルの収束が検出されない場合、学習イテレーション (またはエポック) を最大数に制限します。 

最大イテレーション数 (ISHM)

クラスター計算のイテレーション数を修正するK平均法パラメーターです。高い値 (既定では 100) にするとクラスタリングの品質が向上しますが、計算に時間がかかるというリスクがあります。K平均法アルゴリズムでは、既定のイテレーションの最大数は 10 です (パラメーター選択なし)。 

分岐の最大数 (決定木) 

 決定木 (または他の木ベースの方法) の決定または分岐の最大数が設定されます。ツリーは、最大分岐数に達するまで、停止分岐条件に基づいて成長します。この値に達すると、決定木の成長が止まります。決定木に関する重要な備考: 値は固定の拡張の限界を示しているのではありませんが、最大分岐数に達する前にα値によってツリーの拡大が制限される場合があります。 

最大オブジェクト数 (オプティマイザー)

最大オブジェクト数 (n) は最適化されたオブジェクトの数を制限します。選択したオブジェクトセットに基づき、オブジェクトの最初の n 個が最適化されます。

最大分岐数 (Adaboost、Extra trees、MART) 

木の深さを制御するパラメーターです。Extra trees の場合、既定では、木が完全に構築されます。ケースは空です。ただし、このパラメーターを使用すると、木の複雑さと演算時間が減ります。ブースティング法 (Adaboost および MART) の場合、既定では、分岐の最大数が 10 と定義されるため、各木のノード分岐は 10 です。この値を 10 より大きくすると、モデルの正確さを改善できます。 

方法 (オプティマイザー) 

オプティマイザーのコンテキストで、適用される最適化アルゴリズムを定義します。DATAmaestro では次の 2 つの方法が実装されています。粒子群最適化および近傍。

方法 (PRIM)

PRIM 最適化分析のコンテキスト「最大」は目標変数の最大化 (平均値または発生数) を表します。「最小」は目標変数の最小化 (平均値または発生数) を表します。    


Subclu でクラスターと見なされるためにクラスターに含まれている必要がある点の最小数を定義します。クラスターに含まれている点の数がこの値以下の場合、クラスターはアルゴリズムによって排除されます。最小値はクラスターごとに 1 点です。 


Subclu アルゴリズムは、最低次元数から始め、クラスターをいくつか作成します。次元は属性と見なすことができます。Subclu アルゴリズムでは、次元が入力数より低いクラスターに対応します (例: 3 入力 (X, Y, Z) のときに、クラスターが属性 (X,Y) のみで構成されている)。入力数と一致するクラスターが見つからないことがあります (例: 3 入力 (X, Y, Z) のときに、アルゴリズムが 1 クラスター (X)、2 クラスター (Y)、2 クラスター (X, Y) を検出し、(X, Y, Z) を検出しない)。パラメーター「最小次元」はクラスターリストをフィルタリングします。最小次元数以上の次元が含まれるクラスターのみが保持され、他のクラスターは破棄されます。 

モデル数 (アンサンブル木モデル) 

アンサンブル木モデルで構築される M 決定木の数を示します。通常、モデルが多いほど、モデルの品質が高くなりますが、実行時間も長くなります。 

モデルの種類 (ISHM)

ISHM モデルで使用するクラスタリング方法 (K平均法または Subclu) を選択します。 



ニュートン (微分属性) 

微分係数計算の方法。すべての属性で、高次差分係数式を使用して、微分係数が計算されます。[f(t+Step)-f(t)]/StepStep は微分関数のステップ長を定義するパラメーターです。 

Next (欠測値を埋める)


Not-in (オブジェクトセット)


正規化 (CUSUM)

CUSUM パラメーターを使用すると、平均または標準偏差を正規化できます。平均正規化はすべての値を平均でシフトします。CUSUM の最終値はゼロです。STDEV はデータの調整を実行するため、最終的に STDEV は 1 になります。同時に両方のアプローチを使用することができます。結果として、平均 = 0、標準偏差 = 1 のデータになります。

原因数 (ISHM)

各オブジェクトまたはデータポイントの ISHM 距離値を説明する属性数を示します。原因数がゼロの場合、原因は表示されません。 

クラスター数 (K平均法)

クラスターの K 数またはデータのグループ数。各観察値は最も近い平均のクラスターに属します。 

隠れ層数 (ANN)

ニュートラルネットワークモデルの入力層と出力層の間にある層の数 (DATAmaestro では 1 以上)。隠れ層の適切な数を定義するルールはありません。ほとんどの業界事例では、1 層で十分です。層を増やすと複雑な動作をモデル化できますが、過学習になる傾向があります。

隠れ層ごとのニューロン数 (ANN)





オブジェクトセットは、データベースのデータポイント、特定のインスタンス、レコード、行のセットです。オブジェクトセットは一連のルール (First、Last、Random、Intersect、Filter など) に基づいて作成するか、すべての視覚化グラフのルーラーを使用して作成できます。 


異常値は他のデータから数値的に離れているデータです。原因が誤差であっても、異常であっても、通常、明確化のため異常値は分析から削除されます。3σルール (経験則) に従い、ほぼすべての値が平均の 3 標準偏差内に収まります。



統計モデルが基本の関係ではなくランダム誤差またはノイズを説明するときに、過学習が発生します。一般的に、モデルが過剰に複雑であるとき (観察値数に対してパラメーターが多すぎるなど) に、過学習が発生します。通常、過学習のモデルは、データの小さい変動を重要に見せるため、予測性能が低くなります。 

P (交差検証)

Label-P-Label-Out および Leave-P-Out 公差検証手法で使用される分割数。

パレート図 (ヒストグラム)


パレート図 (モデルと分析)

Extra trees、Adaboost 木、MART、統計的仮説検定などの特定のモデルの結果をグラフで表示します。この図では、原因の重要度の降順 (最も重要な原因が先頭) に情報が整理されます。棒の長さは出力に対する属性の影響度 (割合) を表します。パレート図は特定の出力に影響する上位の変数に関する情報を示します。  


データの直交線形変換として定義されます。相関する変数が、線形に相関していない新しい座標系 (主成分または主変動最頻値) に変換されます。最初の主成分は変動 (または変数のばらつきを測定する相関行列) が最も大きくなります。続く成分はそれぞれ分散が最も大きくなければなりません。ただし、成分は前の成分に対して直交でなければならないという制約があります。結果のベクトルは相関していない直交セットです。このアプローチでは、数個の成分と相互に強く関係する説明変数の数を減らすことができます。


空間問題の変換された射影の線形回帰方法を作成します。主成分分析 (PCA) と複数の線形回帰分析から特徴量を結合します。このモデルの目的は、観察された属性から推測された潜在変数という点で、観察された変数を説明することです。潜在変数はデータの次元を減らすため、入力変数の数が多い回帰分析問題で非常に有用です。  


すべての予測モデル (回帰および分類) には次の 2 つの出力属性があります。予測属性および誤差属性。予測属性は予測された出力値を提供します。既定では、名前を入力しない場合、モデルの種類と出力属性に基づいて既定の名前が生成されます。たとえば、既定の決定木は DT_PREDICT_[OUTPUT] です。 

前 (欠測値を埋める)


PRIM 分析 

Patient Rule Induction Method (PRIM) は、目標変数の比較的高い (低い) 値で入力空間の下位領域を検索するために使用されるデータマイニング手法です。構造によって、PRIM は、回帰関数の推定によって間接的にではなく、直接的にこれらの領域を対象にします。この方法では、下位領域が入力空間の長方形 (の結合) であるため、これらの下位領域をシンプルなルールで説明できます。

枝刈りセット (木)

枝刈りされた木を評価します。枝刈りされた木は枝刈り手法を使用します。枝刈り手法は追加の情報を提供できないノードを削除して学習木のサイズを削減します。この目的は、正確さを損なわずに、木のサイズを最適化することです。データセットは、学習セット、テストセット、枝刈りセットという 3 つの独立したセットに分割されます。


記述統計学では、順位付けされたデータ値のセットの四分位は 3 つのデータポイントであり、このデータポイントは 4 つの等しいグループに分割されます。各グループは 1/4 のデータから構成されます。第 1 四分位とは、データセットの最も小さい数と中央値との間にある真ん中の数です。第 2 四分位とは、データの中央値と呼ばれる真ん中の観察値です。第 3 四分位とは、データセットの中央値と最高値の間のにある真ん中の値です。 

一般的なプログラミング言語で、主に、統計およびデータサイエンスで使用されます。関数属性は R で作成された式をサポートできます。 

ランダム (オブジェクトセット)

オブジェクトをランダムに選択 (一様分布を保証) するオブジェクトセットルール。たとえば、「random 100」は選択したデータセット (オブジェクトセットルールを結合する場合はオブジェクトセット) 内の 100 件のオブジェクト (または行) をランダムに選択します。


教師あり学習のカテゴリで、出力または目標は連続属性または数値属性を予測することです。たとえば、0~25 の範囲のエネルギー消費量を予測します。

相対度数 (ヒストグラム)


Restrict symbol peeling (PRIM)

このパラメーターが選択されると、アルゴリズムは各ステップでα値よりも多いオブジェクトを削除しません。十分な記号値がない場合、この条件は考慮されません。無効にすると、記号変数の場合、アルゴリズムは各ステップでα値を超えるオブジェクトを削除できます。注記: 値の数が限られた数値属性では、類似した問題が発生します。   

倍率 (集計グラフ)

すべての y 軸変数が調整される倍率。 


デカルト座標グラフ (X-Y プロット)。2 つの変数が表示されます。条件が指定された場合は、3 番目の変数も表示できます。この図の目的は、2 つまたは 3 つの変数間に関係 (相関関係) がある場合にそれらを特定することです。 

スクリプトフィルター (オブジェクトセット)

スクリプトルールに基づいてオブジェクトセットを作成する方法。ルールは Javascript、Python、または R でスクリプト化できます。

検索クラスター数 (K 平均法)

シルエットインジケーターを使用して、クラスターの最小数 (1) と最大数 (ISHM のクラスター数パラメーター) の間で最適なクラスター数を選択します。1 からクラスター数まで繰り返され、シルエットインジケーターの改善があるかどうかを確認します。このため、実際の改善を得るには、クラスター数を 5 より大きくすることをお勧めします。 


学習アルゴリズムのランダム部において使用される乱数生成器を初期化します。2 つの同一のシートは 2 つの同一の乱数系列になるため、同じ学習結果となります。

シグモイド (ANN)

ANN モデルのの活性化関数と、一般的な「S 曲線」またはシグモイド曲線。ステップ関数に似ていますが、微分係数がより平滑です。関数の出力は常に範囲 [0,1] です。生物学的なニューロンの入出力関係に最も近いものです。このため、モデルに非線形を導入するために ANN で多く使用されていますシグモイド微分係数は簡単に計算でき、重みの計算で役立ちます。最も使用される活性化関数の 1 つです。  


K平均法と Subclu クラスタリングのクラスターで一貫性を検証するために使用される方法です。各オブジェクトがクラスターにどの程度適合しているのかを簡潔に示します。 

シャッフル (交差検証)

これは k分割法のバリエーションで、k分割に分割する前にデータをランダムにシャッフルできます。パラメーター「シード」は、k分割が繰り返されるたびにランダムシャッフルを初期化します。同一の 2 つのシードは同一の 2 つのシャッフルになります。 

正則化をスキップ (ANN)

選択すると、通常は ANN が正則化を実行しません。正則化は、ネットワークの複雑さを制御するために設計されたレギュレーターであり、複雑さのペナルティを適用して過学習を防ぎます。  

スケーリングをスキップ (ANN)

選択すると、ANN モデルの入力属性がリスケーリングできないため、数値的に比較可能になります。


DmA では、時間曲線、ヒストグラム、散布図を含むレポートを作成できます。[属性] で定義された属性はメインの変数であり、[比較] で定義された属性と比較されます。時間属性は [時間] で定義されます。必要に応じて、ヒストグラムと散布図の属性が [条件] で定義されます。    



階層化 K 分割 (交差検証)


サブシーケンス (オブジェクトセット)

選択したデータセット (オブジェクトセットルールを結合する場合はオブジェクトセット) 内の行 n から行 m までを対象とするオブジェクトセットルール。


教師なしクラスタリングアルゴリズム。点の密度に基づいてデータのグループまたはパターンを定義するために使用されます。低密度領域にだけある点は異常値に設定されます。各クラスターは一度に 1 次元ずつ拡張します。1 つの次元には前のクラスターと異なるクラスターがあります。このため、k平均法のようにクラスター数を定義する必要はありません。 


棒を使用してカテゴリ間のデータを集計する視覚的なツールです。棒グラフには 2 つの軸の X と Y があります。X 軸は時間属性です (期間タイプに基づいて離散化)。Y 軸属性は 1 つ以上の変数にすることができます。年、付き、週、日、時間、分、秒といった期間タイプは変更できます。属性集計タイプ (合計、平均、最小、最大に基づく) と倍率も選択できます。     

集計タイプ (集計グラフ)





値は文字列または記号です。直感的な順序 (例: 高、低) を暗示していないかぎりは、並べることができません。  

対称 (微分属性)

微分係数計算で使用されます。すべての属性で、二次差分係数式を使用して、微分係数が計算されます。[f(t+Step)-f(t-Step)]/2*Step。Step は微分関数のステップ長を定義するパラメーターです。 

Swarm (オプティマイザー) 

差分進化 (DE): 差分進化 (DE) と呼ばれるマルチエージェント最適化手法は、Storn と Price が提案した手法です (Differential evolution - a simple and efficient heuristic for global optimization over continuous spaceStorn, R. and Price, K. s.l.: Journal of Global Optimization, 1997, Vol. 11, pp. 341-359.)。多数の DE バリアントが存在します。シンプルな手法は DE クラスに実装されています。さまざまな DE バリアントは DESuite クラスから入手できます。DE はエージェントの母集団を使用します。更新されているエージェントの位置と、母集団全体からランダムに選択された位置を示します。それを新しい潜在的な位置にします。次のように計算されます (これはいわゆる DE/rand/1/bin バリアントです)。 


ベクトルは母集団からランダムに選択された一意のエージェントの位置です。インデックスはランダムに選択され、各次元に対してもランダムに選択されます。適応度が改善された場合は、新しい位置に移動します。ユーザーが定義したパラメーターは差分重み、交叉確立、母集団サイズです。」この要約は「SwarmOps for Java」ドキュメントから引用されています。 

ステップ (シフト属性)

(時間) シフト属性の (時間) ステップを指定します。ステップ範囲と同じステップの場合、1 つの新しい属性のみが計算されます。ステップ範囲未満のステップの場合、新しい N 属性が作成されます。 

ステップ期間 (微分属性)

差分関数のステップ長さ。微分方程式の分母パラメーター。1 次、2 次、3 次以上。  


PRIM 最適化、オプティマイザー、動的入力分析のコンテキストでは、「目標」は最適化目標を定義します。「最大化」は関数値を最大化しようとします。「最小化」は関数値を最小化しようとします。PRIM では、「最大化」は平均値または目標クラスの発生数を増やそうとします。「最小化」は平均値または目標クラスの発生数を減らそうとします (「目標記号」を参照)。

目的関数/モデル (オプティマイザー)


目標最小値 (オプティマイザー) 


目標最大値 (オプティマイザー)


目標記号 (PRIM)

PRIM 最適化モデルの目的として使用される記号属性。PRIM モデルは最終的な箱で目標記号の確率を最小化または最大化しようとします。注記: このフィールドは大文字と小文字を区別します。たとえば、stable と STABLE は異なる値と見なされます。数値最適化問題では、このフィールドを空欄にしてください。 

目標値 (ギャップ分析)



DATAmaestro では、Unix 時間 (ミリ秒) と Excel 時間を選択できます。



学習/テストの分割 (交差検証)

学習セットを、学習セットと検証セットに分割します。モデルは、分割後の学習セットで学習され、検証セットで評価されます。この方法は 1 つのモデルのみを使用して、パラメーターの組み合わせのエラーを評価します。最速の交差検証手法ですが、小さいデータセットではパフォーマンスが劣化する場合があります。 

割合のテスト (交差検証)


UCL 属性 (SPC)

この値の下の上方管理限界 (UCL) を定義します。プロセスは正常管理外であると見なされます。グラフとしては、UCL は平均の下の横線で表されます。 

Union (オブジェクトセット)

既存のオブジェクトセットを組み合わせることができます。union を使用して 2 つ (以上) のオブジェクトセットを結合するときには、オブジェクトセット 1「OR」オブジェクトセット 2 のデータポイントを保持することと同義です。     

Unix 時間 

Unix 時間はある時点を説明するための体系です。秒単位の数値です。協定世界時 (UTC) 1970 年 1 月 1 日木曜日 00:00:00 から計測された秒数から 1 秒の調整を差し引いた値です。1 日はすべてちょうど 86400 秒として処理されるため、エポック (コンピューターでシステム時刻の計測が開始した日時) 以降は閏秒が減算されます。Unix 時間は秒とミリ秒で表記します。詳細については、「Unix 時間」を確認してください。 



上シフト (シフト属性)

範囲の上界 (時間) を指定します。上シフト 1 では、行が 1 行上にシフトした追加の変数がデータセットに作成され、元の変数と比較されます。  


Unicode (Universal Character Set) Transformation Format - 8 bits を表します。マルチバイト文字コーディングであり、基本的にすべての世界中の文字で使用されます。DmA で CSV がアップロードされるときにユーザーが指定できます。 





重み属性 (決定木ベースのモデル)


重み減衰 (ANN)

学習中は、更新の後、重みが少し減ります (1 より小さく、ゼロより大きい係数。既定値は0.5)。 





Artificial Intelligence (人工知能)


Automatic Learning (自動学習)


Artificial Neural Network (人工ニュートラルネットワーク)


Bayesian Network (ベイズネットワーク)


Comma-Separated values (カンマ区切り値)


Cumulative Sum (累積和) 


Database (データベース) 


Data Mining (データマイニング) 


DATAmaestro Analytics 


Decision Tree (決定木) 


Integrated System Health Monitoring


Knowledge Discovery from Databases 


K Nearest Neighbors (k近傍法) 






Multiple Additive Regression Trees




Principal Component Analysis (主成分分析) 


Partial Least Squares (部分的最小二乗回帰)


Patient Rule Induction Method






Scalable Vector Graphic(スケーラブル・ベクター・グラフィックス)


Support Vector Machines(サポートベクターマシン)