关于数据挖掘的术语
数据挖掘一些相关术语(Glossary)
人工神经网络(Artificial Neural Networks)
一种非线性预测模型,通过训练和在结构上模仿生物神经网络来学习。
分类和衰退树(CART Classification and Regression Trees)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,
以预测哪些记录将有一个给定的结果。通过创建一个两路分化对一个数据集进行分段。较
CHAID 技术,它需要较少的数据准备。
正方自动交互发现(CHAID Chi Square Automatic Interaction Detection)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,
以预测哪些记录将有一个给定的结果。通过创建一个“多路分化”对一个数据集进行分段
。较 CART 技术,它需要较多的数据准备。
分类(classification)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽
可能“远离”,其中距离的测量与你正在试图预测的指定变量有关。例如:一个典型的分
类问题是把一个有关公司的数据库按其信用值分组为“好与坏”,使他们尽可能与实际信
用度相符。
簇化/聚类(clustering)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽
可能“远离”,其中距离的测量与所有可用的变量有关。
数据清洗(data cleansing)
一个确保数据集中所有数值是一致的和被正确记录的处理过程。
数据挖掘(data mining)
从一个大数据库中隐藏的预测信息的抽提过程。
数据导航/浏览(data navigation)
在一个多维数据库的不同的维度、切片、分层的细节等信息的观察过程。参见在线分析处
理 OLAP。
数据可视化(data visualization)
对多维数据的各种复杂关系的可视化解释过程。
数据仓库(data warehouse)
一种储存和交付大量数据的数据库系统。
决策树(decision tree)
代表一系列决策的树状结构。这些决策为数据集的分类生成规则。参见 CART 和 CHAID.
维度(dimension)
在一个平面的或关系数据库中,记录中的每一个字段代表一维。在多维数据库中,一维是
一相似实体的集合;例如,在一个多维的销售数据库中会包括产品、时间和城市维。
探测性数据分析(exploratory data analysis)
使用图形化和描述性的统计技术去“学习”一个数据集的结构。
遗传算法(genetic algorithms)
一种使用类似在一个基于自然进化概念的设计中的遗传组合、变异和自然选择等处理方法
的优化技术。
线性模型(linear model)
一种分析模型,它假定考虑的各变化因素是线性的关系。
非线性模型(non-linear model)
一种分析模型,它不假定正在考虑的各变化因素是线性的关系。
线性衰退(linear regression)
一种用于在目标变量和其预测因子间找出最合适的线性关系的技术。
对数衰退(logistic regression)
A linear regression that predicts the proportions of a categorical target vari
able, such as type of customer, in a population.
最近邻居(nearest neighbor)
A technique that classifies each record in a dataset based on a combination of
the classes of the k record(s) most similar to it in a historical dataset (wh
ere k 3 1). Sometimes called a k-nearest neighbor technique.
多维数据库(multidimensional database)
一种设计用于在线分析处理的数据库系统。其结构为多维的超立方体,其中每轴一维。
在线分析处理(OLAP On-line analytical processing)
可参考面向数组的数据库应用系统,它允许用户观察、穿插导航、操作和分析多维数据库
。
数据警戒(outlier)
指一个数据项,其值超出一个样本上的其他大部分项的相应值的边界时,称其为警戒项。
这时会预示着数据反常,需要仔细核实;他可能携带着重要信息。
预测模型(predictive model)
一个用于在数据集上预测指定变量的值的结构和处理流程。
预期数据分析(prospective data analysis)
基于历史的数据分析,它包括预测未来趋势、行为或事件。
回顾数据分析(retrospective data analysis)
对已经发生的事情做数据分析,它提供趋势、行为或事件的洞察。
规则归纳(rule induction)
对基于统计意义上的数据,抽提有用的“IF-THEN”规则。
时间序列分析(time series analysis)
按一定时间片对某个度量所做的序列分析。时间通常是数据的主要维度。
人工神经网络(Artificial Neural Networks)
一种非线性预测模型,通过训练和在结构上模仿生物神经网络来学习。
分类和衰退树(CART Classification and Regression Trees)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,
以预测哪些记录将有一个给定的结果。通过创建一个两路分化对一个数据集进行分段。较
CHAID 技术,它需要较少的数据准备。
正方自动交互发现(CHAID Chi Square Automatic Interaction Detection)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,
以预测哪些记录将有一个给定的结果。通过创建一个“多路分化”对一个数据集进行分段
。较 CART 技术,它需要较多的数据准备。
分类(classification)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽
可能“远离”,其中距离的测量与你正在试图预测的指定变量有关。例如:一个典型的分
类问题是把一个有关公司的数据库按其信用值分组为“好与坏”,使他们尽可能与实际信
用度相符。
簇化/聚类(clustering)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽
可能“远离”,其中距离的测量与所有可用的变量有关。
数据清洗(data cleansing)
一个确保数据集中所有数值是一致的和被正确记录的处理过程。
数据挖掘(data mining)
从一个大数据库中隐藏的预测信息的抽提过程。
数据导航/浏览(data navigation)
在一个多维数据库的不同的维度、切片、分层的细节等信息的观察过程。参见在线分析处
理 OLAP。
数据可视化(data visualization)
对多维数据的各种复杂关系的可视化解释过程。
数据仓库(data warehouse)
一种储存和交付大量数据的数据库系统。
决策树(decision tree)
代表一系列决策的树状结构。这些决策为数据集的分类生成规则。参见 CART 和 CHAID.
维度(dimension)
在一个平面的或关系数据库中,记录中的每一个字段代表一维。在多维数据库中,一维是
一相似实体的集合;例如,在一个多维的销售数据库中会包括产品、时间和城市维。
探测性数据分析(exploratory data analysis)
使用图形化和描述性的统计技术去“学习”一个数据集的结构。
遗传算法(genetic algorithms)
一种使用类似在一个基于自然进化概念的设计中的遗传组合、变异和自然选择等处理方法
的优化技术。
线性模型(linear model)
一种分析模型,它假定考虑的各变化因素是线性的关系。
非线性模型(non-linear model)
一种分析模型,它不假定正在考虑的各变化因素是线性的关系。
线性衰退(linear regression)
一种用于在目标变量和其预测因子间找出最合适的线性关系的技术。
对数衰退(logistic regression)
A linear regression that predicts the proportions of a categorical target vari
able, such as type of customer, in a population.
最近邻居(nearest neighbor)
A technique that classifies each record in a dataset based on a combination of
the classes of the k record(s) most similar to it in a historical dataset (wh
ere k 3 1). Sometimes called a k-nearest neighbor technique.
多维数据库(multidimensional database)
一种设计用于在线分析处理的数据库系统。其结构为多维的超立方体,其中每轴一维。
在线分析处理(OLAP On-line analytical processing)
可参考面向数组的数据库应用系统,它允许用户观察、穿插导航、操作和分析多维数据库
。
数据警戒(outlier)
指一个数据项,其值超出一个样本上的其他大部分项的相应值的边界时,称其为警戒项。
这时会预示着数据反常,需要仔细核实;他可能携带着重要信息。
预测模型(predictive model)
一个用于在数据集上预测指定变量的值的结构和处理流程。
预期数据分析(prospective data analysis)
基于历史的数据分析,它包括预测未来趋势、行为或事件。
回顾数据分析(retrospective data analysis)
对已经发生的事情做数据分析,它提供趋势、行为或事件的洞察。
规则归纳(rule induction)
对基于统计意义上的数据,抽提有用的“IF-THEN”规则。
时间序列分析(time series analysis)
按一定时间片对某个度量所做的序列分析。时间通常是数据的主要维度。
浙公网安备 33010602011771号