机器学习(Machine learning)
绪论:
致力于如果通过计算的手段,利用验证来改善系统自身的性能。
所研究的主要内容:
关于计算机上从数据中产生“模型”的算法,即“学习算法”。我们提供经验数据,计算机基于数据产生模型。在面对新情况时给出相应判断。
计算机科学:研究算法;
机器学习:研究关于“学习算法”
1.2基本术语
data set
isntance 示例
sample 样本
attribute/feature 属性/特征
attribute value 属性空间
attribute space 样本空间
feature vector 特征向量
一般的,令D = {x1,x2,...,xm}表示包含m个示例的数据集,每个示例有d个属性描述,则每个示例xi= {xi1,xi2,...,xid}是d维样本空间X中的一个向量。d称为样本xi的维数(dimensionality)。
从数据中学得模型的过程称为学习/训练。整个过程通过执行学习算法完成。训练过程中使用的数据为训练集。每个样本称为训练样本。训练样本组成训练集。学得模型对应了关于数据的某种潜在规律,称为假设。其规律本身为真相。
预测
预测离散值:分类(classication)
预测连续值:回归(regression)
聚类:簇
学习任务:监督学习(supervised learning)/无监督学习(unsupervised learning)
1.3假设空间
归纳(induction)从特殊一般到特殊的“泛化”
演绎(deduction)从基础原理推演出具体情况