机器学习(1) - 基础概念
目录
部分来源机器学习基础
机器学习基础概念
机器学习主要任务
- 分类(classification): 将实例数据划分到合适的类别中。
- 应用实例: 判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
- 回归(regression): 主要用于预测数值型数据。
- 应用实例: 股票价格波动的预测,房屋价格的预测等。
监督学习(supervised learning)
- 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。本质上就是需要有一组正确的数据来监督自己修改参数以达成学习过程。
- 样本集: 训练数据 + 测试数据
- 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
- 特征通常是训练样本集的(矩阵)列,它们是独立测量得到的。
- 目标变量: 目标变量是机器学习预测算法的测试结果。
- 在分类算法中目标变量的类型通常是标称型(如: 真与假),而在回归算法中通常是连续型(如: 1~100)。
- 监督学习需要注意的问题:
- 偏置方差权衡
- 功能的复杂性和数量的训练数据
- 输入空间的维数
- 噪声中的输出值
非监督学习(unsupervised learning)
- 在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。
- 无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
- 非监督学习包括的类型:
- 聚类: 在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。
- 密度估计: 通过样本分布的紧密程度,来估计与分组的相似性。
- 此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。
强化学习
这个算法可以训练程序做出某一决定。程序在某一情况下尝试所有的可能行动,记录不同行动的结果并试着找出最好的一次尝试来做决定。 属于这一类算法的有马尔可夫决策过程。
使用机器学习
- 算法场景
- 预测明天是否下雨,因为可以用历史的天气情况做预测,所以选择监督学习算法
- 给一群陌生的人进行分组,但是我们并没有这些人的类别信息,所以选择无监督学习算法、通过他们身高、体重等特征进行处理。(根据数据挖掘出的信息进行机器打标签)
- 需要收集或分析的数据是什么
- 数据性质:离散/连续,频率等
- 数据的缺失和整合
开发流程:
- 收集数据: 收集样本数据
- 准备数据: 注意数据的格式
- 分析数据: 为了确保数据集中没有垃圾数据;
- 如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
- 另外该步骤需要人工干预,会降低自动化系统的价值。
- 训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
- 测试算法: [机器学习算法核心]评估算法效果
- 使用算法: 将机器学习算法转为应用程序
机器学习专业术语
- 模型(model): 计算机层面的抽象认知
- 学习算法(learning algorithm):从数据中产生模型的方法
- 数据集(data set): 一组记录的合集
- 示例(instance): 对于某个对象的描述
- 样本(sample): 也叫示例
- 属性(attribute): 对象的某方面表现或特征
- 特征(feature): 同属性,一般特征来说是属性的集合
- 属性值(attribute value): 属性上的取值
- 属性空间(attribute space): 属性张成的空间
- 样本空间/输入空间(samplespace): 同属性空间
- 特征向量(feature vector): 在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
- 维数(dimensionality): 描述样本参数的个数(也就是空间是几维的)
- 学习(learning)/训练(training): 从数据中学得模型
- 训练数据(training data): 训练过程中用到的数据
- 训练样本(training sample):训练用到的每个样本
- 训练集(training set): 训练样本组成的集合
- 假设(hypothesis): 学习模型对应了关于数据的某种潜在规则
- 真相(ground-truth):真正存在的潜在规律
- 学习器(learner): 模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
- 预测(prediction): 判断一个东西的属性
- 标记(label): 关于示例的结果信息,比如我是一个“好人”。
- 样例(example): 拥有标记的示例
- 标记空间/输出空间(label space): 所有标记的集合
- 分类(classification): 预测是离散值,比如把人分为好人和坏人之类的学习任务
- 回归(regression): 预测值是连续值,比如你的好人程度达到了0.9,0.6之类的
- 二分类(binary classification): 只涉及两个类别的分类任务
- 正类(positive class): 二分类里的一个
- 反类(negative class): 二分类里的另外一个
- 多分类(multi-class classification): 涉及多个类别的分类
- 测试(testing): 学习到模型之后对样本进行预测的过程
- 测试样本(testing sample): 被预测的样本
- 聚类(clustering): 把训练集中的对象分为若干组
- 簇(cluster): 每一个组叫簇
- 监督学习(supervised learning): 典范--分类和回归
- 无监督学习(unsupervised learning): 典范--聚类
- 未见示例(unseen instance): “新样本“,没训练过的样本
- 泛化(generalization)能力: 学得的模型适用于新样本的能力
- 分布(distribution): 样本空间的全体样本服从的一种规律
- 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。
数据集的划分
- 训练集(Training set) —— 学习样本数据集,通过匹配一些参数来建立一个模型,主要用来训练模型。类比考研前做的解题大全。 训练
- 验证集(validation set) —— 对学习出来的模型,调整模型的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。类比考研之前做的模拟考试。 调参
- 测试集(Test set) —— 测试训练好的模型的分辨能力。类比 考研。这次真的是一考定终身。 真正去评估
模型拟合程度
- 欠拟合(Underfitting): 模型没有很好地捕捉到数据特征,不能够很好地拟合数据,对训练样本的一般性质尚未学好。类比,光看书不做题觉得自己什么都会了,上了考场才知道自己啥都不会。 缺少对特征的认知
- 过拟合(Overfitting): 模型把训练样本学习“太好了”,可能把一些训练样本自身的特性当做了所有潜在样本都有的一般性质,导致泛化能力下降。类比,做课后题全都做对了,超纲题也都认为是考试必考题目,上了考场还是啥都不会。 在意过多其实无关的特征
常见的模型指标
- 正确率 —— 提取出的正确信息条数 / 提取出的信息条数
- 召回率 —— 提取出的正确信息条数 / 样本中的信息条数
- F 值 —— 正确率 * 召回率 * 2 / (正确率 + 召回率)(F值即为正确率和召回率的调和平均值)
模型
- 分类问题 —— 评判分类效果好坏的三个指标就是上面介绍的三个指标: 正确率,召回率,F值。
- 回归问题 —— 对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算 误差(Error)来确定模型的精确性。
- 聚类问题 —— 聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。聚类问题的标准一般基于距离: 簇内距离(Intra-cluster Distance) 和 簇间距离(Inter-cluster Distance) 。簇内距离是越小越好,也就是簇内的元素越相似越好;而簇间距离越大越好,也就是说簇间(不同簇)元素越不相同越好。一般的,衡量聚类问题会给出一个结合簇内距离和簇间距离的公式。
特征工程
- 特征选择 —— 也叫特征子集选择(FSS,Feature Subset Selection)。从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
- 特征提取

浙公网安备 33010602011771号