机器学习
一、机器学习基础
1.1 机器学习种类
主要可分为两种:有监督学习(含标签数据),无监督学习; 根据是否有标签数据划分.
-
有监督学习:主要分为分类与回归两种形式
- 分类:在已有数据的基础上构造出一个分类模型(分类器),输出目标是离散值
- 回归:输出目标是连续值
- 常见的有监督学习算法:线性回归、逻辑回归、高斯判别分析、朴素贝叶斯、决策树、神经网络、支持向量机和协同过滤等
-
无监督学习:主要分为聚类和关联分析
-
聚类:将数据集划分为由若干相似实例组成的簇的过程,使得同一个簇中实例相似度最大化,不同簇中实例间的相似度最小化;聚类算法的输入是一组样本以及一个度量样本间相似度的标准,输出是簇的集合。
-
关联分析:用于发现隐藏在大型数据集中有意义的联系。?
-
1.2 机器学习术语
- 数据集:待处理的数据对象的集合
- 属性:刻画对象基本特征,可分为定性的属性(分类属性)和定量的属性(数值属性)
- 标签:样本的目标属性
- 训练样本:用于训练机器学习算法的样本
- 验证样本:用于调节机器学习算法参数
- 测试样本:用于评估机器学习算法的性能,在学习阶段不允许偷看测试样本
- 离群值:一个数据对象,明显不同于其他数据对象
- 缺失值:一个数据对象遗漏一个或多个属性值的情形
- 损失函数:度量预测标签与真实标签之间的差异(或损失)的函数,一个非负实值函数,越小性能越好。常用的损失函数有0-1损失、Hinge损失、Log损失、平方损失(squared loss)、平方损失(exponential loss)等
- 泛化能力:机器学习算法对新样本的适应能力
- 欠拟合:在训练数据上的性能表现不好
- 过拟合:非常完美的拟合了训练数据,但是不能对测试数据不能很好的预测,泛化 能力差
1.3 数据的性质
- 频率:刻画离散的分类属性的性质,统计属性中每个值出现的频率
- 众数:频率最高的值
- 均值:反映一组数据的集中趋势
- 中位数:按顺序排列的一组数据中居于中间位置的数,如果数据个数为偶数,则取中间两个数的平均值作为中位数
- 极差:体现一组数据波动的范围,是数据最大值与最小值之间的差距
- 方差: 体现数据与均值之间的偏离程度,方差越大偏离程度越大,是每个数值与均值之差的平方和的平均值
- 标准差:方差开根号
二、特征工程(预处理过程)
定义:特征工程是将原始数据集转换为更好的代表预测模型的潜在问题的特征的过程,从而提高对未知数据预测的准确性。
原因:原始数据集很难完美,可能存在异常值、缺失值、重复值,因此需要对总噪点数据进行处理,产生一个相对纯净的数据集。
2.1 特征抽取
特征抽取对文本等数据进行特征值化。特征值化是为了让机器更好的理解数据。其中运用one-hot编码。
2.2 数值型数据预处理
无量纲化:将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布
方式:归一化、标准化
- 归一化:通过对原始数据进行变换把数据映射到(0,1)之间;如果认为每一个属性(特征)具有同等大小的权重,一般进行归一化处理;计算与最大值最小值有关,异常值对归一化处理影响很大
- 标准化:当数据按均值中心化后,再按标准差缩放,数据就会服从均值为0,方差为1的正态分布,少量的异常值对标准化影响不大,更常用。
2.3 特征选择
从特征中选择出有意义、对模型有帮助的特征作为最终的机器学习输入数据。
特征选择的原因:
- 冗余:部分特征的相关度高,容易消耗计算机的性能
- 噪点:部分特征对预测结果有偏执影响
特征选择的方式:
- 方差过滤(Filter过滤式):通过特征本身的方差进行筛选,如果一个特征本身的方差很小,说明样本再这个特征上基本没有差异,该特征对样本区分没什么作用。
- Embedded: 决策树模型会自己选择出对其重要的特征
- PCA降维:?后期注意点
三、线性回归模型
3.1 线性回归介绍
回归算法是一种有监督学习算法,用于构建一个算法模型(函数)来表示特征(自变量X)与标签(因变量Y)之间的映射关系,当X与Y之间为线性关系时,称其为线性回归模型
- 损失函数:一个数据点的预测值和真实值的差别
- 代价函数:一批数据点损失函数的均值加上正则化项(模型复杂度惩罚)
- 目标函数:训练过程中需要优化的任何函数
3.2 最小二乘法
在代价函数的最小值初,关于参数的偏导数一定为0,解一阶偏导=0可得到代价函数的拐点,如果二甲偏导大于0则拐点即为最小值
3.3 梯度下降法
要找到某函数的最小值,最好的方法是沿着该函数的负梯度方向(下降最快的方向)探索。
- 批量梯度下降法****:每次迭代时,利用所有样本计算梯度来对参数进行更新
- 随机梯度下降法****:每次迭代时,利用一个样本计算梯度来对参数进行更新
- 小批量梯度下降法:每次迭代时,利用一些样本计算梯度来对参数进行更新
- 超参数alpha
3.4 多项式回归
线性回归(一次模型)并不适合所有的数据;直线不一定能很好的拟合数据,曲线可以更好的拟合数据
3.5 正则化(模型复杂度惩罚)
高次项容易导致过拟合,因此考虑减小高次项的影响,把高次项的系数减少到接近0,在拟合训练数据和保持泛化能力达到平衡。
- L1范式
- L2范式
3.6 k折交叉验证
- 将原始数据集划分为相等的K部分(“折”)
- 将第1部分作为测试集,其余作为训练集
- 训练模型,计算模型在测试集上的准确率
- 每次用不同的部分作为测试集,重复步骤2和3 K次
- 将平均准确率作为最终的模型准确率
四、逻辑回归模型
4.1 逻辑回归的介绍
逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。
在线性回归的基础上加上一个这样一个函数,当y>0.5时,为正样本;y<0.5时,为负样本,进而实现分类
4.2 逻辑回归算法
损失函数,梯度下降
五、贝叶斯
5.1 朴素贝叶斯
朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督学习算法,是一种专注分类的算法。朴素贝叶斯只适用于特诊之间是条件独立的情况下
特点:可以得到每个类别的概率
- 高斯模型:通过假设P(xi|Y)是服从高斯分布(也就是正态分布),来估计训练集数据的每个样本特征分到每个类别Y上的条件概率
- 多项式模型:?
- 伯努利模型:?
缺点:由于使用了样本属性独立的假设,所以如果样本属性有关联时效果不太好

浙公网安备 33010602011771号