随笔分类 -  Machine Learning

摘要:一、离散状态的马尔科夫决策 1. 奖励因子r 在马尔科夫决策中,有个奖励因子r,在计算总期望价值的时候,奖励因子r的次方数会逐步增加。对于这个的解释可以理解为:今天的一元钱在明天一般都会贬值。所以当某个状态s较晚到达时,要控制奖励因子使得获得的价值减少。 2. Bellman方程 $$ V^{\pi 阅读全文
posted @ 2018-11-19 20:32 天涯惟笑 阅读(645) 评论(0) 推荐(0)
摘要:一、问题 主方向的概念是什么?为什么降低维度的方法是使方差最大化? 假设某两个特征之间成线性关系,在二维平面上的表示就是数据点呈线性分布,那么可以通过将数据在主方向上进行投影,得到一个一维的数据,这个一维的数据保留了原始数据大部分的信息. 两个特征之间成线性关系,但是由于一些噪声的影响,所以数据分布 阅读全文
posted @ 2018-04-03 12:05 天涯惟笑 阅读(205) 评论(0) 推荐(0)
摘要:一、高斯混合模型 软分类算法,即对每一个样本,计算其属于各个分布的概率,概率值最大的就是这个样本所属的分类。 对于训练样本的分布,看成为多个高斯分布加权得到的。其中每个高斯分布即为某一特定的类。 高斯混合模型和高斯判别分析非常像,唯一的区别就是在高斯混合模型中,每个样本所属的类别标签是未知的。 为了 阅读全文
posted @ 2018-04-03 12:04 天涯惟笑 阅读(257) 评论(0) 推荐(0)
摘要:一、协方差矩阵 协方差矩阵为对称矩阵。 在高斯分布中,方差越大,数据分布越分散,方差越小发,数据分布越集中。 在协方差矩阵中,假设矩阵为二维,若第二维的方差大于第一维的方差,则在图像上的体现就是:高斯分布呈现一个椭圆形,且主轴对应的就是方差大的第二维度。简而言之,若对角线元素相等,则高斯分布的图形是 阅读全文
posted @ 2018-04-03 12:04 天涯惟笑 阅读(2089) 评论(0) 推荐(0)
摘要:偏差方差权衡 使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代价较小使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算代价比较大,但是可以通过归一化手段来调整而更加适应数据。 通常选择较大的神经网络并采用归一化处理会比采用较小的神经网络效果要好。 对 阅读全文
posted @ 2018-04-03 11:58 天涯惟笑 阅读(228) 评论(0) 推荐(0)
摘要:一、经验风险最小化 1、有限假设类情形 对于Chernoff bound 不等式,最直观的解释就是利用高斯分布的图象。而且这个结论和中心极限定律没有关系,当m为任意值时Chernoff bound均成立,但是中心极限定律不一定成立。 随着 模型复杂度 (如多项式的次数、假设类的大小等)的增长, 训练 阅读全文
posted @ 2017-09-03 10:11 天涯惟笑 阅读(395) 评论(0) 推荐(0)
摘要:一、最大间隔分类器 1. 函数间隔 :$γ^{i} = y^{i}(w^{T} x + b)$, 改变w和b的量级,对分类结果不会产生任何影响,但是会改变函数间隔的大小。因此,直接对函数间隔求最大值是没有任何意义的。因为可以通过任意改变w、b的量级,使得函数间隔任意大。 Q1: 函数间隔的式子中,$ 阅读全文
posted @ 2017-08-27 16:42 天涯惟笑 阅读(354) 评论(0) 推荐(0)
摘要:一、算法说明 1. 为了便于计算类条件概率$P(x|c)$,朴素贝叶斯算法作了一个关键的假设:对已知类别,假设所有属性相互独立。 2. 当使用训练完的特征向量对新样本进行测试时,由于概率是多个很小的相乘所得,可能会出现下溢出,故对乘积取自然对数解决这个问题。 3. 在大多数朴素贝叶斯分类器中计算特征 阅读全文
posted @ 2017-08-19 13:37 天涯惟笑 阅读(2827) 评论(1) 推荐(0)
摘要:一、线性回归 1、批量梯度下降法 每次对参数进行一次迭代时,都要扫描一遍输入全集 算法可以收敛到局部最优值 当迭代多次之后,每次迭代参数的改变越小 2、随机梯度下降法 对于一个输入样本,对参数进行一次更新 算法通常不会收敛到局部最优值,整个过程类似在上山迂回下山,有时可能上山,有时可能下山,但算法的 阅读全文
posted @ 2017-08-12 13:43 天涯惟笑 阅读(905) 评论(0) 推荐(0)