随笔分类 -  机器学习基础

摘要:深度学习的数学基础 微积分 无穷小在17世纪下半叶,数学史上出现了无穷小的概念,而后发展处极限的概念 极限 数列的极限 函数的极限 导数 微分 积分 不定积分也称为原函数或反导数 定积分 定积分中值定理 牛顿-莱布尼茨公式 偏导数 概率统计 样本空间定义:随机试验 E 的所有结果构成的集合称为 E 阅读全文
posted @ 2019-01-02 09:07 大来 阅读(762) 评论(0) 推荐(0)
摘要:1.交叉熵 它描述两个概率分布之间的距离,当交叉熵小时说明两者之间越接近,它是分类问题中使用比较广的一种损失函数 2.回归问题中常用的均方误差MSE 回归问题解决的是具体数值的预测,比如放假预测、销售预测等都是回归问题,这些问题需要预测的不是一个事先定义好的类别,而是一个任意的实数, 解决回归问题的 阅读全文
posted @ 2018-12-08 09:37 大来 阅读(1039) 评论(0) 推荐(0)
摘要:1.基本理论 双向 RNN 结合时间上从序列起点开始移动的 RNN 和另一个时间上从序列末尾开始移动的 RNN 2.逻辑图 其中 h (t) 代表通过时间向前移动的子 RNN 的状态,g (t) 代表通过时间向后移动的子 RNN 的状态 允许输出单元 o (t) 能够计算同时依赖于过去和未来且对时刻 阅读全文
posted @ 2018-12-04 17:05 大来 阅读(1585) 评论(0) 推荐(0)
摘要:1.卷积运算 卷积的第一个参数(在这个例子中,函数 x)通常叫做输入(input),第二个参数(函数 w)叫做核函数(kernel function)。 输出有时被称作特征映射(feature map) 2.动机 卷积运算通过三个重要的思想来帮助改进机器学习系统: 稀疏交互(sparseintera 阅读全文
posted @ 2018-12-04 15:07 大来 阅读(241) 评论(0) 推荐(0)
摘要:1.随机梯度下降 保证SGD收敛的一个充分条件是 线性衰减学习率直到第 τ 次迭代: 其中 α =k/τ 。在 τ 步迭代之后,一般使 ϵ 保持常数 通常 τ 被设为需要反复遍历训练集几百次的迭代次数。通常 ϵ τ 应设为大约 ϵ 0 的 1%。主要问题是如何设置 ϵ 0 。若 ϵ 0 太大,学习曲 阅读全文
posted @ 2018-12-04 09:01 大来 阅读(526) 评论(0) 推荐(0)
摘要:1.深度学习中的正则化 提高泛化能力,防止过拟合 大多数正则化策略都会对估计进行正则化,估计的正则化以偏差的增加换取方差的减少 正则化方法是在训练数据不够多时,或者over training时,常常会导致过拟合(overfitting)。这时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的 阅读全文
posted @ 2018-12-03 15:17 大来 阅读(1492) 评论(0) 推荐(0)
摘要:1.深度前馈网络 定义了一个映射 y = f(x;θ),并且学习参数 θ 的值,使它能够得到最佳的函数近似 2.这种模型被称为前向(feedforward) 在模型的输出和模型本身之间没有反馈(feedback)连接 3.深度(depth) 模型的层数 4.隐藏层(hidden layer) 隐藏层 阅读全文
posted @ 2018-11-30 11:14 大来 阅读(712) 评论(0) 推荐(0)
摘要:1.简单的配方 特定的数据集、代价函数、优化过程和模型 2.线性回归算法 X 和 y 构成的数据集 代价函数 最常见的代价函数是负对数似然,最小化代价函数导致的最大似然估计 代价函数也可能含有附加项,如正则化项 模型是 p model (y | x) = N(y;x ⊤ w + b,1) 优化算法可 阅读全文
posted @ 2018-11-30 10:48 大来 阅读(168) 评论(0) 推荐(0)
摘要:1.概率监督学习 2.支持向量机 SVM 这个模型也是基于线性函数 w ⊤ x + b 的 支持向量机不输出概率,只输出类别 3.最近邻回归 4.决策树 阅读全文
posted @ 2018-11-30 10:13 大来 阅读(368) 评论(0) 推荐(0)
摘要:1.贝叶斯统计 贝叶斯用概率反映知识状态的确定性程度 数据集能够被直接观测到,因此不是随机的 另一方面,真实参数 θ 是未知或不确定的,因此可以表示成随机变量 相对于最大似然估计,贝叶斯估计有两个重要区别: 第一,不像最大似然方法预测时使用 θ 的点估计,贝叶斯方法使用 θ 的全分布 在观测到 m 阅读全文
posted @ 2018-11-29 15:32 大来 阅读(537) 评论(0) 推荐(0)
摘要:1.最大似然估计 我们首先要定义可能性: 并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。 2.KL 散度 只需要最小化 最小化 KL 散度其实就是在最小化分布之间的交叉熵 3.条件对数似然和均方误差 估计条件概率 P(y | x;θ),从而给定 x 预测 y 阅读全文
posted @ 2018-11-29 14:53 大来 阅读(362) 评论(0) 推荐(0)
摘要:1.点估计 令 {x (1) ,...,x (m) } 是 m 个独立同分布(i.i.d.)的数据点。点估计(point esti-mator)或统计量(statistics)是这些数据的任意函数: 良好的估计量的输出会接近生成训练数据的真实参数 θ 点估计也可以指输入和目标变量之间关系的估计。我们 阅读全文
posted @ 2018-11-28 23:07 大来 阅读(2518) 评论(0) 推荐(0)
摘要:1.超参数 可以设置来控制算法行为 2.验证集 用于挑选超参数的数据子集被称为验证集(validation set) 3. k-折交叉验证算法 阅读全文
posted @ 2018-11-28 22:01 大来 阅读(442) 评论(0) 推荐(0)
摘要:1.泛化 在先前未观测到的输入上表现良好的能力被称为泛化(generalization) 2.训练误差(training error) 在训练集上计算的误差 3.泛化误差(generalization error)(也被称为测试误差(test error)) 在测试集上计算的误差 线性回归示例 4. 阅读全文
posted @ 2018-11-28 21:15 大来 阅读(478) 评论(0) 推荐(0)