随笔分类 -  机器学习

摘要:深度学习广泛应用于各个领域。基于transformer的预训练模型(gpt/bertd等)基本已统治NLP深度学习领域,可见transformer的重要性。本文结合《Attention is all you need》论文与Harvard的代码《Annotated Transformer》深入理解t 阅读全文
posted @ 2019-10-24 02:27 ZingpLiu 阅读(44306) 评论(7) 推荐(17)
摘要:Dropout是深度学习中的一种防止过拟合手段,在面试中也经常会被问到,因此有必要搞懂其原理。 1 Dropout的运作方式 在神经网络的训练过程中,对于一次迭代中的某一层神经网络,先随机选择中的一些神经元并将其临时隐藏(丢弃),然后再进行本次训练和优化。在下一次迭代中,继续随机隐藏一些神经元,如此 阅读全文
posted @ 2019-10-08 12:11 ZingpLiu 阅读(18328) 评论(1) 推荐(3)
摘要:0 前言 本文主要内容:介绍Pointer-Generator-Network在文本摘要任务中的背景,模型架构与原理、在中英文数据集上实战效果与评估,最后得出结论。参考的《Get To The Point: Summarization with Pointer-Generator Networks》 阅读全文
posted @ 2019-09-26 11:36 ZingpLiu 阅读(27041) 评论(33) 推荐(2)
摘要:深度学习中的优化问题通常指的是:寻找神经网络上的一组参数θ,它能显著地降低代价函数J(θ)。针对此类问题,研究人员提出了多种优化算法,Sebastian Ruder 在《An overview of gradient descent optimizationalgorithms》(链接:https: 阅读全文
posted @ 2019-08-19 16:17 ZingpLiu 阅读(10095) 评论(0) 推荐(1)
摘要:1 基本概念 集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精 阅读全文
posted @ 2019-06-24 12:11 ZingpLiu 阅读(5578) 评论(4) 推荐(0)
摘要:文章从模型评估的基本概念开始,分别介绍了常见的分类模型的评估指标和回归模型的评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。思维导图如下: 1 基本概念 模型评估用来评测模型的好坏。 模型在训练集上的误差通常称为 训练误差 或 经验误差 ,而在新样本上的误差称为 泛化误差 。显然 阅读全文
posted @ 2019-03-28 11:45 ZingpLiu 阅读(4831) 评论(0) 推荐(0)
摘要:本文介绍了欠拟合、过拟合相关概念,分析造成它们的原因,总结了防止过拟合的一般策略。 1 损失函数 损失函数(loss function) : 是用来度量模型预测值f(x)与样本真实标签值y的不一致程度 。 给定输入的样本数据x,模型函数输出一个f(x),这个输出的f(x)与样本的真实值标签值y可能是 阅读全文
posted @ 2019-03-11 16:03 ZingpLiu 阅读(3513) 评论(3) 推荐(1)
摘要:过节福利,我们来深入理解下L1与L2正则化。 1 正则化的概念 正则化(Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了 原始损失函数+额外项 ,常用的额外项一般有两种,英文称作$ℓ1 norm$和$ℓ2 阅读全文
posted @ 2019-02-14 17:27 ZingpLiu 阅读(86224) 评论(8) 推荐(7)
摘要:梯度下降法(Gradient descent) 是一个一阶 最优化算法 ,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称 阅读全文
posted @ 2019-02-13 17:15 ZingpLiu 阅读(12547) 评论(0) 推荐(4)
摘要:1 信息量 定义:信息量是对信息的度量。 就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。 信息的大小跟随机事件的概率有关。 越小概率的事情发生了产生的信 阅读全文
posted @ 2019-01-14 14:38 ZingpLiu 阅读(1670) 评论(0) 推荐(1)
摘要:说明 题目是优达学城机器学习入门线性代数作业。下面是我的实现。 工具为jupyter notebook,不用该工具请自行导入相关依赖。 完整内容已上传到github:https://github.com/zingp/data-analysis/blob/master/linear_algebra/l 阅读全文
posted @ 2017-12-09 13:42 ZingpLiu 阅读(2988) 评论(0) 推荐(0)

/* 登录到博客园之后,打开博客园的后台管理,切换到“设置”选项卡,将上面的代码,粘贴到 “页脚HTML代码” 区保存即可。 */