-
XLNet预训练模型,看这篇就够了!(代码实现)
摘要:文章目录1. 什么是XLNet2. 自回归语言模型(Autoregressive LM)3. 自编码语言模型(Autoencoder LM)4. XLNet模型4.1 排列语言建模(Permutation Language Modeling)4.2 Transformer XL4.2.1 vanilla Transformer4.2.2 Transformer XL5. XLNet与BERT比较6...
阅读全文
-
BERT预训练模型的演进过程!(附代码)
摘要:1. 什么是BERT
BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两...
阅读全文
-
Transformer各层网络结构详解!面试必备!(附代码实现)
摘要:1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等...
阅读全文
-
推荐系统--完整的架构设计和算法(协同过滤、隐语义)
摘要:1. 什么是推荐系统 推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。 为了解...
阅读全文
-
Attention机制的精要总结,附:中英文机器翻译的实现!
摘要:1. 什么是Attention机制 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。 现在,让我们再次思考那⼀节提到的翻译例⼦:输⼊为英语序列“They”“are”“watching”“.”,输出为法语序列“Ils”“regardent”“.”。不难想到,解码器在⽣成输出序列中的每⼀...
阅读全文
-
seq2seq通俗理解----编码器和解码器(TensorFlow实现)
摘要:文章目录1. 什么是seq2seq2. 编码器3. 解码器4. 训练模型5. seq2seq模型预测5.1 贪婪搜索5.2 穷举搜索5.3 束搜索6. Bleu得分7. 代码实现8. 参考文献 1. 什么是seq2seq 在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如: 英语输⼊:“They”、...
阅读全文
-
textRNN & textCNN的网络结构与代码实现!
摘要:1. 什么是textRNN textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛,如: 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件 情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类。 新闻主...
阅读全文
-
四步理解GloVe!(附代码实现)
摘要:文章目录1. 说说GloVe2. GloVe的实现步骤2.1 构建共现矩阵2.2 词向量和共现矩阵的近似关系2.3 构造损失函数2.4 训练GloVe模型3. GloVe与LSA、Word2Vec的比较4. 代码实现5. 参考文献 1. 说说GloVe 正如GloVe论文的标题而言,**GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局...
阅读全文
-
NLP系列文章:子词嵌入(fastText)的理解!(附代码)
摘要:文章目录1. 什么是fastText2. n-gram表示单词3. fastText模型架构4. fastText核心思想5. 输出分类的效果6. fastText与Word2Vec的不同7. 代码实现8. 参考文献 1. 什么是fastText 英语单词通常有其内部结构和形成⽅式。例如,我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog...
阅读全文
-
自然语言处理(NLP)的一般处理流程!
摘要:文章目录1. 什么是NLP2. NLP主要研究方向3. NLP的发展4. NLP任务的一般步骤5. 我的NLP启蒙读本6. NLP、CV,选哪个? 1. 什么是NLP 自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。**自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。**为了建设和完善语言模型,自然语言处理建立计...
阅读全文
-
神经网络优化算法:Dropout、梯度消失/爆炸、Adam优化算法,一篇就够了!
摘要:1. 训练误差和泛化误差 机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢? 因为存在着训练误差和泛化误差: **训练误差:**模型在训练数据集上表现出的误差。 **泛化误差:**模型在任意⼀个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 训练...
阅读全文
-
强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!
摘要:文章目录1. 什么是强化学习2. 强化学习模型2.1 打折的未来奖励2.2 Q-Learning算法2.3 Deep Q Learning(DQN)2.3.1 神经网络的作用2.3.2 神经网络计算Q值3. 强化学习和监督学习、无监督学习的区别4. 什么是多任务学习5. 参考文献 1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learni...
阅读全文
-
迁移学习(Transfer),面试看这些就够了!(附代码)
摘要:文章目录1. 什么是迁移学习2. 为什么需要迁移学习?3. 迁移学习的基本问题有哪些?4. 迁移学习有哪些常用概念?5. 迁移学习与传统机器学习有什么区别?6. 迁移学习的核心及度量准则?7. 迁移学习与其他概念的区别?8. 什么情况下可以使用迁移学习?9. 什么是finetune?10. 什么是深度网络自适应?11. GAN在迁移学习中的应用12. 代码实现13. 参考文献 1. 什么是迁移学习...
阅读全文
-
白话--长短期记忆(LSTM)的几个步骤,附代码!
摘要:文章目录1. 什么是LSTM2. 输⼊⻔、遗忘⻔和输出⻔3. 候选记忆细胞4. 记忆细胞5. 隐藏状态6. LSTM与GRU的区别7. LSTM可以使用别的激活函数吗?8. 代码实现9. 参考文献 1. 什么是LSTM 在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。我们的思想拥有持久性。LSTM就是...
阅读全文
-
三步理解--门控循环单元(GRU),TensorFlow实现
摘要:文章目录1. 什么是GRU2. ⻔控循环单元2.1 重置门和更新门2.2 候选隐藏状态2.3 隐藏状态3. 代码实现GRU4. 参考文献 1. 什么是GRU 在循环神经⽹络中的梯度计算⽅法中,我们发现,当时间步数较⼤或者时间步较小时,**循环神经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸,但⽆法解决梯度衰减的问题。**通常由于这个原因,循环神经⽹络在实际中较难捕捉时间序列中时间步...
阅读全文
-
通俗易懂--循环神经网络(RNN)的网络结构!(TensorFlow实现)
摘要:文章目录1. 什么是RNN1.1 RNN的应用1.2 为什么有了CNN,还要RNN?1.3 RNN的网络结构1.4 双向RNN1.5 BPTT算法2. 其它类型的RNN3. CNN与RNN的区别4. 为什么RNN 训练的时候Loss波动很大5. 实例代码 1. 什么是RNN 循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序...
阅读全文
-
CNN--卷积神经网络从R-CNN到Faster R-CNN的理解(CIFAR10分类代码)
摘要:文章目录1. 什么是CNN1.1 输入层1.2 卷积计算层(conv)1.3 激励层1.4 池化层1.5 全连接层1.6 层次结构小结1.7 CNN优缺点2. 典型CNN发展历程3. 图像相关任务3.1 图像识别与定位3.1.1 思路1:识别+定位过程3.1.2 思路2:图窗+识别3.2 物体检测(object detection)3.2.1 过程3.2.2 R-CNN3.2.3 SPP-Net3...
阅读全文
-
激活函数、正向传播、反向传播及softmax分类器,一篇就够了!
摘要:文章目录1. 深度学习有哪些应用2. 什么是神经网络2.1 什么是感知器2.2 神经网络的结构2.3 为什么神经网络具有非线性切分能力3. 神经网络的计算过程3.1 计算过程3.2 随机初始化模型参数3.3 激活函数3.3.1 激活函数有哪些3.3.2 优缺点3.3.3 为什么使用激活函数3.3....
阅读全文
-
一看就懂的K近邻算法(KNN),K-D树,并实现手写数字识别!
摘要:文章目录1. 什么是KNN1.1 KNN的通俗解释1.2 近邻的距离度量1.3 K值选择1.4 KNN最近邻分类算法的过程2. KDD的实现:KD树2.1 构建KD树2.2 KD树的插入2.3 KD树的删除2.4 KD树的最近邻搜索算法2.5 kd树近邻搜索算法的改进:BBF算法2.6 KD树的应...
阅读全文
-
我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)
摘要:文章目录1. LDA模型是什么1.1 5个分布的理解1.2 3个基础模型的理解1.3 LDA模型2. 怎么确定LDA的topic个数?3. 如何用主题模型解决推荐系统中的冷启动问题?4. 参考文献5. 代码实现 1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数。 四个分布:二项分布、多项分布、beta分布、Dirichlet分布。 一个概念和一个理念:共轭先验和贝叶...
阅读全文
|