随笔分类 - 机器学习
摘要:2020-04-21 22:32:57 问题描述:L1正则化使得模型参数具有稀疏性的原理是什么。 问题求解: 稀疏矩阵指有很多元素为0,少数参数为非零值。一般而言,只有少部分特征对模型有贡献,大部分特征对模型没有贡献或者贡献很小,稀疏参数的引入,使得一些特征对应的参数是0,所以就可以剔除可以将那些没
阅读全文
摘要:2020-04-21 21:52:11 问题描述:为什么需要对数值类型的特征做归一化。 问题求解: 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。 举例来说,比如分析一个人的身高,体重对健康的影响,一个人的身高范围在1m~2m之间,一个人的体重范围在50k
阅读全文
摘要:2019-10-24 20:18:43 问题描述:Soft Attention和Hard Attention的区别是什么。 问题求解: Soft Attention是通常使用的Attention机制,其选择的信息是所有输入信息在注意力分布下的期望。 Hard Attention是只关注到某一个位置上
阅读全文
摘要:2019-10-24 20:16:59
阅读全文
摘要:2019-10-24 20:13:07 一、自回归语言模型 Autoregressive LM 在ELMO/BERT出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的LM被称为自回归语言模
阅读全文
摘要:checkpoint 文件夹 Tensorflow训练后的模型可以保存checkpoint文件,checkpoint文件是结构与权重分离的四个文件,便于训练。 1)checkpoint 文件 保存断点文件列表,可以用来迅速查找最近一次的断点文件; model_checkpoint_path: "mo
阅读全文
摘要:2019-10-20 11:45:54 数据侧 1、在数据集很大的情况下,不要立马跑全量数据。可以现在小数据集上进行测试,估算一下运行时间。 2、数据shuffle和augmentation,训练之前需要将数据集进行随机化处理;数据增强往往可以增加模型的鲁棒性,可以尝试一下。 3、数据的清洗过滤非常
阅读全文
摘要:2019-10-19 21:46:18 问题描述:谈谈对RoBERTa的理解。 问题求解: 在XLNet全面超越Bert后没多久,Facebook提出了RoBERTa(a Robustly Optimized BERT Pretraining Approach)。再度在多个任务上达到SOTA。那么它
阅读全文
摘要:2019-10-09 19:55:26 问题描述:谈谈对Bert的理解。 问题求解: 2018年深度学习在NLP领域取得了比较大的突破,最大的新闻当属Google的BERT模型横扫各大比赛的排行榜。 NLP领域到目前为止有三次重大的突破:Word Embedding、Self-Attention机制
阅读全文
摘要:2019-10-09 19:54:42 问题描述:谈谈对Transformer的理解。 问题求解: Transformer 整体架构 Transformer 是典型的Seq2Seq架构的模型,其核心的骨架依然是encoder-decoder两个模块,和传统的S2S问题不同的地方在于Transform
阅读全文
摘要:2019-09-29 15:38:26 问题描述:请解释一下NER任务中CRF层的作用。 问题求解: 在做NER任务的时候,神经网络学习到了文本间的信息,而CRF学习到了Tag间的信息。 加入CRF与否网络的差别 首先对于不加CRF层的NER网络,往往每个输出的Tag是贪心的进行选取到的,如下图所示
阅读全文
摘要:2019-09-14 17:06:27 .gitignore 文件 .gitignore 文件可以手动忽略一些不想被 git track 的文件。 # Python *.py[cod] *.so *.egg *.egg-info dist build # Pycharm IDE .idea/* .g
阅读全文
摘要:2019-09-10 19:46:07 问题描述:Seq2Seq模型引入注意力机制是为了解决什么问题?为什么选择使用双向循环神经网络模型? 问题求解: 在实际任务中使用Seq2Seq模型,通常会先使用一个循环神经网络作为编码器,将输入序列编码成一个向量表示;然后再使用一个循环神经网络模型作为解码器,
阅读全文
摘要:2019-09-10 22:17:21 问题描述:精确率和召回率的权衡。 问题求解: 要回答这个问题首先要明确这两个概念,精确率是分类正确的正样本 / 判定为正样本的总数;召回率是分类正确的正样本 / 真正正样本的总数。 Presion 和 Recall 是既矛盾又统一的两个指标,为了提高Presi
阅读全文
摘要:2019-09-10 19:29:26 问题描述:什么是Seq2Seq模型?Seq2Seq模型在解码时有哪些常用办法? 问题求解: Seq2Seq模型是将一个序列信号,通过编码解码生成一个新的序列信号,通常用于机器翻译、语音识别、自动对话等任务。在Seq2Seq模型提出之前,深度学习网络在图像分类等
阅读全文
摘要:2019-09-09 15:36:13 问题描述:word2vec 和 glove 这两个生成 word embedding 的算法有什么区别。 问题求解: GloVe (global vectors for word representation) 与word2vec,两个模型都可以根据词汇的 "
阅读全文
摘要:2019-09-07 22:36:21 问题描述:word2vec是如何工作的? 问题求解: 谷歌在2013年提出的word2vec是目前最常用的词嵌入模型之一。word2vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是cbow和skip gram。 cbow的目标是根据上下文来预测中心
阅读全文
摘要:2019-09-07 22:01:45 问题描述:LSTM是如何实现长短期记忆功能的? 问题求解: 与传统的循环神经网络相比,LSTM仍然是基于当前输入和之前的隐状态来计算当前的隐状态,只不过对内部的结构进行了精心的设计,加入了更新门,遗忘门和输出门这三个门和一个内部记忆单元。 在一个训练好的网络中
阅读全文

浙公网安备 33010602011771号