NLP知识 - 随笔分类(第2页) - 耀扬

tensorflow里的stop_if_no_decrease_hook坑

摘要：early_stopping_hook = tf.contrib.estimator.stop_if_no_decrease_hook(AttributeError: module 'tensorflow.contrib.estimator' has no attribute 'stop_if_no 阅读全文

posted @ 2019-12-29 15:22 耀扬阅读(4619) 评论(0) 推荐(0)

train set、dev set和test set的三者联系与区别

摘要：转发：https://blog.csdn.net/aron_conli/article/details/97953826 train set：该集合是用于训练模型的。 dev set：该集合是用于在训练模型中评估模型，以促进模型优化的。 test set：该集合是用于测试训练好的模型是否有效的。简阅读全文

posted @ 2019-12-25 13:56 耀扬阅读(3466) 评论(0) 推荐(2)

自回归（auto-regression）机制

摘要：在每个新单词产生后，该单词就被添加在之前生成的单词序列后面，这个序列会成为模型下一步的新输入。这种机制叫做自回归（auto-regression），同时也是令 RNN 模型效果拔群的重要思想。 GPT-2，以及一些诸如 TransformerXL 和 XLNet 等后续出现的模型，本质上都是自回归模阅读全文

posted @ 2019-11-10 22:39 耀扬阅读(3626) 评论(0) 推荐(1)

一句话理解nlp

摘要：词向量？词向量指的是一组用来表示单词的低纬稠密向量，这里的低纬稠密是和onehot的高维稀疏对应的。词向量是指用一组数值来表示一个汉字或者词语，这也是因为计算机只能进行数值计算。最简单的方法是one-hot，假如总的有一万个词，那词向量就一万维，词对应的那维为1，其他为0，但这样的表示维度太高也阅读全文

posted @ 2019-10-20 18:24 耀扬阅读(796) 评论(0) 推荐(0)

安装fastnlp

摘要：直接 pip install fastnlp 如果出现 torch的安装报错，可能与操作系统及 CUDA 的版本相关。直接上pytorch 的官网 https://pytorch.org/get-started/locally/ 用下面的那段文字，pip 或 pip3 最后再粗暴的直接 pip in 阅读全文

posted @ 2019-10-13 18:10 耀扬阅读(1378) 评论(0) 推荐(0)

N-gram理解

摘要：如何来理解这个概率呢？ p（ i love you）如果是 =p（i）p（love）p（you）就是只考虑单词出现的概率本身。如果是 =p（i）p（love|i）p（you|love）就是 1-gram，就是参考前一个词出现的概率如果是 =p（i）p（love|i）p（you|i love 阅读全文

posted @ 2019-10-01 22:58 耀扬阅读(470) 评论(0) 推荐(0)

全网独发gensim中similarities.Similarity用法

摘要：index = similarities.MatrixSimilarity(lsi[corpus]) # 管网的原文翻译如下：警告：similarities.MatrixSimilarity类仅仅适合能将所有的向量都在内存中的情况。例如，如果一个百万文档级的语料库使用该类，可能需要2G内存与256 阅读全文

posted @ 2019-08-11 23:00 耀扬阅读(7471) 评论(0) 推荐(0)

耀扬

随笔分类 - NLP知识