随笔分类 -  NLP知识

tensorflow里的stop_if_no_decrease_hook坑
摘要:early_stopping_hook = tf.contrib.estimator.stop_if_no_decrease_hook(AttributeError: module 'tensorflow.contrib.estimator' has no attribute 'stop_if_no 阅读全文

posted @ 2019-12-29 15:22 耀扬 阅读(4619) 评论(0) 推荐(0)

train set、dev set和test set的三者联系与区别
摘要:转发:https://blog.csdn.net/aron_conli/article/details/97953826 train set:该集合是用于训练模型的。 dev set:该集合是用于在训练模型中评估模型,以促进模型优化的。 test set:该集合是用于测试训练好的模型是否有效的。 简 阅读全文

posted @ 2019-12-25 13:56 耀扬 阅读(3466) 评论(0) 推荐(2)

自回归(auto-regression)机制
摘要:在每个新单词产生后,该单词就被添加在之前生成的单词序列后面,这个序列会成为模型下一步的新输入。这种机制叫做自回归(auto-regression),同时也是令 RNN 模型效果拔群的重要思想。 GPT-2,以及一些诸如 TransformerXL 和 XLNet 等后续出现的模型,本质上都是自回归模 阅读全文

posted @ 2019-11-10 22:39 耀扬 阅读(3626) 评论(0) 推荐(1)

一句话理解nlp
摘要:词向量? 词向量指的是一组用来表示单词的低纬稠密向量,这里的低纬稠密是和onehot的高维稀疏对应的。 词向量是指用一组数值来表示一个汉字或者词语,这也是因为计算机只能进行数值计算。最简单的方法是one-hot,假如总的有一万个词,那词向量就一万维,词对应的那维为1,其他为0,但这样的表示维度太高也 阅读全文

posted @ 2019-10-20 18:24 耀扬 阅读(796) 评论(0) 推荐(0)

安装fastnlp
摘要:直接 pip install fastnlp 如果出现 torch的安装报错,可能与操作系统及 CUDA 的版本相关。直接上pytorch 的官网 https://pytorch.org/get-started/locally/ 用下面的那段文字,pip 或 pip3 最后再粗暴的直接 pip in 阅读全文

posted @ 2019-10-13 18:10 耀扬 阅读(1378) 评论(0) 推荐(0)

N-gram理解
摘要:如何来理解这个概率呢? p( i love you) 如果是 =p(i)p(love)p(you) 就是只考虑单词出现的概率本身。 如果是 =p(i)p(love|i)p(you|love) 就是 1-gram,就是参考前一个词出现的概率 如果是 =p(i)p(love|i)p(you|i love 阅读全文

posted @ 2019-10-01 22:58 耀扬 阅读(470) 评论(0) 推荐(0)

全网独发gensim中similarities.Similarity用法
摘要:index = similarities.MatrixSimilarity(lsi[corpus]) # 管网的原文翻译如下: 警告:similarities.MatrixSimilarity类仅仅适合能将所有的向量都在内存中的情况。例如,如果一个百万文档级的语料库使用该类,可能需要2G内存与256 阅读全文

posted @ 2019-08-11 23:00 耀扬 阅读(7471) 评论(0) 推荐(0)

导航