08 2019 档案

摘要:在NLP领域,词向量是一个非常基础的知识点,计算机是不能识别文字,所以要让计算机记住文字只能通过数字的形式,在最初所采用的是one-hot(独热)编码,简单回顾一下这种编码方式 例如:我很讨厌下雨 分词之后:我 很 讨厌 下雨 可知词表大小为4,采用one-hot编码方式则为 我:[1,0,0,0] 阅读全文
posted @ 2019-08-28 12:47 叮当睡宝 阅读(6260) 评论(3) 推荐(3)
摘要:在学习NLP过程当中,语言模型使我们都要学习的一部分知识。常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。 在使用kenlm的过程中也是遇到了许多问题。 环境的搭建: 参照博客:https://www.cnblogs.com/jasmine-Jobs/p/7 阅读全文
posted @ 2019-08-26 13:31 叮当睡宝 阅读(1345) 评论(3) 推荐(0)