摘要:
1.One-hot表示方法的缺点 向量的大小与词典的长度相等 主要缺点:<1>不能表示语义相似度 <2>向量很稀疏 2.分布式表示(Distributed Representation) 词向量 输入足够多的数据(10^10的单词) 词向量代表单词的意思。word2vec,某种意义上可以理解成词的意 阅读全文
posted @ 2020-04-23 15:44
雨后观山色
阅读(700)
评论(0)
推荐(0)
摘要:
1.文本处理的一般流程 上图中: 清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(!感叹号、省略号等)、停用词、大写转小写 标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态) 本篇博客主要包括:分词(word segmenta 阅读全文
posted @ 2020-04-23 14:47
雨后观山色
阅读(2136)
评论(0)
推荐(0)
摘要:
由于python环境是使用Anaconda安装,那就已经安装了ipython notebook 打开后将在浏览器窗口上启动notebook,我们只需要把需要打开的代码添加进来就好了。 打开之后的效果: 阅读全文
posted @ 2020-04-23 08:43
雨后观山色
阅读(1038)
评论(0)
推荐(0)

浙公网安备 33010602011771号