摘要:
1.LDA主题模型简介 主题模型的核心思想是——一篇文章中的每个词语都是经历以下两个步骤之后生成而来: 一篇文章以一定概率选择了某个主题, 然后并从这个主题中以一定概率选择某个词语。 如下图所示: 比如某一篇文档 d,它的主题分布如右方红色柱状图所示。这篇文档最有可能是一篇体育,新闻类型的文档。 : 阅读全文
posted @ 2020-06-27 21:38
雨后观山色
阅读(5204)
评论(0)
推荐(0)
摘要:
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 阅读全文
posted @ 2020-06-27 18:45
雨后观山色
阅读(4291)
评论(2)
推荐(1)

浙公网安备 33010602011771号