摘要: 1.LDA主题模型简介 主题模型的核心思想是——一篇文章中的每个词语都是经历以下两个步骤之后生成而来: 一篇文章以一定概率选择了某个主题, 然后并从这个主题中以一定概率选择某个词语。 如下图所示: 比如某一篇文档 d,它的主题分布如右方红色柱状图所示。这篇文档最有可能是一篇体育,新闻类型的文档。 : 阅读全文
posted @ 2020-06-27 21:38 雨后观山色 阅读(5204) 评论(0) 推荐(0)
摘要: 1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 阅读全文
posted @ 2020-06-27 18:45 雨后观山色 阅读(4291) 评论(2) 推荐(1)