| | | |

|

文本分析

一、文本数据预处理

语料清洗：

停用词
评论高，但不需要（如评论数据中赞、顶）

二、分词

结巴分词

三、TF-IDF计算

1.关键词提取

词频：

（一般用全部次的个数）

逆文档频率：

（分母+1是为了让其永远不等于0）

2.数值矩阵

四、相似度

句子——分词——语料库（词集）——词频——词频向量

1.余弦相似度

五、情感分析

六、主题分析

。。。。。

发表于 2018-06-12 23:00 许愿瓶666666 阅读(195) 评论(0) 收藏举报

刷新页面返回顶部