一、文本数据预处理

 语料清洗:

  • 停用词
  • 评论高,但不需要(如评论数据中赞、顶)

 

二、分词

 结巴分词

三、TF-IDF计算

 1.关键词提取

词频:

    (一般用全部次的个数)

逆文档频率:

  (分母+1是为了让其永远不等于0)

 2.数值矩阵

四、相似度

句子——分词——语料库(词集)——词频——词频向量

1.余弦相似度

五、情感分析

 

六、主题分析

 

。。。。。