一、文本数据预处理
语料清洗:
二、分词
结巴分词
三、TF-IDF计算
1.关键词提取
词频:
(一般用全部次的个数)
逆文档频率:
(分母+1是为了让其永远不等于0)
2.数值矩阵
四、相似度
句子——分词——语料库(词集)——词频——词频向量
1.余弦相似度
五、情感分析
六、主题分析
。。。。。