摘要: 一、文本数据预处理 语料清洗: 停用词 评论高,但不需要(如评论数据中赞、顶) 二、分词 结巴分词 三、TF-IDF计算 1.关键词提取 词频: (一般用全部次的个数) 逆文档频率: (分母+1是为了让其永远不等于0) 2.数值矩阵 四、相似度 句子——分词——语料库(词集)——词频——词频向量 1 阅读全文