2018 年 6月 12 日随笔档案 - 许愿瓶666666

摘要：一、文本数据预处理语料清洗：停用词评论高，但不需要（如评论数据中赞、顶）二、分词结巴分词三、TF-IDF计算 1.关键词提取词频：（一般用全部次的个数）逆文档频率：（分母+1是为了让其永远不等于0） 2.数值矩阵四、相似度句子——分词——语料库（词集）——词频——词频向量 1 阅读全文

posted @ 2018-06-12 23:00 许愿瓶666666 阅读(190) 评论(0) 推荐(0)

2018年6月12日