摘要: 1.数据准备 数据集来源于weibo100k,由于我比较懒,所以暂时不贴github地址了。之后开始对文本进行处理,大体思路为,依次读取weibo100k数据集的每一行,然后进行分词处理,最终统计整个文本数据集中每个词语出现的数量,然后取前topn个出现次数最高的词作为我们的字典。注:在统计过程中我 阅读全文
posted @ 2021-05-18 15:39 weihy 阅读(1015) 评论(0) 推荐(1) 编辑