2021 年 5月 18 日随笔档案 - weihy

2021年5月18日

摘要： 1.数据准备数据集来源于weibo100k,由于我比较懒，所以暂时不贴github地址了。之后开始对文本进行处理，大体思路为，依次读取weibo100k数据集的每一行，然后进行分词处理，最终统计整个文本数据集中每个词语出现的数量，然后取前topn个出现次数最高的词作为我们的字典。注:在统计过程中我阅读全文

posted @ 2021-05-18 15:39 weihy 阅读(1362) 评论(0) 推荐(1)

weihy

公告