摘要: 中文停用词,可以参考这个下载来创建适合自己的停用词 阅读全文
posted @ 2019-10-24 14:31 熊猫blue 阅读(2623) 评论(0) 推荐(1)
摘要: jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) 具体参考PYPI 注:1.txt 得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃 阅读全文
posted @ 2019-10-24 14:08 熊猫blue 阅读(2170) 评论(0) 推荐(0)