摘要:
中文停用词,可以参考这个下载来创建适合自己的停用词 阅读全文
posted @ 2019-10-24 14:31
熊猫blue
阅读(2623)
评论(0)
推荐(1)
摘要:
jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) 具体参考PYPI 注:1.txt 得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃 阅读全文
posted @ 2019-10-24 14:08
熊猫blue
阅读(2170)
评论(0)
推荐(0)

浙公网安备 33010602011771号