分词————jieba分词(Python)
摘要:要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充: 一、分词 1 import jieba 2 st
阅读全文
NLP中几种分词库的简单使用(Python)
摘要:几种分词方法的简单使用: 一 . jieba 安装、示例 pip install jieba,jieba分词的语料是基于人民日报。 分词示例 1 import jieba 2 3 str1 ='江州市长江大桥' 4 word_object = jieba.cut(str1) # 生成一个生成器对象
阅读全文