中文分词器,整理自Ai

1. Jieba(结巴)分词


pip install jieba
import jieba

# 使用默认模式进行分词
seg_list = jieba.cut("我爱自然语言处理", cut_all=True)
print(" ".join(seg_list))

 

2. SnowNLP

pip install snownlp
from snownlp import SnowNLP

s = SnowNLP("我爱自然语言处理")
print(' '.join(s.words))

 

3. PkuSeg

pip install pkuseg
import pkuseg

pku_seg = pkuseg.pkuseg()
print(' '.join(pku_seg.cut("我爱自然语言处理")))

 

4. THULAC
由于THULAC需要下载模型文件,因此安装步骤稍微复杂一些:
- 首先通过pip安装THULAC 包:
pip install thulac
- 然后下载模型文件,通常可以从[THULAC GitHub页面](https://github.com/thunlp/THULAC-)找到下载链接或说明。
- 加载模型并使用:
import thulac

thu_lac = thulac.thulac(seg_only=True)

print(thu_lac.cut("我爱自然语言处理", text=True))

 

5. HanLP

pip install pyhanlp
from pyhanlp import HanLP

seg_list = HanLP.segment("我爱自然语言处理")
print(' '.join([term.word for term in seg_list]))

 

请注意,某些分词器可能需要额外的步骤来下载和加载模型文件,具体步骤请参考各个分词器的官方文档或GitHub页面上的说明。

上述代码示例提供了基本的分词功能调用方式,您可以根据自己的需求调整分词模式或其他参数。

posted @ 2024-08-01 12:41  Augustone  阅读(105)  评论(0)    收藏  举报