中文分词器，整理自Ai

1. Jieba（结巴）分词

pip install jieba
import jieba

# 使用默认模式进行分词
seg_list = jieba.cut("我爱自然语言处理", cut_all=True)
print(" ".join(seg_list))

2. SnowNLP

pip install snownlp
from snownlp import SnowNLP

s = SnowNLP("我爱自然语言处理")
print(' '.join(s.words))

3. PkuSeg

pip install pkuseg
import pkuseg

pku_seg = pkuseg.pkuseg()
print(' '.join(pku_seg.cut("我爱自然语言处理")))

4. THULAC
由于THULAC需要下载模型文件，因此安装步骤稍微复杂一些：
- 首先通过pip安装THULAC 包：
pip install thulac
- 然后下载模型文件，通常可以从[THULAC GitHub页面](https://github.com/thunlp/THULAC-)找到下载链接或说明。
- 加载模型并使用：
import thulac

thu_lac = thulac.thulac(seg_only=True)

print(thu_lac.cut("我爱自然语言处理", text=True))

5. HanLP

pip install pyhanlp
from pyhanlp import HanLP

seg_list = HanLP.segment("我爱自然语言处理")
print(' '.join([term.word for term in seg_list]))

请注意，某些分词器可能需要额外的步骤来下载和加载模型文件，具体步骤请参考各个分词器的官方文档或GitHub页面上的说明。

上述代码示例提供了基本的分词功能调用方式，您可以根据自己的需求调整分词模式或其他参数。

posted @ 2024-08-01 12:41 Augustone 阅读(119) 评论(0) 收藏举报

刷新页面返回顶部

中文分词器，整理自Ai

公告