初识结巴分词
结巴分词
简介
结巴(jieba)是目前中文 NLP 中最常用的分词库:
-
使用简单
-
支持三种分词模式
-
能识别词频、隐马模型
-
支持自定义词典
-
支持关键词抽取
-
支持词性标注
结巴分词的三大核心模式
jieba 的分词主要有 3 种模式:
精确模式
尽量切分出最准确的词,不会过度切分。
import jieba
text = "我在大学学习人工智能"
print(jieba.lcut(text))
输出:
['我', '在', '大学', '学习', '人工智能']
特征:
适合文本分析
不会输出冗余词
项目最常用模式
全模式
扫描所有字典中出现的词,会输出所有可能的词。
jieba.lcut(text, cut_all=True)
输出(示例):
['我', '在', '大学', '学习', '人工智能', '人工', '智能']
特征:
不推荐统计时使用,会重复
一般用于搜索引擎建立倒排索引
索引擎模式
在精确模式基础上,再切出更细的词,提高召回能力。
jieba.lcut_for_search(text)
输出:
['我', '在',, '大学', '学习', '人工智能', '人工', '智能']
特征:
用于搜索引擎匹配
比精确模式更 “细”

浙公网安备 33010602011771号