初识结巴分词

结巴分词

简介

结巴(jieba)是目前中文 NLP 中最常用的分词库:

  • 使用简单

  • 支持三种分词模式

  • 能识别词频、隐马模型

  • 支持自定义词典

  • 支持关键词抽取

  • 支持词性标注

结巴分词的三大核心模式

jieba 的分词主要有 3 种模式:

精确模式

尽量切分出最准确的词,不会过度切分。

import jieba

text = "我在大学学习人工智能"
print(jieba.lcut(text))

输出:

['我', '在', '大学', '学习', '人工智能']

特征:

适合文本分析

不会输出冗余词

项目最常用模式

全模式

扫描所有字典中出现的词,会输出所有可能的词。

jieba.lcut(text, cut_all=True)

输出(示例):

['我', '在',  '大学', '学习', '人工智能', '人工', '智能']

特征:

不推荐统计时使用,会重复

一般用于搜索引擎建立倒排索引

索引擎模式

在精确模式基础上,再切出更细的词,提高召回能力。

jieba.lcut_for_search(text)


输出:

['我', '在',, '大学', '学习', '人工智能', '人工', '智能']

特征:

用于搜索引擎匹配

比精确模式更 “细”

posted @ 2025-11-05 08:25  元始天尊123  阅读(7)  评论(0)    收藏  举报