初识结巴分词

结巴分词

结巴（jieba）是目前中文 NLP 中最常用的分词库：

jieba 的分词主要有 3 种模式：

尽量切分出最准确的词，不会过度切分。

import jieba

text = "我在大学学习人工智能"
print(jieba.lcut(text))

输出：

['我', '在', '大学', '学习', '人工智能']

特征：

适合文本分析

不会输出冗余词

项目最常用模式

扫描所有字典中出现的词，会输出所有可能的词。

jieba.lcut(text, cut_all=True)

输出（示例）：

['我', '在',  '大学', '学习', '人工智能', '人工', '智能']

特征：

不推荐统计时使用，会重复

一般用于搜索引擎建立倒排索引

在精确模式基础上，再切出更细的词，提高召回能力。

jieba.lcut_for_search(text)


输出：

['我', '在',, '大学', '学习', '人工智能', '人工', '智能']

特征：

用于搜索引擎匹配

比精确模式更 “细”

posted @ 2025-11-05 08:25 元始天尊123 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部