python的jieba

jieba 是一个广泛使用的 Python 中文分词库，主要用于将中文文本切分成独立的词语。

安装

pip install jieba

使用

（1）分词

import jieba
# 分词
text = "我爱自然语言处理"
words = jieba.cut(text, cut_all=False)  # 精确模式
print("分词结果：", "/ ".join(words))

分词结果：我/ 爱/ 自然语言/ 处理

（2）词性标注

import jieba.posseg as pseg
text = "我爱自然语言处理"
# 词性标注
words = pseg.cut(text)
for word, flag in words:
    print(f"{word} - {flag}")

我 - r
爱 - v
自然语言 - l
处理 - v

（3）关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse
# 关键词提取
text = "我爱自然语言处理"
keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True, allowPOS=('l', 'v'))
print("关键词：", keywords)

关键词： [('自然语言', 5.2174708746), ('处理', 2.70542782868)]

关键词： ['自然语言', '处理']

基于 TF-IDF 算法的关键词抽取

import jieba.analyse
# 关键词提取
text = "我爱自然语言处理"
keywords = jieba.analyse.textrank(text, topK=3, withWeight=True, allowPOS=('l', 'v'))
print("关键词：", keywords)

关键词： [('自然语言', 1.0), ('处理', 0.9961264494011037)]

posted @ 2025-03-14 15:37 慕尘阅读(239) 评论(0) 收藏举报

刷新页面返回顶部

逆水行舟，不进则退

路漫漫其修远兮，吾将上下而求索

python的jieba

公告