python的jieba

jieba 是一个广泛使用的 Python 中文分词库,主要用于将中文文本切分成独立的词语。

https://github.com/fxsjy/jieba

安装

pip install jieba

使用

(1)分词

import jieba
# 分词
text = "我爱自然语言处理"
words = jieba.cut(text, cut_all=False)  # 精确模式
print("分词结果:", "/ ".join(words))

分词结果: 我/ 爱/ 自然语言/ 处理

(2)词性标注

import jieba.posseg as pseg
text = "我爱自然语言处理"
# 词性标注
words = pseg.cut(text)
for word, flag in words:
    print(f"{word} - {flag}")

我 - r
爱 - v
自然语言 - l
处理 - v

(3)关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse
# 关键词提取
text = "我爱自然语言处理"
keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True, allowPOS=('l', 'v'))
print("关键词:", keywords)

关键词: [('自然语言', 5.2174708746), ('处理', 2.70542782868)]

关键词: ['自然语言', '处理']

基于 TF-IDF 算法的关键词抽取

import jieba.analyse
# 关键词提取
text = "我爱自然语言处理"
keywords = jieba.analyse.textrank(text, topK=3, withWeight=True, allowPOS=('l', 'v'))
print("关键词:", keywords)

关键词: [('自然语言', 1.0), ('处理', 0.9961264494011037)]

 

posted @ 2025-03-14 15:37  慕尘  阅读(212)  评论(0)    收藏  举报