jieba分词

import jieba
from collections import Counter

自定义合并规则（根据聊斋内容，可补充更多人物别称映射）

merge_map = {
# 假设聊斋中有类似 “宁采臣” 和 “宁公子” 是同一人物，可自行扩展
"宁公子": "宁采臣",
"小倩": "聂小倩"
# 可继续添加其他人物不同说法的映射
}

with open("liao_zhai.txt", "r", encoding="utf-8") as f:
text = f.read()

words = jieba.lcut(text)

merged_words = []
for word in words:
# 检查是否在合并映射中，若在则替换，否则保留原词
merged_words.append(merge_map.get(word, word))

word_count = Counter(merged_words)
top_20 = word_count.most_common(20)

for word, count in top_20:
print(f"{word}: {count}")

posted @ 2025-06-21 19:00 何定霓阅读(20) 评论(0) 收藏举报

刷新页面返回顶部