2. 拆分词与词向量

一、分词重要性

是NLP，所有后续操作的基础

二、现代化灵活的分词策略

元婴期：Jieba分词

特点1：基于大量预置的规则和 针对性词典
特点2：在1基础上。找出所以词组成有方向但没环路的图。且组成这个图的概率最大的结果。

概率公式P = 累乘（各词的词频率/ 词典所有词的词频）
计算概率优化 = 概率过低接近0 转成log对数相加的值做比较
生僻词处理 = 自定义词典【解决OOV Out of Vocabulary 未收录词典的情况】

自定义词典。且没指定词频能被强制划分在一起的原理

对自定义词的各个词概率计算合计。将自定义组成的词典概率只要略高于各个词的对数概率合计。达到“强制” 分在一起的效果【妙啊】

初窥门径：JieBa + 统计学【HMM隐马尔可夫模型】

外加：词性【名、动、介、副词等】 + 手工强制指定词频实现按人想要的效果分词

升仙：丢弃分词，转型分块

基础模拟Jieba练习题：

# 修改词频，改小后
九 100 n
头 100 n
奔波儿灞 nr
# 结果：九头连载一起。且词性变成m。变成数词
加载词性词典后: [pair('九头', 'm'), pair('虫', 'n'), pair('让', 'v'), pair('奔波儿灞', 'nr'), pair('把', 'p'), pair('唐僧', 'nr'), pair('师徒', 'n'), pair('除掉', 'v')]


#练习2

text2 = "今年马年，我包的饺子。饺子馅是韭菜鸡蛋的。那味道包好吃的"
res = pseg.lcut(text2,HMM=False)
print(f"加载词性词典后: {res}")
#结果
加载词性词典后: [pair('今年', 't'), pair('马年', 'n'), pair('，', 'x'), pair('我', 'r'), pair('包', 'v'), pair('的', 'uj'), pair('饺子', 'n'), pair('。', 'x'), pair('饺子馅', 'n'), pair('是', 'v'), pair('韭菜', 'n'), pair('鸡蛋', 'n'), pair('的', 'uj'), pair('。', 'x'), pair('那', 'r'), pair('味道', 'n'), pair('包', 'v'), pair('好吃', 'v'), pair('的', 'uj')]

posted @ 2026-02-13 01:19 HeliusZhu 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

Helius' Blog

2. 拆分词与词向量

一、分词重要性

二、现代化灵活的分词策略

基础模拟Jieba练习题：

公告