2. 拆分词与词向量

一、分词重要性

  • 是NLP,所有后续操作的 基础

二、现代化灵活的分词策略

  • 元婴期:Jieba分词

特点1:基于大量预置的 规则针对性词典
特点2:在1基础上。找出所以词组成 有方向但没环路的 图。且组成这个图的概率最大的结果。

  1. 概率公式P = 累乘(各词的词频率/ 词典所有词的词频)
  2. 计算概率优化 = 概率过低接近0 转成log对数相加的值做比较
  3. 生僻词处理 = 自定义词典【解决OOV Out of Vocabulary 未收录词典的情况】

  • 自定义词典。且没指定词频能被强制划分在一起的原理

对自定义词的各个词概率计算合计。将自定义组成的词典概率 只要 略高于 各个词的对数概率合计。 达到“强制” 分在一起的效果【妙啊】


  • 初窥门径:JieBa + 统计学【HMM隐马尔可夫模型】

外加: 词性【名、动、介、副词等】 + 手工强制指定词频 实现 按 人想要的效果分词


  • 升仙: 丢弃分词 ,转型分块

基础模拟Jieba练习题:

# 修改词频,改小后
九 100 n
头 100 n
奔波儿灞 nr
# 结果:九头连载一起。且词性变成m。变成数词
加载词性词典后: [pair('九头', 'm'), pair('虫', 'n'), pair('让', 'v'), pair('奔波儿灞', 'nr'), pair('把', 'p'), pair('唐僧', 'nr'), pair('师徒', 'n'), pair('除掉', 'v')]


#练习2

text2 = "今年马年,我包的饺子。饺子馅是韭菜鸡蛋的。那味道包好吃的"
res = pseg.lcut(text2,HMM=False)
print(f"加载词性词典后: {res}")
#结果
加载词性词典后: [pair('今年', 't'), pair('马年', 'n'), pair(',', 'x'), pair('我', 'r'), pair('包', 'v'), pair('的', 'uj'), pair('饺子', 'n'), pair('。', 'x'), pair('饺子馅', 'n'), pair('是', 'v'), pair('韭菜', 'n'), pair('鸡蛋', 'n'), pair('的', 'uj'), pair('。', 'x'), pair('那', 'r'), pair('味道', 'n'), pair('包', 'v'), pair('好吃', 'v'), pair('的', 'uj')]
posted @ 2026-02-13 01:19  HeliusZhu  阅读(4)  评论(0)    收藏  举报