字太多、依赖链太长,要统计的情况指数级增长

为啥 “以字为单位时组合会爆炸”,大白话讲核心是 “字太多、依赖链太长,要统计的情况指数级增长” ,分两步说:

1. 以字为单位:每个字都要 “看前面所有字”

比如句子 “今天天气不错”,以字为单位时:

  • 第 1 个字 “今”:只算自己出现的概率(P (今) )。
  • 第 2 个字 “天”:得算 “天” 在 “今” 后面的概率(P (天 | 今) )。
  • 第 3 个字 “天”:得算 “天” 在 “今天” 后面的概率(P (天 | 今天) )。
  • 第 4 个字 “气”:得算 “气” 在 “今天天” 后面的概率(P (气 | 今天天) )。
  • …… 每多一个字,就得看 “前面所有字” 的组合,统计量疯狂涨!

2. 以词为单位:“词” 比 “字” 少,依赖链短

还是 “今天天气不错”,以词为单位时:

  • 第 1 个词 “今天”:算 “今天” 出现的概率(P (今天) )。
  • 第 2 个词 “天气”:算 “天气” 在 “今天” 后面的概率(P (天气 | 今天) )。
  • 第 3 个词 “不错”:算 “不错” 在 “今天 天气” 后面的概率(P (不错 | 今天 天气) )。

词的数量比字少,而且 “词” 本身是有意义的组合 ,所以要统计的 “前后依赖” 情况少很多!

举个极端例子(感受组合爆炸)

假设一句话有 10 个字,以字为单位时,第 10 个字得看前面 9 个字的组合;但以词为单位时,可能就拆成 3 - 5 个词,每个词只看前面 1 - 2 个词的组合。

总结:以字为单位时,因为 “字多、依赖链长”,要统计的 “前面所有字的组合” 会指数级增长,电脑根本存不下、算不动,所以组合爆炸;而以词为单位,组合数会少很多,更 practical(实用)~
posted @ 2025-06-22 09:35  m516606428  阅读(10)  评论(0)    收藏  举报