这页讲神经网络语言模型(NLM)比 Ngram 强在哪,大白话对比 “NLM 咋碾压 Ngram”:
- Ngram :靠 “统计词的出现频率” 判断语义(比如 “苹果” 常和 “手机” 连,就认为它们有关 ),但不懂真正的意思。
- NLM :把词变成 “语义向量”(比如 “苹果” 和 “水果” 的向量更像 ),能真・理解语义,遇到没见过的组合也能猜(泛化性好 )。
- Ngram :句子一长,要统计的组合爆炸,抓不住 “前面第 1 个字和后面第 10 个字” 的关系(长距离依赖难搞 )。
- NLM :不管句子多长,模型大小不变,能记住 “很远的词” 的影响(比如 RNN、Transformer 擅长抓长距离关系 )。
- Ngram :遇到没见过的词 / 组合,得手动搞 “平滑”(比如加 1 平滑 ),否则概率为 0 ,很僵硬。
- NLM :用 Softmax 算概率时,自动给所有可能的词分配概率(哪怕没见过,也给极小值 ),不用手动操心平滑。
- Ngram :基本只能做 “概率预测”(比如判断句子是否合理 ),想做翻译、问答,得重新折腾。
- NLM :能当 “预训练底座”(比如 BERT、GPT ),微调一下就能适配翻译、问答、摘要等任务,灵活方便。
总结:NLM 比 Ngram 更像 “聪明大脑”—— 懂语义、记长距离、自动平滑、适配性强,全方位碾压传统统计模型!