BERT 文本表征的核心特点

这是在讲 BERT 文本表征的核心特点,用大白话拆解:

1. “文本表征” 是啥?

就是把文字(比如 “我喜欢吃苹果” ),变成电脑能懂的 “数字形式”(矩阵或向量 ),方便模型分析语义~

2. BERT 和 word2vec 都能 “转数字”,但有区别:

  • word2vec(静态):
    不管啥语境,一个词就一个固定数字表示。比如 “苹果” ,在 “吃苹果” 和 “苹果手机” 里,数字是一样的,分不清是水果还是品牌。
  • BERT(动态):
    看语境变!“我喜欢吃苹果” 里的 “苹果” ,数字会偏向 “水果” 语义;“苹果和华为哪个好” 里的 “苹果” ,数字会偏向 “品牌” 语义。

3. 总结

BERT 牛在 “看上下文变聪明” ,能根据不同语境,给同一个词不同的数字表示,更贴合真实语言里 “一词多义” 的情况;word2vec 是 “死记硬背” ,一个词就一个固定数字,理解语义没那么灵活~

简单说:BERT 像 “会看语境的翻译官”,word2vec 像 “死记硬背的翻译机”,BERT 更懂人话里的门道 !
posted @ 2025-06-22 14:52  m516606428  阅读(32)  评论(0)    收藏  举报