摘要:
目录一、直接结论(精确定义)二、训练过程里 A、B 是如何“逐步变得有意义”的?1️⃣ 训练起点(step = 0)2️⃣ 初期训练(只学 B)3️⃣ 中后期训练(A、B 协同)三、为什么说这是“样本数据驱动”的?四、训练完成后,A、B 到底“存的是什么信息”?(不是记忆样本)五、和业务系统再对一次 阅读全文
posted @ 2025-12-29 17:31
向着朝阳
阅读(49)
评论(0)
推荐(0)
摘要:
目录一、先给结论(精确定义)二、参数量统计的构成拆解1. Embedding 层(词表 × 隐藏维度)2. Attention 层(真正的大头之一)3. FFN(Feed Forward Network,最大头)4. Bias、LayerNorm 等三、所以“点积”这个说法哪里容易误解?❌ 不准确的 阅读全文
posted @ 2025-12-29 16:42
向着朝阳
阅读(39)
评论(0)
推荐(0)

浙公网安备 33010602011771号