随笔分类 - Transformer
摘要:目录1. 核心作用(1) 引入非线性(2) 增强特征表达能力2. ReLU的独特优势(1) 缓解梯度消失问题(2) 计算高效(3) 稀疏激活3. 在活体猪IMF预测中的应用(1) 网络结构中的位置(2) 实际效果4. ReLU的局限性及改进(1) 神经元死亡(Dead ReLU)(2) 输出非零中心
阅读全文
摘要:目录version11. 本质联系:都是“数学函数拟合器”2. Transformer vs 传统神经网络(1) 传统神经网络的局限(2) Transformer的突破3. Transformer如何借鉴并改进神经网络?4. 直观例子:翻译任务5. 结构对比图传统RNN(如LSTM)Transfor
阅读全文
摘要:目录1. 核心区别一句话总结RNN(循环神经网络)CNN(卷积神经网络)对比总结2. 直观比喻3. 举个生活例子🌰例子1:读一句话例子2:看一张猫的图片4. 技术细节对比5. 为什么现在Transformer(如GPT)更火?总结 1. 核心区别一句话总结 RNN:适合处理按顺序来的数据(比如一句
阅读全文
摘要:目录1. 动态权重分配(Context-Awareness)2. 并行化处理(Efficiency)3. 长距离依赖建模(Long-Range Dependencies)4. 可解释性(Interpretability)5. 灵活性(Flexibility)6. 对输入变化的鲁棒性对比传统方法的直观
阅读全文
摘要:目录1. 整体结构回顾2. 输入处理:词嵌入(Embedding)① 单词 → 数字向量② 位置编码(Positional Encoding)3. 自注意力机制(Self-Attention)① 计算 Query, Key, Value② 计算注意力分数③ 加权求和 Value④ 多头注意力(Mul
阅读全文
摘要:目录1. 先看背景:Transformer 是干啥的?2. 核心思想:像人类一样“联系上下文”3. 关键部件(用快递站类比)① 输入句子 → 拆成单词② 给每个单词贴标签(编码)③ 互相问关系(自注意力机制)④ 汇总信息,输出结果4. 为什么比传统模型好?5. 举个生活例子总结 好的!我用最通俗的方
阅读全文
摘要:目录1. 2017年:Transformer 的诞生(革命开始)2. 2018年:BERT 和 GPT 登场(NLP 大爆发)(1) BERT(Google 出品)(2) GPT(OpenAI 出品)3. 2020年:GPT-3 和更大规模的模型4. 2021-2023年:ChatGPT 和 AI
阅读全文

浙公网安备 33010602011771号