该文被密码保护。 阅读全文
posted @ 2026-01-20 18:02
blcblc
阅读(0)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:01
blcblc
阅读(0)
评论(0)
推荐(0)
摘要:
AdamW 是对经典 Adam 的改进版本,通过解耦权重衰减(Weight Decay)与L2正则化,避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。 核心原理: 传统Adam将L2正则化项直接加到梯 阅读全文
posted @ 2026-01-20 17:00
blcblc
阅读(35)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 16:53
blcblc
阅读(1)
评论(0)
推荐(0)
摘要:
https://mingchao.wang/CPxjCCZa/ Softmax 函数求导 阅读全文
posted @ 2026-01-20 16:17
blcblc
阅读(6)
评论(0)
推荐(0)
摘要:
https://www.paozippq.com/learn/ailab/llm/architecture/3/ GELU激活函数 https://blog.csdn.net/u013172930/article/details/153544283 GELU 激活函数详细介绍 阅读全文
posted @ 2026-01-20 15:59
blcblc
阅读(6)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 15:28
blcblc
阅读(0)
评论(0)
推荐(0)

浙公网安备 33010602011771号