上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 295 下一页
该文被密码保护。 阅读全文
posted @ 2026-01-20 19:41 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: https://aibook.ren/archives/llm-dataset-sharegpt-alpace 大模型的常用数据指令格式:ShareGPT 和 Alpaca 阅读全文
posted @ 2026-01-20 19:16 blcblc 阅读(10) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:11 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:03 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:02 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:01 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: AdamW 是对经典 Adam 的改进版本,通过解耦权重衰减(Weight Decay)与L2正则化,避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。 核心原理: 传统Adam将L2正则化项直接加到梯 阅读全文
posted @ 2026-01-20 17:00 blcblc 阅读(35) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 16:53 blcblc 阅读(1) 评论(0) 推荐(0)
摘要: https://mingchao.wang/CPxjCCZa/ Softmax 函数求导 阅读全文
posted @ 2026-01-20 16:17 blcblc 阅读(6) 评论(0) 推荐(0)
摘要: https://www.paozippq.com/learn/ailab/llm/architecture/3/ GELU激活函数 https://blog.csdn.net/u013172930/article/details/153544283 GELU 激活函数详细介绍 阅读全文
posted @ 2026-01-20 15:59 blcblc 阅读(6) 评论(0) 推荐(0)
上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 295 下一页