上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 294 下一页
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:02 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 18:01 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: AdamW 是对经典 Adam 的改进版本,通过解耦权重衰减(Weight Decay)与L2正则化,避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。 核心原理: 传统Adam将L2正则化项直接加到梯 阅读全文
posted @ 2026-01-20 17:00 blcblc 阅读(35) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 16:53 blcblc 阅读(1) 评论(0) 推荐(0)
摘要: https://mingchao.wang/CPxjCCZa/ Softmax 函数求导 阅读全文
posted @ 2026-01-20 16:17 blcblc 阅读(6) 评论(0) 推荐(0)
摘要: https://www.paozippq.com/learn/ailab/llm/architecture/3/ GELU激活函数 https://blog.csdn.net/u013172930/article/details/153544283 GELU 激活函数详细介绍 阅读全文
posted @ 2026-01-20 15:59 blcblc 阅读(6) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-20 15:28 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-19 17:28 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/1940072884048466961 AI智能体三大思考框架深度剖析(CoT、ReAct 和 Plan-and-Execute) 还有这一篇,堆砌出来的,很一般 https://zhuanlan.zhihu.com/p/675509396 阅读全文
posted @ 2026-01-19 17:02 blcblc 阅读(3) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/663770472 大模型工具调用(function call)原理及实现 阅读全文
posted @ 2026-01-19 14:36 blcblc 阅读(45) 评论(0) 推荐(0)
上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 294 下一页