摘要: 常见激活函数 激活函数 在 大语言模型( LLM ) 时代,激活函数的设计直接影响模型的表达能力、训练稳定性和计算效率。以下是当前主流的激活函数及其应用场景的总结,涵盖经典方法和最新趋势: 1. 核心激活函数 (1) GeLU( Gaussian Error Linear Unit ) 公式:\[\ 阅读全文
posted @ 2025-04-14 21:05 Gold_stein 阅读(647) 评论(0) 推荐(1)
摘要: 常见优化器 内容 一、基础梯度下降法 优化器 核心公式 特点 适用场景 SGD θ = θ - η·∇θ J(θ) 简单,但学习率固定,易陷入局部最优 小数据集、简单模型 Batch GD 同SGD,但使用全量数据计算梯度 梯度稳定,但计算开销大 小型数据集 Mini-Batch GD 同SGD,但 阅读全文
posted @ 2025-04-14 01:38 Gold_stein 阅读(136) 评论(0) 推荐(0)