摘要:        
常见激活函数 激活函数 在 大语言模型( LLM ) 时代,激活函数的设计直接影响模型的表达能力、训练稳定性和计算效率。以下是当前主流的激活函数及其应用场景的总结,涵盖经典方法和最新趋势: 1. 核心激活函数 (1) GeLU( Gaussian Error Linear Unit ) 公式:\[\    阅读全文
posted @ 2025-04-14 21:05
Gold_stein
阅读(647)
评论(0)
推荐(1)
        
            
        
        
摘要:        
常见优化器 内容 一、基础梯度下降法 优化器 核心公式 特点 适用场景 SGD θ = θ - η·∇θ J(θ) 简单,但学习率固定,易陷入局部最优 小数据集、简单模型 Batch GD 同SGD,但使用全量数据计算梯度 梯度稳定,但计算开销大 小型数据集 Mini-Batch GD 同SGD,但    阅读全文
posted @ 2025-04-14 01:38
Gold_stein
阅读(136)
评论(0)
推荐(0)
        

 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号