摘要:
《Switch Transformers:用简单高效的稀疏化实现万亿参数模型》论文解读
本文深入解析了Google提出的Switch Transformers架构,该论文通过创新的稀疏化设计解决传统MoE模型的路由复杂性和训练不稳定性问题。核心创新在于简化路由机制(单专家选择)、优化负载均衡策略(辅助损失函数+专家容量设计)和开发三重并行架构(数据+模型+专家并行)。实验表明,稀疏模型在相同计算预算下,预训练速度提升4-7倍,下游任务性能显著优于密集模型,如1.6万亿参数的Switch-C在TriviaQA 阅读全文
posted @ 2025-11-24 17:09
TTGF
阅读(29)
评论(0)
推荐(0)
摘要:
复旦NLP团队2023年发表的综述《The Rise and Potential of Large Language Model Based Agents》系统构建了LLM智能体的通用框架,提出以"大脑(LLM决策)-感知(多模态理解)-行动(工具调用)"为核心的技术范式,突破传统智能体的任务局限性。文章涵盖单智能体、多智能体协作、人机交互及智能体社群四大应用场景,并指出工具SKMA体系、安全护栏、结果检查三大落地关键。通过效用、社交性、价值观、进化能力四维评估体系,以及AGI 阅读全文
posted @ 2025-11-24 17:09
TTGF
阅读(115)
评论(0)
推荐(0)

浙公网安备 33010602011771号