2025 年 8月 15 日随笔档案 - Jcpeng_std

2025年8月15日

Mixture-of-Recursions（MoR）混合递归Transformer

摘要：谷歌DeepMind联手顶尖研究机构推出革命性架构Mixture-of-Recursions（MoR），有望彻底改变AI模型的计算方式，速度翻倍且内存减半，以下对《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptiv 阅读全文

posted @ 2025-08-15 15:13 Jcpeng_std 阅读(155) 评论(0) 推荐(0)

MoE对比全连接FFN的优势

摘要：混合专家模型（Mixture of Experts, MoE）相比传统的全连接前馈网络（Feed-Forward Network, FFN）在特定场景下具有显著优势，尤其在大规模模型（如LLM、多模态模型）中表现突出。以下是核心优势对比： 1. 计算效率更高（条件计算） MoE：每个输入样本仅激活阅读全文

posted @ 2025-08-15 14:58 Jcpeng_std 阅读(216) 评论(0) 推荐(0)

Jcpeng_std

加倍努力，证明你想要的不是空中楼阁~

公告