摘要:
论文日报 2026-03-25 精选论文 1. HAViT: Historical Attention Vision Transformer 论文信息 arXiv编号: 2603.18585 作者: Swarnendu Banik, Manish Das, Shiv Ram Dubey, Satis 阅读全文
posted @ 2026-04-09 01:37
SHICENT
阅读(8)
评论(0)
推荐(0)
摘要:
技术日报 2026-03-25 一、技术背景与动机 1.1 标准注意力的根本瓶颈 Transformer 架构的注意力机制(Self-Attention)自 2017 年提出以来,已成为大语言模型(LLM)、视觉模型、多模态模型的基础组件。然而,随着序列长度 $N$ 的增大,标准注意力的时间与空间复 阅读全文
posted @ 2026-04-09 01:18
SHICENT
阅读(29)
评论(0)
推荐(0)
摘要:
论文日报 2026-03-24 论文一:MoE 大规模训练系统的工业级解决方案 标题: Scalable Training of Mixture-of-Experts Models with Megatron Core 作者: Zijie Yan, Hongxiao Bai, Xin Yao, De 阅读全文
posted @ 2026-04-09 01:12
SHICENT
阅读(6)
评论(0)
推荐(0)
摘要:
技术日报 2026-03-24 目录 技术一:投机解码(Speculative Decoding)及其演进——EAGLE 系列全解析 技术二:KV Cache 优化技术体系——从原理到工程实践 参考资料 技术一:投机解码(Speculative Decoding)及 EAGLE 系列演进 背景与动机 阅读全文
posted @ 2026-04-09 01:10
SHICENT
阅读(11)
评论(0)
推荐(0)
摘要:
技术日报 2026-03-23 技术一:DeepSeek mHC(流形约束超连接)—— 解决超深Transformer训练稳定性难题 1. 技术背景与动机 随着大语言模型(LLM)参数规模和深度的不断增长,超深Transformer网络面临着严重的训练稳定性问题。当网络层数增加到数百甚至上千层时,容 阅读全文
posted @ 2026-04-09 01:05
SHICENT
阅读(2)
评论(0)
推荐(0)

浙公网安备 33010602011771号