1 2 3 4 5 ··· 12 下一页
摘要: 论文日报 2026-04-07 精选论文 TriAttention:基于三角级数的高效长推理 KV 压缩 字段 内容 标题 TriAttention: Efficient Long Reasoning with Trigonometric KV Compression arXiv 2604.0492 阅读全文
posted @ 2026-04-09 01:47 SHICENT 阅读(43) 评论(0) 推荐(0)
摘要: 论文日报 2026-04-03 今日精选论文 Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning arXiv ID: 2604.02007 发布日期: 2026-04-03 作者: Rafael 阅读全文
posted @ 2026-04-09 01:46 SHICENT 阅读(9) 评论(0) 推荐(0)
摘要: 论文日报 2026-04-01 精选论文 Tucker Attention:近似注意力机制的统一广义框架 论文信息 字段 内容 标题 Tucker Attention: A generalization of approximate attention mechanisms 作者 Timon Kle 阅读全文
posted @ 2026-04-09 01:45 SHICENT 阅读(11) 评论(0) 推荐(0)
摘要: 技术日报 2026-04-01 今日主题:Speculative Decoding(推测解码/投机推断)深度全景解析 摘要 Speculative Decoding(推测解码,又称投机推断/投机解码)是当前 LLM 推理加速领域最重要的技术范式之一。它通过"小模型快速起草 + 大模型并行验证"的两阶 阅读全文
posted @ 2026-04-09 01:43 SHICENT 阅读(43) 评论(0) 推荐(0)
摘要: 论文日报 2026-03-30 今日精选 ReVal:首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练 基本信息 字段 内容 论文标题 Off-Policy Value-Based Reinforcement Learning for Large Language Models ar 阅读全文
posted @ 2026-04-09 01:43 SHICENT 阅读(14) 评论(0) 推荐(0)
摘要: 技术日报 2026-03-30 今日主题:KV Cache 优化全景解析——从基础原理到工程实践 📋 目录 技术背景:为什么 KV Cache 是推理瓶颈核心 KV Cache 基础原理:Prefill vs Decode 注意力机制演进:MHA → MQA → GQA 系统级优化:PagedAt 阅读全文
posted @ 2026-04-09 01:42 SHICENT 阅读(75) 评论(0) 推荐(0)
摘要: 论文日报 2026-03-29 精选论文 《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》 将推理时搜索内化到模型——多答案强化学习新范式 基本信息 字段 内容 论文标题 Reaching B 阅读全文
posted @ 2026-04-09 01:41 SHICENT 阅读(6) 评论(0) 推荐(0)
摘要: 技术日报 2026-03-29 一、为什么今天聊 NCCL? 随着大模型训练规模从 7B 到 70B 再到数千亿参数不断扩展,单卡早已无法承载完整的训练任务。我们需要把梯度、参数、激活值在数百乃至数千块 GPU 之间来回同步——而每一次同步的背后,都有 NCCL (NVIDIA Collective 阅读全文
posted @ 2026-04-09 01:41 SHICENT 阅读(18) 评论(0) 推荐(0)
摘要: 论文日报 2026-03-27 🏆 今日精选论文 SliderQuant: Accurate Post-Training Quantization for LLMs 🏅 收录会议:ICLR 2026(已接受) 属性 详情 论文标题 SliderQuant: Accurate Post-Train 阅读全文
posted @ 2026-04-09 01:39 SHICENT 阅读(13) 评论(0) 推荐(0)
摘要: 技术日报 2026-03-27 今日主题:张量并行(Tensor Parallelism)全面深度解析 ——从 Megatron-LM 矩阵分割原理,到 GB200 NVL72 超大规模工程实践 目录 技术背景与动机 核心概念:矩阵分割的数学原理 Megatron-LM 的系统设计 三维并行框架:T 阅读全文
posted @ 2026-04-09 01:38 SHICENT 阅读(21) 评论(0) 推荐(0)
1 2 3 4 5 ··· 12 下一页