随笔分类 -  深度学习系统

高性能计算、AI编译器、体系结构、异构计算、AI芯片、深度学习
摘要:论文日报 2026-04-29 整理时间:2026-04-29 15:00 (GMT+8) 数据来源:arXiv cs.LG / cs.CL 最新论文(4月22日–28日) 🏆 本期精选论文 HyLo:长上下文感知的LLM混合架构升级(Upcycling)方案 论文标题:Long-Context 阅读全文
posted @ 2026-05-01 23:51 SHICENT 阅读(48) 评论(0) 推荐(0)
摘要:技术日报 2026-04-28 ZeRO 与 PyTorch FSDP:大模型训练中的参数、梯度与优化器状态分片 整理时间:2026-04-28 18:00 技术方向:大模型训练系统优化 / 分布式数据并行 / 显存优化 / 通信优化 关键词:ZeRO、FSDP、FSDP2、DeepSpeed、DT 阅读全文
posted @ 2026-05-01 23:50 SHICENT 阅读(122) 评论(0) 推荐(0)
摘要:论文日报 2026-04-24 整理时间:2026-04-24 15:00 | 数据来源:arXiv cs.CL / cs.LG 精选论文 DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing 阅读全文
posted @ 2026-05-01 23:50 SHICENT 阅读(63) 评论(0) 推荐(0)
摘要:技术日报 2026-04-24 今日主题:连续批处理(Continuous Batching)与 Iteration-Level Scheduling —— LLM 推理系统的调度革命 整理时间:2026-04-24 18:00 关键词:Continuous Batching · Orca · It 阅读全文
posted @ 2026-05-01 23:49 SHICENT 阅读(129) 评论(0) 推荐(0)
摘要:技术日报 2026-04-21 今日主题:连续批处理(Continuous Batching)与迭代级调度——LLM 推理服务的调度革命 标签:#推理优化 #调度算法 #连续批处理 #迭代级调度 #Orca #vLLM #Sarathi #DistServe 摘要 在 LLM 推理服务中,调度策略直 阅读全文
posted @ 2026-05-01 23:47 SHICENT 阅读(233) 评论(0) 推荐(0)
摘要:论文日报 2026-04-17 🌟 精选论文 Nemotron 3 Super:NVIDIA 开源的高效混合 MoE Mamba-Transformer 大模型 📌 基本信息 字段 内容 论文标题 Nemotron 3 Super: Open, Efficient Mixture-of-Expe 阅读全文
posted @ 2026-05-01 23:45 SHICENT 阅读(100) 评论(0) 推荐(0)
摘要:技术日报 2026-04-17 今日主题:大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant,工程师必知的精度压缩之道 目录 背景:为什么量化如此重要? 量化基础:数值表示与误差来源 浮点格式体系:FP32 → BF16 → FP8 → FP4 PTQ 核心 阅读全文
posted @ 2026-05-01 23:44 SHICENT 阅读(434) 评论(0) 推荐(0)
摘要:论文日报 2026-04-14 精选论文 In-Place Test-Time Training for Large Language Models 标签:测试时训练 长上下文 持续学习 推理优化 ICLR 2026 Oral 论文信息 arXiv ID:2604.06169 发布日期:2026-0 阅读全文
posted @ 2026-05-01 23:43 SHICENT 阅读(86) 评论(0) 推荐(0)
摘要:技术日报 2026-04-14 摘要 混合专家模型(Mixture of Experts, MoE)已成为 2024—2026 年超大规模语言模型的核心架构。DeepSeek-V3(671B 参数,37B 激活)、Llama 4 Maverick(400B 总参,128 专家)、Qwen3-MoE 阅读全文
posted @ 2026-05-01 23:42 SHICENT 阅读(946) 评论(0) 推荐(2)
摘要:论文日报 2026-04-10 今日精选论文 Cog-DRIFT:自适应任务重构,突破 RLVR 的"零信号困境" 字段 内容 论文标题 Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from 阅读全文
posted @ 2026-05-01 23:41 SHICENT 阅读(27) 评论(0) 推荐(0)
摘要:技术日报 2026-04-10 今日主题:序列并行全景深度解析 ——从 Ring Attention 到 DeepSpeed Ulysses,再到 USP 统一框架 彻底搞懂超长上下文训练的"第四维并行" 目录 技术背景:为什么需要序列并行? 核心挑战:注意力的平方诅咒 Ring Attention 阅读全文
posted @ 2026-05-01 23:39 SHICENT 阅读(132) 评论(0) 推荐(0)
摘要:论文日报 2026-04-07 精选论文 TriAttention:基于三角级数的高效长推理 KV 压缩 字段 内容 标题 TriAttention: Efficient Long Reasoning with Trigonometric KV Compression arXiv 2604.0492 阅读全文
posted @ 2026-04-09 01:47 SHICENT 阅读(278) 评论(0) 推荐(0)
摘要:论文日报 2026-04-03 今日精选论文 Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning arXiv ID: 2604.02007 发布日期: 2026-04-03 作者: Rafael 阅读全文
posted @ 2026-04-09 01:46 SHICENT 阅读(85) 评论(0) 推荐(0)
摘要:论文日报 2026-04-01 精选论文 Tucker Attention:近似注意力机制的统一广义框架 论文信息 字段 内容 标题 Tucker Attention: A generalization of approximate attention mechanisms 作者 Timon Kle 阅读全文
posted @ 2026-04-09 01:45 SHICENT 阅读(65) 评论(0) 推荐(0)
摘要:技术日报 2026-04-01 今日主题:Speculative Decoding(推测解码/投机推断)深度全景解析 摘要 Speculative Decoding(推测解码,又称投机推断/投机解码)是当前 LLM 推理加速领域最重要的技术范式之一。它通过"小模型快速起草 + 大模型并行验证"的两阶 阅读全文
posted @ 2026-04-09 01:43 SHICENT 阅读(976) 评论(0) 推荐(0)
摘要:论文日报 2026-03-30 今日精选 ReVal:首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练 基本信息 字段 内容 论文标题 Off-Policy Value-Based Reinforcement Learning for Large Language Models ar 阅读全文
posted @ 2026-04-09 01:43 SHICENT 阅读(40) 评论(0) 推荐(0)
摘要:技术日报 2026-03-30 今日主题:KV Cache 优化全景解析——从基础原理到工程实践 📋 目录 技术背景:为什么 KV Cache 是推理瓶颈核心 KV Cache 基础原理:Prefill vs Decode 注意力机制演进:MHA → MQA → GQA 系统级优化:PagedAt 阅读全文
posted @ 2026-04-09 01:42 SHICENT 阅读(1712) 评论(0) 推荐(1)
摘要:论文日报 2026-03-29 精选论文 《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》 将推理时搜索内化到模型——多答案强化学习新范式 基本信息 字段 内容 论文标题 Reaching B 阅读全文
posted @ 2026-04-09 01:41 SHICENT 阅读(44) 评论(0) 推荐(0)
摘要:技术日报 2026-03-29 一、为什么今天聊 NCCL? 随着大模型训练规模从 7B 到 70B 再到数千亿参数不断扩展,单卡早已无法承载完整的训练任务。我们需要把梯度、参数、激活值在数百乃至数千块 GPU 之间来回同步——而每一次同步的背后,都有 NCCL (NVIDIA Collective 阅读全文
posted @ 2026-04-09 01:41 SHICENT 阅读(330) 评论(0) 推荐(0)
摘要:论文日报 2026-03-27 🏆 今日精选论文 SliderQuant: Accurate Post-Training Quantization for LLMs 🏅 收录会议:ICLR 2026(已接受) 属性 详情 论文标题 SliderQuant: Accurate Post-Train 阅读全文
posted @ 2026-04-09 01:39 SHICENT 阅读(54) 评论(0) 推荐(0)