深度学习系统 - 随笔分类 - SHICENT

HyLo：长上下文感知的LLM混合架构升级（Upcycling）方案

摘要：论文日报 2026-04-29 整理时间：2026-04-29 15:00 (GMT+8) 数据来源：arXiv cs.LG / cs.CL 最新论文（4月22日–28日） 🏆 本期精选论文 HyLo：长上下文感知的LLM混合架构升级（Upcycling）方案论文标题：Long-Context 阅读全文

posted @ 2026-05-01 23:51 SHICENT 阅读(48) 评论(0) 推荐(0)

ZeRO 与 PyTorch FSDP：大模型训练中的参数、梯度与优化器状态分片

摘要：技术日报 2026-04-28 ZeRO 与 PyTorch FSDP：大模型训练中的参数、梯度与优化器状态分片整理时间：2026-04-28 18:00 技术方向：大模型训练系统优化 / 分布式数据并行 / 显存优化 / 通信优化关键词：ZeRO、FSDP、FSDP2、DeepSpeed、DT 阅读全文

posted @ 2026-05-01 23:50 SHICENT 阅读(122) 评论(0) 推荐(0)

DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

摘要：论文日报 2026-04-24 整理时间：2026-04-24 15:00 | 数据来源：arXiv cs.CL / cs.LG 精选论文 DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing 阅读全文

posted @ 2026-05-01 23:50 SHICENT 阅读(63) 评论(0) 推荐(0)

连续批处理（Continuous Batching）与 Iteration-Level Scheduling —— LLM 推理系统的调度革命

摘要：技术日报 2026-04-24 今日主题：连续批处理（Continuous Batching）与 Iteration-Level Scheduling —— LLM 推理系统的调度革命整理时间：2026-04-24 18:00 关键词：Continuous Batching · Orca · It 阅读全文

posted @ 2026-05-01 23:49 SHICENT 阅读(129) 评论(0) 推荐(0)

连续批处理（Continuous Batching）与迭代级调度——LLM 推理服务的调度革命

摘要：技术日报 2026-04-21 今日主题：连续批处理（Continuous Batching）与迭代级调度——LLM 推理服务的调度革命标签：#推理优化 #调度算法 #连续批处理 #迭代级调度 #Orca #vLLM #Sarathi #DistServe 摘要在 LLM 推理服务中，调度策略直阅读全文

posted @ 2026-05-01 23:47 SHICENT 阅读(233) 评论(0) 推荐(0)

Nemotron 3 Super：NVIDIA 开源的高效混合 MoE Mamba-Transformer 大模型

摘要：论文日报 2026-04-17 🌟 精选论文 Nemotron 3 Super：NVIDIA 开源的高效混合 MoE Mamba-Transformer 大模型 📌 基本信息字段内容论文标题 Nemotron 3 Super: Open, Efficient Mixture-of-Expe 阅读全文

posted @ 2026-05-01 23:45 SHICENT 阅读(100) 评论(0) 推荐(0)

大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant，工程师必知的精度压缩之

摘要：技术日报 2026-04-17 今日主题：大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant，工程师必知的精度压缩之道目录背景：为什么量化如此重要？量化基础：数值表示与误差来源浮点格式体系：FP32 → BF16 → FP8 → FP4 PTQ 核心阅读全文

posted @ 2026-05-01 23:44 SHICENT 阅读(434) 评论(0) 推荐(0)

In-Place Test-Time Training for Large Language Models

摘要：论文日报 2026-04-14 精选论文 In-Place Test-Time Training for Large Language Models 标签：测试时训练长上下文持续学习推理优化 ICLR 2026 Oral 论文信息 arXiv ID：2604.06169 发布日期：2026-0 阅读全文

posted @ 2026-05-01 23:43 SHICENT 阅读(86) 评论(0) 推荐(0)

混合专家模型（MoE）全景解析——从路由原理到工程推理优化

摘要：技术日报 2026-04-14 摘要混合专家模型（Mixture of Experts, MoE）已成为 2024—2026 年超大规模语言模型的核心架构。DeepSeek-V3（671B 参数，37B 激活）、Llama 4 Maverick（400B 总参，128 专家）、Qwen3-MoE 阅读全文

posted @ 2026-05-01 23:42 SHICENT 阅读(946) 评论(0) 推荐(2)

Cog-DRIFT：自适应任务重构，突破 RLVR 的"零信号困境"

摘要：论文日报 2026-04-10 今日精选论文 Cog-DRIFT：自适应任务重构，突破 RLVR 的"零信号困境" 字段内容论文标题 Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from 阅读全文

posted @ 2026-05-01 23:41 SHICENT 阅读(27) 评论(0) 推荐(0)

从 Ring Attention 到 DeepSpeed Ulysses，再到 USP 统一框架

摘要：技术日报 2026-04-10 今日主题：序列并行全景深度解析 ——从 Ring Attention 到 DeepSpeed Ulysses，再到 USP 统一框架彻底搞懂超长上下文训练的"第四维并行" 目录技术背景：为什么需要序列并行？核心挑战：注意力的平方诅咒 Ring Attention 阅读全文

posted @ 2026-05-01 23:39 SHICENT 阅读(132) 评论(0) 推荐(0)

TriAttention：基于三角级数的高效长推理 KV 压缩

摘要：论文日报 2026-04-07 精选论文 TriAttention：基于三角级数的高效长推理 KV 压缩字段内容标题 TriAttention: Efficient Long Reasoning with Trigonometric KV Compression arXiv 2604.0492 阅读全文

posted @ 2026-04-09 01:47 SHICENT 阅读(278) 评论(0) 推荐(0)

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

摘要：论文日报 2026-04-03 今日精选论文 Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning arXiv ID: 2604.02007 发布日期: 2026-04-03 作者: Rafael 阅读全文

posted @ 2026-04-09 01:46 SHICENT 阅读(85) 评论(0) 推荐(0)

注意力机制统一理论 × MoE芯片加速 × 预训练数据科学化

摘要：论文日报 2026-04-01 精选论文 Tucker Attention：近似注意力机制的统一广义框架论文信息字段内容标题 Tucker Attention: A generalization of approximate attention mechanisms 作者 Timon Kle 阅读全文

posted @ 2026-04-09 01:45 SHICENT 阅读(65) 评论(0) 推荐(0)

Speculative Decoding（推测解码/投机推断）深度全景解析

摘要：技术日报 2026-04-01 今日主题：Speculative Decoding（推测解码/投机推断）深度全景解析摘要 Speculative Decoding（推测解码，又称投机推断/投机解码）是当前 LLM 推理加速领域最重要的技术范式之一。它通过"小模型快速起草 + 大模型并行验证"的两阶阅读全文

posted @ 2026-04-09 01:43 SHICENT 阅读(976) 评论(0) 推荐(0)

ReVal：首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练

摘要：论文日报 2026-03-30 今日精选 ReVal：首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练基本信息字段内容论文标题 Off-Policy Value-Based Reinforcement Learning for Large Language Models ar 阅读全文

posted @ 2026-04-09 01:43 SHICENT 阅读(40) 评论(0) 推荐(0)

KV Cache 优化全景解析——从基础原理到工程实践

摘要：技术日报 2026-03-30 今日主题：KV Cache 优化全景解析——从基础原理到工程实践 📋 目录技术背景：为什么 KV Cache 是推理瓶颈核心 KV Cache 基础原理：Prefill vs Decode 注意力机制演进：MHA → MQA → GQA 系统级优化：PagedAt 阅读全文

posted @ 2026-04-09 01:42 SHICENT 阅读(1712) 评论(0) 推荐(1)

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

摘要：论文日报 2026-03-29 精选论文《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》将推理时搜索内化到模型——多答案强化学习新范式基本信息字段内容论文标题 Reaching B 阅读全文

posted @ 2026-04-09 01:41 SHICENT 阅读(44) 评论(0) 推荐(0)

NCCL 与 AllReduce —— 分布式训练通信的基石

摘要：技术日报 2026-03-29 一、为什么今天聊 NCCL？随着大模型训练规模从 7B 到 70B 再到数千亿参数不断扩展，单卡早已无法承载完整的训练任务。我们需要把梯度、参数、激活值在数百乃至数千块 GPU 之间来回同步——而每一次同步的背后，都有 NCCL (NVIDIA Collective 阅读全文

posted @ 2026-04-09 01:41 SHICENT 阅读(330) 评论(0) 推荐(0)

SliderQuant: Accurate Post-Training Quantization for LLMs

摘要：论文日报 2026-03-27 🏆 今日精选论文 SliderQuant: Accurate Post-Training Quantization for LLMs 🏅 收录会议：ICLR 2026（已接受）属性详情论文标题 SliderQuant: Accurate Post-Train 阅读全文

posted @ 2026-04-09 01:39 SHICENT 阅读(54) 评论(0) 推荐(0)

SHICENT

永远不要停下前进的脚步

随笔分类 - 深度学习系统

公告