摘要:
论文日报 2026-04-29 整理时间:2026-04-29 15:00 (GMT+8) 数据来源:arXiv cs.LG / cs.CL 最新论文(4月22日–28日) 🏆 本期精选论文 HyLo:长上下文感知的LLM混合架构升级(Upcycling)方案 论文标题:Long-Context 阅读全文
posted @ 2026-05-01 23:51
SHICENT
阅读(28)
评论(0)
推荐(0)
摘要:
技术日报 2026-04-28 ZeRO 与 PyTorch FSDP:大模型训练中的参数、梯度与优化器状态分片 整理时间:2026-04-28 18:00 技术方向:大模型训练系统优化 / 分布式数据并行 / 显存优化 / 通信优化 关键词:ZeRO、FSDP、FSDP2、DeepSpeed、DT 阅读全文
posted @ 2026-05-01 23:50
SHICENT
阅读(33)
评论(0)
推荐(0)
摘要:
论文日报 2026-04-24 整理时间:2026-04-24 15:00 | 数据来源:arXiv cs.CL / cs.LG 精选论文 DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing 阅读全文
posted @ 2026-05-01 23:50
SHICENT
阅读(27)
评论(0)
推荐(0)
摘要:
技术日报 2026-04-24 今日主题:连续批处理(Continuous Batching)与 Iteration-Level Scheduling —— LLM 推理系统的调度革命 整理时间:2026-04-24 18:00 关键词:Continuous Batching · Orca · It 阅读全文
posted @ 2026-05-01 23:49
SHICENT
阅读(58)
评论(0)
推荐(0)
摘要:
技术日报 2026-04-21 今日主题:连续批处理(Continuous Batching)与迭代级调度——LLM 推理服务的调度革命 标签:#推理优化 #调度算法 #连续批处理 #迭代级调度 #Orca #vLLM #Sarathi #DistServe 摘要 在 LLM 推理服务中,调度策略直 阅读全文
posted @ 2026-05-01 23:47
SHICENT
阅读(68)
评论(0)
推荐(0)
摘要:
论文日报 2026-04-17 🌟 精选论文 Nemotron 3 Super:NVIDIA 开源的高效混合 MoE Mamba-Transformer 大模型 📌 基本信息 字段 内容 论文标题 Nemotron 3 Super: Open, Efficient Mixture-of-Expe 阅读全文
posted @ 2026-05-01 23:45
SHICENT
阅读(47)
评论(0)
推荐(0)
摘要:
技术日报 2026-04-17 今日主题:大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant,工程师必知的精度压缩之道 目录 背景:为什么量化如此重要? 量化基础:数值表示与误差来源 浮点格式体系:FP32 → BF16 → FP8 → FP4 PTQ 核心 阅读全文
posted @ 2026-05-01 23:44
SHICENT
阅读(121)
评论(0)
推荐(0)
摘要:
论文日报 2026-04-14 精选论文 In-Place Test-Time Training for Large Language Models 标签:测试时训练 长上下文 持续学习 推理优化 ICLR 2026 Oral 论文信息 arXiv ID:2604.06169 发布日期:2026-0 阅读全文
posted @ 2026-05-01 23:43
SHICENT
阅读(36)
评论(0)
推荐(0)
摘要:
技术日报 2026-04-14 摘要 混合专家模型(Mixture of Experts, MoE)已成为 2024—2026 年超大规模语言模型的核心架构。DeepSeek-V3(671B 参数,37B 激活)、Llama 4 Maverick(400B 总参,128 专家)、Qwen3-MoE 阅读全文
posted @ 2026-05-01 23:42
SHICENT
阅读(267)
评论(0)
推荐(1)
摘要:
论文日报 2026-04-10 今日精选论文 Cog-DRIFT:自适应任务重构,突破 RLVR 的"零信号困境" 字段 内容 论文标题 Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from 阅读全文
posted @ 2026-05-01 23:41
SHICENT
阅读(20)
评论(0)
推荐(0)

浙公网安备 33010602011771号