我的随笔

HyLo：长上下文感知的LLM混合架构升级（Upcycling）方案

SHICENT 2026-05-01 23:51 阅读:43 评论:0 推荐:0

ZeRO 与 PyTorch FSDP：大模型训练中的参数、梯度与优化器状态分片

SHICENT 2026-05-01 23:50 阅读:88 评论:0 推荐:0

DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

SHICENT 2026-05-01 23:50 阅读:49 评论:0 推荐:0

连续批处理（Continuous Batching）与 Iteration-Level Scheduling —— LLM 推理系统的调度革命

SHICENT 2026-05-01 23:49 阅读:100 评论:0 推荐:0

连续批处理（Continuous Batching）与迭代级调度——LLM 推理服务的调度革命

SHICENT 2026-05-01 23:47 阅读:173 评论:0 推荐:0

Nemotron 3 Super：NVIDIA 开源的高效混合 MoE Mamba-Transformer 大模型

SHICENT 2026-05-01 23:45 阅读:70 评论:0 推荐:0

大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant，工程师必知的精度压缩之

SHICENT 2026-05-01 23:44 阅读:299 评论:0 推荐:0

In-Place Test-Time Training for Large Language Models

SHICENT 2026-05-01 23:43 阅读:58 评论:0 推荐:0

混合专家模型（MoE）全景解析——从路由原理到工程推理优化

SHICENT 2026-05-01 23:42 阅读:627 评论:0 推荐:2

Cog-DRIFT：自适应任务重构，突破 RLVR 的"零信号困境"

SHICENT 2026-05-01 23:41 阅读:21 评论:0 推荐:0