fariver

2025年6月21日

摘要：快捷键配置 workbench.view.explorer -> cmd + E workbench.action.previousEditor -> shift+ h workbench.action.nextEditor -> shift + l go to definition -> ctr+ 阅读全文

posted @ 2025-06-21 11:27 fariver 阅读(11) 评论(0) 推荐(0)

2025年6月19日

[基础] GPU体系结构

摘要：整体架构物理模块包含关系为：GPC > TPC > SM > CORE GPC(Graphics Processing Clusters 图形处理簇)：GPC负责处理图形渲染和计算任务。每个GPC包含多个TPC，以及与其相关的专用硬件单元和缓存。 TPC(Texture Processing C 阅读全文

posted @ 2025-06-19 21:29 fariver 阅读(128) 评论(0) 推荐(0)

[Paper Reading] MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

摘要：目录TL;DR大规模高效训练算法优化通信重叠优化其他优化容错设计(Fault Tolerance)数据收集与分析诊断测试Fast Checkpointing and RecoveryExperiment相关链接 MegaScale: Scaling Large Language Model Trai 阅读全文

posted @ 2025-06-19 20:34 fariver 阅读(27) 评论(0) 推荐(0)

2025年6月12日

[PaperReading] Efficient Memory Management for Large Language Model Serving with PagedAttention

摘要：目录Efficient Memory Management for Large Language Model Serving with PagedAttentionTL;DRMotivation现状：GPU显存是瓶颈具体浪费情况MethodvLLM Framework调度与抢占其它TrickExpe 阅读全文

posted @ 2025-06-12 22:06 fariver 阅读(48) 评论(0) 推荐(0)

2025年6月7日

[PaperReading] PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

摘要：目录PyTorch FSDP: Experiences on Scaling Fully Sharded Data ParallelTL;DRMethodSystem DesignModel InitializationSharding Strategies（分片策略）Full Sharding 阅读全文

posted @ 2025-06-07 18:44 fariver 阅读(79) 评论(0) 推荐(0)

2025年6月6日

[PaperReading] DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

摘要：目录DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented ScaleTL;DR推理优化方法针对Transformer Kernel优化DeepFusionSBI-GeMM针对D 阅读全文

posted @ 2025-06-06 21:54 fariver 阅读(49) 评论(0) 推荐(0)

[PaperReading] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

摘要：目录FlashAttention: Fast and Memory-Efficient Exact Attention with IO-AwarenessTL;DRMethodFlashAttention算法详解Sparse FlashAttentionExperimentQ&A总结与思考相关链接阅读全文

posted @ 2025-06-06 21:53 fariver 阅读(35) 评论(0) 推荐(0)

2025年6月3日

[PaperReading] Megatron: Reducing Activation Recomputation in Large Transformer Models

摘要：目录Megatron: Reducing Activation Recomputation in Large Transformer ModelsTL;DRMethodSP(Sequence Parallelism、序列并行)Selective RecomputationCode && Implem 阅读全文

posted @ 2025-06-03 21:24 fariver 阅读(31) 评论(0) 推荐(0)

2025年5月29日

[PaperReading] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

摘要：目录BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationTL;DRMethod预训练DataFilt数据ImplementationExperi 阅读全文

posted @ 2025-05-29 21:17 fariver 阅读(35) 评论(0) 推荐(0)

2025年5月21日

[PaperReading] FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation

摘要：目录FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image GenerationTL; DR;Method数据训练过程推理过程Experiment总结与思考Contribution写作 FoundHand 阅读全文

posted @ 2025-05-21 19:11 fariver 阅读(9) 评论(0) 推荐(0)

公告