随笔档案「2025年6月16日」：从HBM4到HBM8：下一代HBM存储革命 ... - 吴建明wujianming

2025年6月16日

摘要：随着人工智能（AI）和数据中心需求的急剧增长，对高性能内存的需求也达到了前所未有的高度。在这种背景下，下一代高带宽内存（HBM）标准的发展成为了行业关注的焦点。近期，韩国科学技术院（KAIST）和Terabyte Interconnection and Package Laboratory的联合研究阅读全文

posted @ 2025-06-16 05:10 吴建明wujianming 阅读(499) 评论(0) 推荐(0)

大规模 GPU 集群运维实践：假装万卡 GPU 集群经验

摘要：一、背景最近几年，随着大规模深度学习模型（尤其是大语言模型）的快速发展，大规模 GPU 集群已成为支撑大规模模型训练的核心基础设施。大规模集群中往往会包含数千甚至上万张 GPU、涉及复杂的硬件配置、分布式计算框架及多维度的监控和调度体系。在实际使用时，如何确保大规模 GPU 集群的高效稳定运行已阅读全文

posted @ 2025-06-16 05:01 吴建明wujianming 阅读(937) 评论(0) 推荐(0)

Delta AI 集群的 GPU 故障分析和刻画

摘要：一、背景我们在之前的文章中已经介绍过很多对大规模 AI 集群建设和维护相关相关的文章，包含 Meta、阿里、IBM、ImbueAI、字节、上海 AI-lab 等等。今天简单介绍一篇新的文章，其相对比较简单，主要关注 GPU 异常，与我们之前介绍万卡集群运维中的 Case 高度重合，但也有一些不一样阅读全文

posted @ 2025-06-16 04:54 吴建明wujianming 阅读(238) 评论(0) 推荐(0)

VLLM+ray多节点部署大模型

摘要：现在的大模型越来越大，分布式部署大模型已经成为不可避免，学习一下分布式部署模型的方式成为算法工程师的必备技能。添加图片注释，不超过 140 字（可选）部署方案：A机器上有4张卡，B机器上有4张卡，我只用A机器上的1张卡和B机器上的1张卡。（官方的样例是使用节点的所有卡，这里两个节点各选一张是为了阅读全文

posted @ 2025-06-16 04:49 吴建明wujianming 阅读(1165) 评论(0) 推荐(0)

Vllm v1 部署deepseek 深刻理解

摘要：年初部署了deepseek，距离现在有一阵子了，两台H800部署，整体下来首token3s以内，输入1000，输出500-900左右的情况下算力能支持到32并发。使用vllm部署，但是在部署的时候因为没有测试环境，直接上的生产，所以对于部署时的参数没有充分的调整。导致最大长度一直是32k。这个地方阅读全文

posted @ 2025-06-16 04:44 吴建明wujianming 阅读(649) 评论(0) 推荐(0)

摘要： 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器：原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版，京东、淘宝天猫阅读全文

posted @ 2025-06-16 04:41 吴建明wujianming 阅读(19) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087 知乎视频：https://www.zhihu.com/people/wujianming_110117/zvideos 知乎：https://www.zhihu.com/people/wujianming_110117

公告