摘要:
随着人工智能(AI)和数据中心需求的急剧增长,对高性能内存的需求也达到了前所未有的高度。在这种背景下,下一代高带宽内存(HBM)标准的发展成为了行业关注的焦点。近期,韩国科学技术院(KAIST)和Terabyte Interconnection and Package Laboratory的联合研究 阅读全文
posted @ 2025-06-16 05:10
吴建明wujianming
阅读(499)
评论(0)
推荐(0)
摘要:
一、背景 最近几年,随着大规模深度学习模型(尤其是大语言模型)的快速发展,大规模 GPU 集群已成为支撑大规模模型训练的核心基础设施。大规模集群中往往会包含数千甚至上万张 GPU、涉及复杂的硬件配置、分布式计算框架及多维度的监控和调度体系。 在实际使用时,如何确保大规模 GPU 集群的高效稳定运行已 阅读全文
posted @ 2025-06-16 05:01
吴建明wujianming
阅读(937)
评论(0)
推荐(0)
摘要:
一、背景 我们在之前的文章中已经介绍过很多对大规模 AI 集群建设和维护相关相关的文章,包含 Meta、阿里、IBM、ImbueAI、字节、上海 AI-lab 等等。今天简单介绍一篇新的文章,其相对比较简单,主要关注 GPU 异常,与我们之前介绍万卡集群运维中的 Case 高度重合,但也有一些不一样 阅读全文
posted @ 2025-06-16 04:54
吴建明wujianming
阅读(238)
评论(0)
推荐(0)
摘要:
现在的大模型越来越大,分布式部署大模型已经成为不可避免,学习一下分布式部署模型的方式成为算法工程师的必备技能。 添加图片注释,不超过 140 字(可选) 部署方案:A机器上有4张卡,B机器上有4张卡,我只用A机器上的1张卡和B机器上的1张卡。(官方的样例是使用节点的所有卡,这里两个节点各选一张是为了 阅读全文
posted @ 2025-06-16 04:49
吴建明wujianming
阅读(1165)
评论(0)
推荐(0)
摘要:
年初部署了deepseek,距离现在有一阵子了,两台H800部署,整体下来首token3s以内,输入1000,输出500-900左右的情况下算力能支持到32并发。使用vllm部署,但是在部署的时候因为没有测试环境,直接上的生产,所以对于部署时的参数没有充分的调整。导致最大长度一直是32k。 这个地方 阅读全文
posted @ 2025-06-16 04:44
吴建明wujianming
阅读(649)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天猫 阅读全文
posted @ 2025-06-16 04:41
吴建明wujianming
阅读(19)
评论(0)
推荐(0)

浙公网安备 33010602011771号