摘要:
GEMM通用矩阵运算是现代流体力学、量子化学等高性能应用,与神经网络层计算的AI模型训练/推理计算中,使用频率最高并且计算量非常大的基础数学,也是GPU架构非常具有优势的核心计算。 虽然NVIDIA很早就提供闭源的cuBLAS/cuDNN底层线性库,但这些几乎都得对C/C++底层调用非常熟悉的编程人 阅读全文
posted @ 2025-05-16 21:54
吴建明wujianming
阅读(173)
评论(0)
推荐(0)
摘要:
关于 DeepSeek-V3,你需要了解的一切。 虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文! 这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSe 阅读全文
posted @ 2025-05-16 21:30
吴建明wujianming
阅读(183)
评论(0)
推荐(0)
摘要:
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。 多模态模型卷到头了?不,真正的革新才刚开 阅读全文
posted @ 2025-05-16 21:10
吴建明wujianming
阅读(88)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-05-16 20:59
吴建明wujianming
阅读(6)
评论(0)
推荐(0)

浙公网安备 33010602011771号