会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
qzero233
博客园
首页
新随笔
联系
订阅
管理
2025年11月1日
手撕深度学习之CUDA矩阵乘法(上篇):从朴素实现到40倍性能提升的优化之旅
摘要: 本文是CUDA矩阵乘法系列文章的上篇。这个系列会从一个最简单的实现出发,逐步优化到cuBLAS标准库86%的性能,并详细介绍其中涉及到的CUDA性能优化技巧。 本文首先给出了一个开箱即用的实验源代码,然后介绍了GPU硬件知识以及3种简单实现,逐步展示了把性能从cuBLAS的0.39%优化到16%,即性能提升40倍的“魔法”。
阅读全文
posted @ 2025-11-01 19:49 QZero
阅读(144)
评论(0)
推荐(0)
公告