会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
anluo8
博客园
首页
新随笔
联系
订阅
管理
2025年9月16日
高性能计算-TensorCore-wmma-hgemm
摘要: 1. TensorCore 简介: 硬件层面支持半精度浮点矩阵乘法,与昇腾NPU的 cube 核类似,最小只能计算规定尺寸的矩阵乘法。 wmma API 封装在 nvcuda 命名空间 2. naive : 一个block 1 个warp,wmmaTile 16*16 点击查看代码 //naive
阅读全文
posted @ 2025-09-16 17:21 安洛8
阅读(18)
评论(0)
推荐(0)
公告