会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
76
77
78
79
80
81
82
83
84
···
367
下一页
2025年3月31日
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》谢谢了
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-31 04:00 吴建明wujianming
阅读(19)
评论(0)
推荐(0)
2025年3月30日
AMD GPU上对比语言图像预训练(CLIP)模型的交互(下)
摘要: 3. 步骤3:检查图像和文本 将COCO数据集中的8幅样本图像及其文本描述输入模型,并比较相应特征之间的相似性。 import os import matplotlib.pyplot as plt from PIL import Image # 使用COCO数据集中的图像及其文本描述 image_u
阅读全文
posted @ 2025-03-30 04:17 吴建明wujianming
阅读(22)
评论(0)
推荐(0)
AMD GPU上对比语言图像预训练(CLIP)模型的交互(上)
摘要: AMD GPU上对比语言图像预训练(CLIP)模型的交互 3.1.1 介绍 对比语言图像预训练(CLIP)是一种连接视觉和自然语言的多模态深度学习模型。它是在OpenAI的论文从自然语言监督中学习可转移的视觉模型(2021)中介绍的,并在大量(4亿)图像字幕对的网络抓取数据上进行了对比训练(这是最早
阅读全文
posted @ 2025-03-30 04:12 吴建明wujianming
阅读(45)
评论(0)
推荐(0)
Radeon GPU上使用ROCm一些技术点
摘要: Radeon GPU上使用ROCm一些技术点 1. 使用最新的高端AMD Radeon™7000系列GPU,将桌面变成机器学习平台 AMD已扩展了对RDNA™3 GPU上机器学习开发的支持,该GPU具有Radeon™软件,适用于Linux 24.10.3和ROCm™6.1.3! 使用PyTorch、
阅读全文
posted @ 2025-03-30 04:08 吴建明wujianming
阅读(102)
评论(0)
推荐(0)
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》感谢感谢
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-30 04:01 吴建明wujianming
阅读(14)
评论(0)
推荐(0)
2025年3月29日
GPU内核实现(下)
摘要: 3. ELLPACK 内核 ELLPACK SpMV实现沿行并行计算。由于数据已被重新排序为以列为主存储,因此沿ELLPACK数据连续行的内存访问被合并。在下面显示的实现中,假设输入cols和vals数组已经转换为ELLPACK格式。这种格式的一个关键部分是元数据参数,即每行非零的最大数量,它也作为
阅读全文
posted @ 2025-03-29 06:36 吴建明wujianming
阅读(37)
评论(0)
推荐(0)
GPU内核实现(上)
摘要: GPU内核实现 以下是基于CSR和ELLPACK格式的一些标准SpMV实现。 1. 标量CSR内核 GPU加速SpMV的最简单实现之一是标量内核方法。标量内核分配一个线程来处理SpMV中的每个稀疏点积。稀疏点积由每个线程以顺序方式处理,从而消除了对需要共享内存和/或扭曲级别降低的更高级技术的需求。以
阅读全文
posted @ 2025-03-29 06:33 吴建明wujianming
阅读(20)
评论(0)
推荐(0)
稀疏矩阵向量乘法介绍
摘要: 稀疏矩阵向量乘法介绍 稀疏矩阵向量乘法(SpMV)是每个隐式稀疏线性代数求解器。从简单的 Krylov 算法到 multigrid 的算法性能方法在很大程度上取决于 SpMV 实现的速度。因为 SpMV 具有非常低的算术强度,定义为浮点操作数,则实现速度受内存带宽。最大化内存带宽的实现将实现卓越的性
阅读全文
posted @ 2025-03-29 05:37 吴建明wujianming
阅读(93)
评论(0)
推荐(0)
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》感谢感激
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-29 05:12 吴建明wujianming
阅读(54)
评论(0)
推荐(0)
2025年3月23日
节点级架构与MI300和MI200系列性能计数器和指标
摘要: 节点级架构 MI300系列节点级架构,显示了8个完全互连的MI300X OAM模块,通过重定时器和HGX连接器连接到(可选)PCIEe交换机。 如图5-9所示,显示了具有双插槽配置的AMD EPYC处理器和八个AMD Instinct MI300X加速器的系统的节点级架构。MI300X OAM通过P
阅读全文
posted @ 2025-03-23 06:33 吴建明wujianming
阅读(46)
评论(0)
推荐(0)
上一页
1
···
76
77
78
79
80
81
82
83
84
···
367
下一页
公告