吴建明wujianming

2024年4月22日

摘要： 12.1 TPU-MLIR快速入门 12.1.1 TPU-MLIR简介后文假定用户已经处于docker里面的/workspace目录。 1.编译ONNX模型以 yolov5s.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。该模型来自yolov5的官网: h 阅读全文

posted @ 2024-04-22 04:34 吴建明wujianming 阅读(377) 评论(0) 推荐(0)

2024年4月21日

MLIR一些背景知识

摘要： MLIR一些背景知识 7.1.1背景随着深度学习技术的发展，深度学习技术也逐渐从学术研究的方向转向了实践应用的方向，这不仅对深度模型的准确率有了较高的需求，也对深度模型的推理速度有了越来越高的需求。目前深度模型的推理引擎按照实现方式大体分为两类： 1）解释型推理引擎：一般包含一个模型解析器与一个阅读全文

posted @ 2024-04-21 04:24 吴建明wujianming 阅读(292) 评论(0) 推荐(0)

2024年4月20日

利用MLIR实现矩阵乘法的高性能GPU码生成：一些早期结果

摘要：利用MLIR实现矩阵乘法的高性能GPU码生成：一些早期结果介绍了使用MLIR编译器基础设施在NVIDIA GPU上针对张量核生成代码的一些早期结果。当今高性能深度学习的最先进技术主要是由高度调优的库驱动的。这些库通常是由专业程序员手工优化与调优的，他们使用低级抽象，付出了巨大的努力。对于类似的硬件阅读全文

posted @ 2024-04-20 04:58 吴建明wujianming 阅读(268) 评论(0) 推荐(0)

2024年4月19日

NPU硬件架构及张量技术开发

摘要： NPU硬件架构及张量技术开发 NPU 系统介绍 V853 芯片内置一颗 NPU，其处理性能为最大 1 TOPS 并有 128KB 内部高速缓存用于高速数据交换，支持 OpenCL、OpenVX、android NN 与 ONNX 的 API 调用，同时也支持导入大量常用的深度学习模型。 NPU 系统阅读全文

posted @ 2024-04-19 04:06 吴建明wujianming 阅读(2817) 评论(0) 推荐(0)

2024年4月18日

框架图与动机结构化与可重定目标代码生成

摘要：框架图与动机结构化与可重定目标代码生成用于数值计算的代码生成方法传统上侧重于优化循环嵌套的性能。相关分析侧重于标量元素，因为循环嵌套的主体通常计算单个元素。这样的分析必须考虑内存依赖性与混叠。这些方法在过去进行了深入研究，并已达到高度成熟。当从像C或Fortran这样的输入语言开始时，它们非常适合阅读全文

posted @ 2024-04-18 04:34 吴建明wujianming 阅读(67) 评论(0) 推荐(0)

2024年4月17日

TPU-MLIR实现技术详细介绍

摘要： TPU-MLIR实现技术详细介绍 TPU-MLIR简介后文假定用户已经处于docker里面的/workspace目录。编译ONNX模型以 yolov5s.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。该模型来自yolov5的官网: https://git 阅读全文

posted @ 2024-04-17 05:31 吴建明wujianming 阅读(242) 评论(0) 推荐(0)

2024年4月16日

Toy方言源文件下译、MLIRGen、相关编译操作流程技术

摘要： Toy方言源文件下译、MLIRGen、相关编译操作流程技术生产MLIR表达式 MLIRGen 模块会遍历 AST，递归调用子函数，构建操作，一个方言中可以有很多的操作，如图5-2所示。图5-2 toy源文件到下译、MLIRGen模块、Dialect模块、操作模块的流程运行./toyc-ch2 阅读全文

posted @ 2024-04-16 05:39 吴建明wujianming 阅读(179) 评论(0) 推荐(0)

2024年4月15日

MLIR中ARM指令SVE、SME的实现方式

摘要： MLIR中ARM指令SVE、SME的实现方式 1. MLIR基本概念 MLIR（Multi-Level Intermediate Representaion，多级中间表示）是一种用来构建可重用与可扩展编译的新方法。MLIR的设计初衷是为了解决软件碎片化问题，改进异构硬件的编译，显著减少构建特定领域编阅读全文

posted @ 2024-04-15 04:38 吴建明wujianming 阅读(947) 评论(0) 推荐(0)

2024年4月14日

IREE体系结构介绍

摘要： IREE体系结构介绍基于MLIR的端到端编译器与运行时，可将ML模型下译到统一的IR，该IR可扩展到数据中心，也可扩展到移动与边缘部署。中间表示执行环境 IREE关键特性 1）标准与基于社区 A）采用Vulkan、SPIR-V、WebGPU等，与OSS社区合作 2）基于编译 A）使用编译器弥合级阅读全文

posted @ 2024-04-14 04:05 吴建明wujianming 阅读(1079) 评论(0) 推荐(0)

2024年4月13日

使用TpuLang转换模型的流程

摘要：下图(run_eval待测模型列表及参数)填写更多不同精度评估方式的命令字符串，比如图中已有imagenet分类与coco检测精度计算字符串；下图(run_eval待测模型列表及参数)中model_list_all填写模型名到参数的映射，比如：resnet18_qat的[0,0]，其中第1个参数表示阅读全文

posted @ 2024-04-13 04:49 吴建明wujianming 阅读(65) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告