摘要: 百度昆仑、华为NPU 为智能计算而生的昆仑芯XPU架构 昆仑芯科技团队于2017年在Hot Chips上发布自研的、面向通用AI计的芯片核心架构——昆仑芯XPU。 集十余年AI加速研发实践,昆仑芯XPU从AI落地的实际需求出发,按照复杂前沿的人工智能场景需求开展迭代, 致力为开发者提供通用、易用、高 阅读全文
posted @ 2024-04-27 04:18 吴建明wujianming 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 指令优化:基于大型语言模型的指令算子的进化多目标指令优化 摘要 基于指令的语言建模在预训练的语言模型中受到了极大的关注。 提出了一种指令优化方法,将指令生成视为一个进化的多目标优化问题,利用大型语言模型(LLM)来模拟指令运算符,包括变异和交叉。 此外,为这些运算符引入了一种目标导向机制,使LLM能 阅读全文
posted @ 2024-04-26 04:30 吴建明wujianming 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Auto-Tuning 原理 9.8.1英伟达GPU卷积网络的自动调谐 针对特定设备和工作负载的自动调谐对于获得最佳性能至关重要。本节描述如何为英伟达GPU调谐整个卷积网络。 TVM 中英伟达GPU 的运算符实现是以模板形式编写的。该模板有许多可调旋钮(平铺系数、展开等)。将调谐所有卷积和深度卷积运 阅读全文
posted @ 2024-04-25 03:41 吴建明wujianming 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 通用目标近似程序的神经加速 参考文献链接 https://homes.cs.washington.edu/~luisceze/publications/micro12-web.pdf 阅读全文
posted @ 2024-04-24 03:47 吴建明wujianming 阅读(4) 评论(0) 推荐(0) 编辑
摘要: MLIR中的可组合和模块化代码生成 张量编译器结构的结构化可重定目标方法 7.1.1结构化与可重定目标代码生成流程 用于数值计算的代码生成方法传统上侧重于优化循环嵌套的性能。相关分析侧重于标量元素,因为循环嵌套的主体通常计算单个元素。这样的分析必须考虑内存依赖性与重叠。这些方法在过去进行了深入研究, 阅读全文
posted @ 2024-04-23 05:26 吴建明wujianming 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 12.1 TPU-MLIR快速入门 12.1.1 TPU-MLIR简介 后文假定用户已经处于docker里面的/workspace目录。 1.编译ONNX模型 以 yolov5s.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。 该模型来自yolov5的官网: h 阅读全文
posted @ 2024-04-22 04:35 吴建明wujianming 阅读(4) 评论(0) 推荐(0) 编辑
摘要: MLIR一些背景知识 7.1.1背景 随着深度学习技术的发展,深度学习技术也逐渐从学术研究的方向转向了实践应用的方向,这不仅对深度模型的准确率有了较高的需求,也对深度模型的推理速度有了越来越高的需求。 目前深度模型的推理引擎按照实现方式大体分为两类: 1)解释型推理引擎:一般包含一个模型解析器与一个 阅读全文
posted @ 2024-04-21 04:25 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 利用MLIR实现矩阵乘法的高性能GPU码生成:一些早期结果 介绍了使用MLIR编译器基础设施在NVIDIA GPU上针对张量核生成代码的一些早期结果。当今高性能深度学习的最先进技术主要是由高度调优的库驱动的。这些库通常是由专业程序员手工优化与调优的,他们使用低级抽象,付出了巨大的努力。对于类似的硬件 阅读全文
posted @ 2024-04-20 04:59 吴建明wujianming 阅读(7) 评论(0) 推荐(0) 编辑
摘要: NPU硬件架构及张量技术开发 NPU 系统介绍 V853 芯片内置一颗 NPU,其处理性能为最大 1 TOPS 并有 128KB 内部高速缓存用于高速数据交换,支持 OpenCL、OpenVX、android NN 与 ONNX 的 API 调用,同时也支持导入大量常用的深度学习模型。 NPU 系统 阅读全文
posted @ 2024-04-19 04:06 吴建明wujianming 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 框架图与动机结构化与可重定目标代码生成 用于数值计算的代码生成方法传统上侧重于优化循环嵌套的性能。相关分析侧重于标量元素,因为循环嵌套的主体通常计算单个元素。这样的分析必须考虑内存依赖性与混叠。这些方法在过去进行了深入研究,并已达到高度成熟。当从像C或Fortran这样的输入语言开始时,它们非常适合 阅读全文
posted @ 2024-04-18 04:35 吴建明wujianming 阅读(6) 评论(0) 推荐(0) 编辑