吴建明wujianming

2024年5月2日

摘要：达摩院智算与计算视觉技术致力于多模态视觉信号的理解与生成技术的研究，当前的重点研究方向包括更加精准的图像/视频/3D内容生成、更加可控的图像/视频/3D内容编辑、更加高效的生成框架、多模态的检索增强生成、统一的多模态理解-生成框架等。团队内部有完整的产品-算法-工程链路，技术深度和产业落地并重，阅读全文

posted @ 2024-05-02 03:52 吴建明wujianming 阅读(109) 评论(0) 推荐(0)

2024年5月1日

华夏芯产品技术概述

摘要：华夏芯产品技术概述 GPTX1 CPU 概述： GPTX1 CPU是华夏芯完全自主知识产权、自主架构的面向嵌入式的高能效CPU核。此CPU核依托Unity指令集，针对先进半导体工艺对微架构和流水线进行了深度优化，能够在相同工艺下达到更高的主频和更高的能效，应用于网络、通讯、数字电视、存储等广泛领域。阅读全文

posted @ 2024-05-01 03:58 吴建明wujianming 阅读(113) 评论(0) 推荐(0)

2024年4月30日

海光处理器与软件栈

摘要：海光处理器与软件栈参考文献链接 https://www.hygon.cn/index 阅读全文

posted @ 2024-04-30 03:27 吴建明wujianming 阅读(57) 评论(0) 推荐(0)

2024年4月28日

华为NPU开发流程点滴

摘要：华为NPU开发流程点滴 NPU/CPU集成操作流程图介绍了App使用HUAWEI HiAI DDK的集成流程。 IR在线模型构建 IR在线模型构建通过IR单算子根据原始模型中的关系级联，配置权重数据，构建IR模型网络。离线模型转换离线模型转换需要将Caffe、TensorFlow、ONNX、Mi 阅读全文

posted @ 2024-04-28 03:43 吴建明wujianming 阅读(512) 评论(0) 推荐(0)

2024年4月27日

百度昆仑、华为NPU

摘要：百度昆仑、华为NPU 为智能计算而生的昆仑芯XPU架构昆仑芯科技团队于2017年在Hot Chips上发布自研的、面向通用AI计的芯片核心架构——昆仑芯XPU。集十余年AI加速研发实践，昆仑芯XPU从AI落地的实际需求出发，按照复杂前沿的人工智能场景需求开展迭代，致力为开发者提供通用、易用、高阅读全文

posted @ 2024-04-27 04:18 吴建明wujianming 阅读(1487) 评论(0) 推荐(0)

2024年4月26日

指令优化：基于大型语言模型的指令算子的进化多目标指令优化

摘要：指令优化：基于大型语言模型的指令算子的进化多目标指令优化摘要基于指令的语言建模在预训练的语言模型中受到了极大的关注。提出了一种指令优化方法，将指令生成视为一个进化的多目标优化问题，利用大型语言模型（LLM）来模拟指令运算符，包括变异和交叉。此外，为这些运算符引入了一种目标导向机制，使LLM能阅读全文

posted @ 2024-04-26 04:30 吴建明wujianming 阅读(317) 评论(0) 推荐(0)

2024年4月25日

Auto-Tuning 原理

摘要： Auto-Tuning 原理 9.8.1英伟达GPU卷积网络的自动调谐针对特定设备和工作负载的自动调谐对于获得最佳性能至关重要。本节描述如何为英伟达GPU调谐整个卷积网络。 TVM 中英伟达GPU 的运算符实现是以模板形式编写的。该模板有许多可调旋钮（平铺系数、展开等）。将调谐所有卷积和深度卷积运阅读全文

posted @ 2024-04-25 03:40 吴建明wujianming 阅读(249) 评论(0) 推荐(0)

2024年4月24日

通用目标近似程序的神经加速

摘要：通用目标近似程序的神经加速参考文献链接 https://homes.cs.washington.edu/~luisceze/publications/micro12-web.pdf 阅读全文

posted @ 2024-04-24 03:46 吴建明wujianming 阅读(21) 评论(0) 推荐(0)

2024年4月23日

MLIR中的可组合和模块化代码生成

摘要： MLIR中的可组合和模块化代码生成张量编译器结构的结构化可重定目标方法 7.1.1结构化与可重定目标代码生成流程用于数值计算的代码生成方法传统上侧重于优化循环嵌套的性能。相关分析侧重于标量元素，因为循环嵌套的主体通常计算单个元素。这样的分析必须考虑内存依赖性与重叠。这些方法在过去进行了深入研究，阅读全文

posted @ 2024-04-23 05:25 吴建明wujianming 阅读(205) 评论(0) 推荐(0)

2024年4月22日

TPU-MLIR快速入门

摘要： 12.1 TPU-MLIR快速入门 12.1.1 TPU-MLIR简介后文假定用户已经处于docker里面的/workspace目录。 1.编译ONNX模型以 yolov5s.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。该模型来自yolov5的官网: h 阅读全文

posted @ 2024-04-22 04:34 吴建明wujianming 阅读(376) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告