摘要:
编写或生成 SVE 代码由几种方法: 编写 SVE 汇编代码; 使用 SVE intrinsics 进行编程; 自动向量化; 使用 SVE 优化的库。 下面我们将详细介绍这四种方法。 1. 编写 SVE 汇编代码 我们可以在 C/C++ 代码中以内联汇编形式编写 SVE 指令,或在汇编源文件中编写完 阅读全文
摘要:
ARM 的 Neon、SVE 和 SME 架构都可以计算矩阵乘法,本篇博客将对比这三种架构。 本博客的编写参考了基于以下 ARM 社区文章: Part 1: Arm Scalable Matrix Extension (SME) Introduction Part 2: Arm Scalable M 阅读全文
摘要:
ARM SME 指令 与 SME ZA 存储交互的 SME 指令包括以下内容: 将两个向量的外积累加或减去到 ZA 矩阵分块的指令; 在 ZA 矩阵分块行/列与向量之间传输的 Load/Store/Move 指令; 将向量水平或垂直方向加到 ZA 矩阵分块的指令; 在流式 SVE 模式下将向量大小的 阅读全文