摘要: 1. 引言:Transformer中的Attention计算与GPU内存瓶颈 Transformer模型在自然语言处理、计算机视觉等领域取得了巨大的成功。其核心机制之一就是自注意力(Self-Attention)。简单来说,Attention机制允许模型在处理序列数据时,为不同的位置赋予不同的权重, 阅读全文
posted @ 2025-03-30 11:16 MKY-门可意 阅读(1375) 评论(0) 推荐(0)
摘要: CUDA 入门编程示例: 本文将通过几个简单的 CUDA 编程示例,带你初步了解 CUDA 的基本概念和编程流程。这些示例都附带了详细的解释,希望能帮助你快速入门 CUDA 开发。 1. 第一个 CUDA 核函数:Hello GPU! 让我们从一个最简单的 CUDA 程序开始,这个程序将在 GPU 阅读全文
posted @ 2025-03-29 19:50 MKY-门可意 阅读(546) 评论(0) 推荐(0)
摘要: 工具详解: 在追求卓越性能的软件开发过程中,理解应用程序在整个系统中的行为至关重要。NVIDIA Nsight Systems (nsys) 正是一款为此而生的强大工具。它能够帮助开发者深入了解应用程序在 CPU、GPU 和网络通信等各个层面的运行情况,从而有效地识别性能瓶颈并进行优化。本文将带你认 阅读全文
posted @ 2025-03-25 16:21 MKY-门可意 阅读(3586) 评论(0) 推荐(0)
摘要: 一、Prefill与Decode的底层原理剖析 1.1 Prefill阶段的数学本质 (以Transformer架构为例) 计算密集型的核心原因: # 自注意力计算伪代码 Q = X @ W_Q # [batch, seq_len, d_model] → [batch, seq_len, d_k] 阅读全文
posted @ 2025-03-18 13:17 MKY-门可意 阅读(3620) 评论(0) 推荐(0)
摘要: 汇编语言基础:编码风格、栈操作与函数调用 汇编语言是计算机底层的编程语言,直接与硬件交互。掌握汇编语言不仅有助于理解程序的运行机制,还能优化性能。本文将介绍汇编语言的编码风格、栈操作以及函数调用的实现,并通过示例代码详细解析。 汇编编码风格 汇编语言主要有以下几种编码风格: 1. Intel 风格 阅读全文
posted @ 2025-03-14 22:46 MKY-门可意 阅读(58) 评论(0) 推荐(0)
摘要: 1. LLM 推理阶段概述: Prefill 阶段(预填充): 此阶段是 LLM 推理的初始阶段,负责处理输入的提示(prompt)。 其主要任务是将输入的文本转换为模型可以理解的内部表示,即 Key/Value (KV) 缓存。 Prefill 阶段的计算量通常较大,尤其是在处理长提示时。 Dec 阅读全文
posted @ 2025-03-12 16:32 MKY-门可意 阅读(2691) 评论(0) 推荐(0)
摘要: 环境准备 硬件配置 节点信息: node01: 10.197.61.1, 8 NPU node02: 10.197.61.2, 8 NPU 内存:773GB 操作系统 操作系统可以是openeuler或者ubuntu,安装包环境基本一致 CULinux Enterprise Edition rele 阅读全文
posted @ 2025-03-01 18:54 MKY-门可意 阅读(4165) 评论(7) 推荐(0)
摘要: ### 快速上手多线程压缩:用 `tar` 直接调用 `pigz` 如果你在压缩大文件或目录时感到速度太慢,可以尝试将 `tar` 与 `pigz` 结合,并通过**指定多线程参数**大幅提升效率。以下是直接使用 `tar` 命令调用 `pigz` 的极简教程,包含实际性能优化的参数组合。 示例命令 阅读全文
posted @ 2025-02-19 11:58 MKY-门可意 阅读(596) 评论(0) 推荐(0)
摘要: 一、硬件与系统环境要求 1.1 硬件配置 GPU: 8× NVIDIA A100 80GB (PCIe) 显存要求: 每卡80GB,8卡总显存640GB 系统内存: ≥32GB (用于交换空间) 1.2 软件环境 操作系统: Linux(验证环境发行版 Ubuntu 22.04 LTS) 驱动版本: 阅读全文
posted @ 2025-02-10 08:18 MKY-门可意 阅读(16150) 评论(0) 推荐(4)
摘要: 1. 传统检测方法的困境 1.1 滑动窗口 + HOG:机械化搜索的局限性 想象你在一间堆满杂物的仓库中寻找一把特定的钥匙。滑动窗口方法就像用固定大小的盒子(例如100×100像素)逐行逐列扫描整个仓库,每次检查盒子内的物品是否与钥匙匹配。其核心步骤如下: 特征提取:对每个窗口内的图像计算HOG特征 阅读全文
posted @ 2025-01-23 20:15 MKY-门可意 阅读(156) 评论(0) 推荐(0)