MKY-门可意 - 博客园

2025年3月30日

摘要： 1. 引言：Transformer中的Attention计算与GPU内存瓶颈 Transformer模型在自然语言处理、计算机视觉等领域取得了巨大的成功。其核心机制之一就是自注意力（Self-Attention）。简单来说，Attention机制允许模型在处理序列数据时，为不同的位置赋予不同的权重，阅读全文

posted @ 2025-03-30 11:16 MKY-门可意阅读(1385) 评论(0) 推荐(0)

2025年3月29日

cuda编程入门

摘要： CUDA 入门编程示例: 本文将通过几个简单的 CUDA 编程示例，带你初步了解 CUDA 的基本概念和编程流程。这些示例都附带了详细的解释，希望能帮助你快速入门 CUDA 开发。 1. 第一个 CUDA 核函数：Hello GPU! 让我们从一个最简单的 CUDA 程序开始，这个程序将在 GPU 阅读全文

posted @ 2025-03-29 19:50 MKY-门可意阅读(551) 评论(0) 推荐(0)

2025年3月25日

NVIDIA Nsight Systems (nsys) 工具使用

摘要：工具详解: 在追求卓越性能的软件开发过程中，理解应用程序在整个系统中的行为至关重要。NVIDIA Nsight Systems (nsys) 正是一款为此而生的强大工具。它能够帮助开发者深入了解应用程序在 CPU、GPU 和网络通信等各个层面的运行情况，从而有效地识别性能瓶颈并进行优化。本文将带你认阅读全文

posted @ 2025-03-25 16:21 MKY-门可意阅读(3595) 评论(0) 推荐(0)

2025年3月18日

PD分离与EP分离技术

摘要：一、Prefill与Decode的底层原理剖析 1.1 Prefill阶段的数学本质（以Transformer架构为例）计算密集型的核心原因： # 自注意力计算伪代码 Q = X @ W_Q # [batch, seq_len, d_model] → [batch, seq_len, d_k] 阅读全文

posted @ 2025-03-18 13:17 MKY-门可意阅读(3632) 评论(0) 推荐(0)

2025年3月14日

简单的栈操作与函数调用

摘要：汇编语言基础：编码风格、栈操作与函数调用汇编语言是计算机底层的编程语言，直接与硬件交互。掌握汇编语言不仅有助于理解程序的运行机制，还能优化性能。本文将介绍汇编语言的编码风格、栈操作以及函数调用的实现，并通过示例代码详细解析。汇编编码风格汇编语言主要有以下几种编码风格： 1. Intel 风格阅读全文

posted @ 2025-03-14 22:46 MKY-门可意阅读(58) 评论(0) 推荐(0)

2025年3月12日

浅析LLM推理过程

摘要： 1. LLM 推理阶段概述： Prefill 阶段（预填充）：此阶段是 LLM 推理的初始阶段，负责处理输入的提示（prompt）。其主要任务是将输入的文本转换为模型可以理解的内部表示，即 Key/Value (KV) 缓存。 Prefill 阶段的计算量通常较大，尤其是在处理长提示时。 Dec 阅读全文

posted @ 2025-03-12 16:32 MKY-门可意阅读(2698) 评论(0) 推荐(0)

2025年3月1日

昇腾910b多机部署deepseek-r1全攻略

摘要：环境准备硬件配置节点信息： node01: 10.197.61.1, 8 NPU node02: 10.197.61.2, 8 NPU 内存：773GB 操作系统操作系统可以是openeuler或者ubuntu,安装包环境基本一致 CULinux Enterprise Edition rele 阅读全文

posted @ 2025-03-01 18:54 MKY-门可意阅读(4168) 评论(7) 推荐(0)

2025年2月19日

pigz 并行压缩打包

摘要： ### 快速上手多线程压缩：用 `tar` 直接调用 `pigz` 如果你在压缩大文件或目录时感到速度太慢，可以尝试将 `tar` 与 `pigz` 结合，并通过**指定多线程参数**大幅提升效率。以下是直接使用 `tar` 命令调用 `pigz` 的极简教程，包含实际性能优化的参数组合。示例命令阅读全文

posted @ 2025-02-19 11:58 MKY-门可意阅读(598) 评论(0) 推荐(0)

2025年2月10日

vLLM 部署DeepSeek-R1

摘要：一、硬件与系统环境要求 1.1 硬件配置 GPU: 8× NVIDIA A100 80GB (PCIe) 显存要求: 每卡80GB，8卡总显存640GB 系统内存: ≥32GB (用于交换空间) 1.2 软件环境操作系统: Linux（验证环境发行版 Ubuntu 22.04 LTS）驱动版本: 阅读全文

posted @ 2025-02-10 08:18 MKY-门可意阅读(16152) 评论(0) 推荐(4)

2025年1月23日

SIFT+RANSAC特征提取解析

摘要： 1. 传统检测方法的困境 1.1 滑动窗口 + HOG：机械化搜索的局限性想象你在一间堆满杂物的仓库中寻找一把特定的钥匙。滑动窗口方法就像用固定大小的盒子（例如100×100像素）逐行逐列扫描整个仓库，每次检查盒子内的物品是否与钥匙匹配。其核心步骤如下：特征提取：对每个窗口内的图像计算HOG特征阅读全文

posted @ 2025-01-23 20:15 MKY-门可意阅读(156) 评论(0) 推荐(0)

公告