褚成志 - 博客园

[置顶] 通过一台服务器采集所有阿里云账单费用数据

摘要：

费用视图预览安装部署说明：示例 Linux 版本为：CentOS Linux release 7.8.2003 (Core) 通过一台服务器采集所有阿里云账单费用数据前置条件服务器 <安装 Datakit> 服务器 <安装 Func 携带版> 阿里云 RAM 访问控制账号授权 RAM 访阅读全文

posted @ 2025-10-21 15:51 褚成志阅读(41) 评论(0) 推荐(0)

[置顶] Kubernetes

摘要：

1、Kubernetes概念官网：https://kubernetes.io/zh/docs/home/ 简称K8s Kubernetes 是一个可移植、可扩展的开源平台，用于管理容器化的工作负载和服务，方便进行声明式配置和自动化。Kubernetes 拥有一个庞大且快速增长的生态系统，其服务、支阅读全文

posted @ 2025-10-21 15:14 褚成志阅读(116) 评论(0) 推荐(0)

[置顶] Linux性能分析、调优套路以及工具总结

摘要：分析性能问题从系统资源瓶颈的角度来说，USE 法是最为有效的方法，即从使用率、饱和度以及错误数这三个方面，来分析 CPU、内存、磁盘和文件系统 I/O、网络以及内核资源限制等各类软硬件资源。从应用程序瓶颈的角度来说，资源瓶颈跟系统资源瓶颈，本质是一样的。依赖服务瓶颈，你可以使用全链路跟踪系统阅读全文

posted @ 2025-10-12 21:45 褚成志阅读(348) 评论(0) 推荐(0)

[置顶] CPU分析和优化总结

摘要： CPU 性能指标 CPU 使用率用户 CPU 使用率，包括用户态 CPU 使用率（user）和低优先级用户态 CPU 使用率（nice），表示 CPU 在用户态运行的时间百分比。用户 CPU 使用率高，通常说明有应用程序比较繁忙。系统 CPU 使用率，表示 CPU 在内核态运行的时间百分比（不阅读全文

posted @ 2025-10-12 21:41 褚成志阅读(156) 评论(0) 推荐(0)

[置顶] iowait的CPU使用率升高-大量不可中断进程和僵尸进程

摘要：进程的不可中断状态是系统的一种保护机制，可以保证硬件的交互过程不被意外打断。所以，短时间的不可中断状态是很正常的。但是，当进程长时间都处于不可中断状态时，进程很可能因为得不到硬件的响应，而长时间处于不可中断状态。从 ps 或者 top 命令的输出中 D 状态，也就是不可中断状态（Uninter 阅读全文

posted @ 2025-10-12 21:41 褚成志阅读(128) 评论(0) 推荐(0)

[置顶] Linux虚拟内存、buffer、cache、缓存命中率、缓存文件大小

摘要：

物理内存也称为主存，大多数计算机用的主存都是动态随机访问内存（DRAM）。只有内核才可以直接访问物理内存。虚拟内存 Linux 内核给每个进程都提供了一个独立的虚拟地址空间，并且这个地址空间是连续的。进程就可以很方便访问虚拟内存。虚拟地址空间的内部又被分为内核空间和用户空间两部分，不同字长（也就阅读全文

posted @ 2025-10-12 21:25 褚成志阅读(273) 评论(0) 推荐(0)

[置顶] 存储器

摘要：存储器的类型有哪些？随机存储器（random access memory，RAM）：RAM是易失性存储器静态随机存储器（SRAM）。静态RAM只要电源供电不断就可以维持所需要的数据。动态随机存储器（DRAM）。动态RAM由一个小电容构成，因为电容会泄露电荷，因此每隔几毫秒就需要为DRAM充电，阅读全文

posted @ 2025-10-12 19:21 褚成志阅读(187) 评论(0) 推荐(0)

昇腾超节点交付方案

摘要：目录项目概述系统架构设计详细实施方案软件栈部署指南性能验收标准运维与保障体系项目进度计划风险管理 1. 项目概述 1.1 项目背景超节点架构已成为AI基础设施建设的业界共识和主流选择。面对大模型从生成式AI向Agentic AI演进的趋势，MoE架构、百万级序列长度、多Agent调阅读全文

posted @ 2026-05-23 10:11 褚成志阅读(86) 评论(0) 推荐(0)

昇腾部署DeepSeek方案

摘要：本博客详细介绍了在华为昇腾（Ascend）NPU上部署 DeepSeek 大模型的完整流程，涵盖环境准备、驱动安装、框架配置、模型下载与转换、推理部署、性能调优及常见问题排查等内容。目录概述硬件与平台选型环境准备软件栈详解模型权重获取权重格式转换部署方案一：MindIE 原生部署部阅读全文

posted @ 2026-05-17 16:44 褚成志阅读(628) 评论(0) 推荐(0)

昇腾应用部署实践

摘要：部署场景概览昇腾平台支持多种部署场景：场景硬件典型产品特点云端推理 Ascend 310P/910 Atlas 300I 高吞吐，低延迟边缘推理 Ascend 310 Atlas 200 DK 低功耗，小体积端侧推理麒麟 NPU 华为手机极低功耗云端训练 Ascend 910B 阅读全文

posted @ 2026-05-17 16:27 褚成志阅读(38) 评论(0) 推荐(0)

昇腾性能分析工具体系

摘要：性能分析工具体系 CANN 提供了完整的性能分析工具链，帮助开发者定位性能瓶颈： ┌─────────────────────────────────────────────────────────┐ │ 性能分析工具体系 │ │ │ │ npu-smi ── 实时硬件监控（类 nvidia-smi 阅读全文

posted @ 2026-05-17 16:26 褚成志阅读(58) 评论(0) 推荐(0)

昇腾AOE调优引擎

摘要： AOE 概述 AOE（Ascend Optimization Engine）是 CANN 提供的自动化性能调优引擎，通过搜索最优的算子执行参数（如 Tiling 策略）来提升模型性能，无需开发者手动调优。 AOE 支持三种调优模式：模式全称调优对象典型收益 OPAT Operator Aut 阅读全文

posted @ 2026-05-17 16:26 褚成志阅读(38) 评论(0) 推荐(0)

MindSpore 与 PyTorch 在昇腾上的开发

摘要： MindSpore 概述 MindSpore 是华为自研的 AI 框架，与昇腾硬件深度协同优化，是 CANN 生态的原生框架。 MindSpore 核心特性：原生支持昇腾硬件，无需额外适配插件静态图（Graph Mode）和动态图（PyNative Mode）双模式自动微分、自动并行与 CA 阅读全文

posted @ 2026-05-17 16:25 褚成志阅读(61) 评论(0) 推荐(0)

昇腾框架适配层

摘要： Framework Adaptor 概述 Framework Adaptor 是 CANN 软件栈中连接上层 AI 框架与底层 CANN 运行时的适配层。它将框架的计算图和算子调用转换为 CANN 的内部表示，使 PyTorch、TensorFlow、MindSpore 等框架能够无缝运行在昇腾硬件阅读全文

posted @ 2026-05-17 16:23 褚成志阅读(47) 评论(0) 推荐(0)

昇腾分布式训练策略

摘要：分布式训练概述大模型训练需要将计算分布到多个 NPU 上，主要有三种并行策略： ┌─────────────────────────────────────────────────────────┐ │ 并行策略 │ │ │ │ 数据并行（DP）模型并行（MP）流水线并行（PP） │ │ 每卡阅读全文

posted @ 2026-05-17 16:22 褚成志阅读(19) 评论(0) 推荐(0)

昇腾HCCL集合通信库

摘要： HCCL 概述 HCCL（Huawei Collective Communication Library）是 CANN 提供的高性能集合通信库，专为昇腾 AI 处理器的分布式训练场景设计，是昇腾生态中对应 NVIDIA NCCL 的组件。核心特性：支持 12 种集合通信原语拓扑感知的通信算法选阅读全文

posted @ 2026-05-17 16:22 褚成志阅读(89) 评论(0) 推荐(0)

昇腾ATC模型转换工具

摘要： ATC 概述 ATC（Ascend Tensor Compiler）是 CANN 提供的离线模型转换工具，将主流 AI 框架的模型文件转换为昇腾硬件可执行的 .om（Offline Model）格式。转换过程中 ATC 完成：图优化（算子融合、常量折叠等）算子编译（生成 AI Core 二进制阅读全文

posted @ 2026-05-17 16:21 褚成志阅读(115) 评论(0) 推荐(0)

昇腾GE图引擎

摘要： GE 概述 GE（Graph Engine）是 CANN 的核心图处理引擎，负责接收来自 AI 框架的计算图，执行一系列优化，并将其编译为昇腾硬件可执行的格式。 AI 框架（PyTorch/MindSpore/TF） ↓ 导出计算图（IR） GE 图引擎 ├── 图优化（Graph Optimiza 阅读全文

posted @ 2026-05-17 16:20 褚成志阅读(24) 评论(0) 推荐(0)

Ascend C 新一代算子编程语言

摘要： Ascend C 概述 Ascend C 是华为推出的新一代昇腾算子编程语言，基于标准 C++ 语法扩展，是 TBE TIK 的官方替代方案。核心优势：标准 C++ 语法，学习曲线低支持 CPU 侧仿真调试，无需真实硬件编译器自动优化，性能接近手写汇编与 Triton/TileLang 等阅读全文

posted @ 2026-05-17 16:19 褚成志阅读(36) 评论(0) 推荐(0)

昇腾TBE张量加速引擎

摘要： TBE 概述 TBE（Tensor Boost Engine）是 CANN 的算子开发框架，提供两种开发模式：模式语言特点适用场景 DSL 模式 Python 声明式，自动调度规则算子，快速开发 TIK 模式 Python 命令式，手动控制复杂算子，性能优先 TBE TIK 模式已被 A 阅读全文

posted @ 2026-05-17 16:17 褚成志阅读(22) 评论(0) 推荐(0)

昇腾算子开发体系

摘要：什么是算子在深度学习框架中，算子（Operator）是计算图的基本执行单元，对应一种数学运算（如矩阵乘法、卷积、激活函数等）。在昇腾平台上，算子分为两类：类型执行单元适用场景 AI Core 算子达芬奇 AI Core 矩阵/向量密集计算（卷积、GEMM、激活等） AI CPU 算子阅读全文

posted @ 2026-05-17 16:17 褚成志阅读(56) 评论(0) 推荐(0)

昇腾模型推理与DVPP媒体处理

摘要：模型管理 API 模型加载方式 CANN 支持三种模型加载方式： // 方式一：从文件加载（最常用） uint32_t modelId; aclmdlLoadFromFile("model.om", &modelId); // 方式二：从内存加载（适合嵌入式场景） void* modelData; 阅读全文

posted @ 2026-05-17 16:16 褚成志阅读(25) 评论(0) 推荐(0)

昇腾核心开发接口

摘要： AscendCL（Ascend Computing Language）是 CANN 提供给应用开发者的核心 C/C++ API 库。它封装了底层硬件细节，提供统一的编程接口，是开发昇腾 AI 应用的主要入口。 AscendCL 的核心能力：设备/上下文/流管理内存管理与数据传输模型加载与推理执阅读全文

posted @ 2026-05-17 16:13 褚成志阅读(36) 评论(0) 推荐(0)

昇腾内存管理

摘要：内存模型概述昇腾平台的内存管理是 CANN 开发中最需要深入理解的部分之一。与 CPU 编程不同，昇腾平台存在明确的 Host（主机）和 Device（设备）内存空间分离。 ┌─────────────────────────────────────────────────────────┐ │ 阅读全文

posted @ 2026-05-17 16:13 褚成志阅读(70) 评论(0) 推荐(0)

昇腾驱动层与Runtime运行时

摘要： NPU 驱动架构昇腾 NPU 驱动是 CANN 软件栈的最底层，负责操作系统与硬件之间的交互。 ┌─────────────────────────────────────────────────────┐ │ 用户态应用 │ ├────────────────────────────────── 阅读全文

posted @ 2026-05-17 16:12 褚成志阅读(54) 评论(0) 推荐(0)

昇腾软件栈全景

摘要：软件栈整体架构 CANN 软件栈是连接上层 AI 框架与底层昇腾硬件的完整软件体系。理解其分层结构是掌握 CANN 开发的基础。 ┌──────────────────────────────────────────────────────────────┐ │ 用户应用层 │ │ AI 推理服务阅读全文

posted @ 2026-05-17 16:11 褚成志阅读(62) 评论(0) 推荐(0)

达芬奇架构

摘要：达芬奇架构概述达芬奇（DaVinci）架构是华为为昇腾 AI 处理器设计的专用 AI 计算架构，从第一代（Ascend 310/910）到最新一代持续演进。其核心设计哲学是：以矩阵计算为中心，向量和标量计算为辅助，通过精细的数据流管理最大化计算效率。 AI Core 内部微架构 ┌──────── 阅读全文

posted @ 2026-05-17 16:09 褚成志阅读(144) 评论(0) 推荐(0)

昇腾 AI 处理器硬件体系

摘要：昇腾芯片家族华为昇腾（Ascend）系列 AI 处理器是 CANN 生态的硬件基础。按照应用场景分为推理芯片和训练芯片两大系列。主要芯片型号芯片型号定位算力（FP16）典型产品 Ascend 310 边缘推理 16 TOPS Atlas 200 DK Ascend 310P 边缘推理增强阅读全文

posted @ 2026-05-17 16:08 褚成志阅读(175) 评论(0) 推荐(0)

昇腾生态全景概览

摘要：什么是 CANN CANN（Compute Architecture for Neural Networks）是华为面向 AI 场景打造的异构计算架构，定位是昇腾 AI 处理器的软件使能平台，相当于昇腾生态中的"CUDA"。 CANN 于 2018 年随昇腾芯片一同发布，2025 年宣布全栈开源，标阅读全文

posted @ 2026-05-17 16:07 褚成志阅读(61) 评论(0) 推荐(0)

CUDA 内存层次结构

摘要：内存优化�?CUDA 性能调优中最重要的一环。理解各级内存的容量、延迟、带宽和使用方式，是写出高性能 Kernel 的关键�? 内存层次总览线程私有 Block 共享全局共享 ───────── ────────── ────────── 寄存�?(Register) 共享内存 (Shared 阅读全文

posted @ 2026-05-17 16:03 褚成志阅读(41) 评论(0) 推荐(0)

CUDA基础

摘要： CUDA C/C++ 是在标准 C/C++ 基础上扩展的并行编程语言，通过 nvcc 编译器将 GPU 代码编译�?PTX �?SASS 指令�? 开发环境与编译 nvcc 编译�? # 编译单个文件 nvcc -o my_program my_kernel.cu # 指定 GPU 架构（推荐显式指阅读全文

posted @ 2026-05-17 16:01 褚成志阅读(22) 评论(0) 推荐(0)

GPU 互联架构

摘要：节点内互联（NVLink） NVLink 技术演进版本产品带宽（双向/GPU对）拓扑 NVLink 1.0 P100 160 GB/s 部分互联 NVLink 2.0 V100 300 GB/s 全互联（NVSwitch） NVLink 3.0 A100 600 GB/s 全互联（NVSwi 阅读全文

posted @ 2026-05-17 15:57 褚成志阅读(71) 评论(0) 推荐(0)