[置顶] 通过一台服务器采集所有阿里云账单费用数据

摘要: 通过一台服务器采集所有阿里云账单费用数据 费用 视图预览 安装部署 说明: 示例 Linux 版本为:CentOS Linux release 7.8.2003 (Core) 通过一台服务器采集所有阿里云账单费用数据 前置条件 服务器 <安装 Datakit> 服务器 <安装 Func 携带版> 阿里云 RAM 访问控制账号授权 RAM 访 阅读全文

posted @ 2025-10-21 15:51 褚成志 阅读(35) 评论(0) 推荐(0)

[置顶] Kubernetes

摘要: Kubernetes 1、Kubernetes概念 官网:https://kubernetes.io/zh/docs/home/ 简称K8s Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,方便进行声明式配置和自动化。Kubernetes 拥有一个庞大且快速增长的生态系统,其服务、支 阅读全文

posted @ 2025-10-21 15:14 褚成志 阅读(106) 评论(0) 推荐(0)

[置顶] Linux性能分析、调优套路以及工具总结

摘要: 分析性能问题 从系统资源瓶颈的角度来说,USE 法是最为有效的方法,即从使用率、饱和度以及错误数 这三个方面,来分析 CPU、内存、磁盘和文件系统 I/O、网络以及内核资源限制等各类软 硬件资源。 从应用程序瓶颈的角度来说,资源瓶颈跟系统资源瓶颈,本质是一样的。依赖服务瓶颈,你可以使用全链路跟踪系统 阅读全文

posted @ 2025-10-12 21:45 褚成志 阅读(233) 评论(0) 推荐(0)

[置顶] CPU分析和优化总结

摘要: CPU 性能指标 CPU 使用率 用户 CPU 使用率,包括用户态 CPU 使用率(user)和低优先级用户态 CPU 使用率 (nice),表示 CPU 在用户态运行的时间百分比。用户 CPU 使用率高,通常说明有应用程序比较繁忙。 系统 CPU 使用率,表示 CPU 在内核态运行的时间百分比(不 阅读全文

posted @ 2025-10-12 21:41 褚成志 阅读(145) 评论(0) 推荐(0)

[置顶] iowait的CPU使用率升高-大量不可中断进程和僵尸进程

摘要: 进程的不可中断状态是系统的一种保护机制,可以 保证硬件的交互过程不被意外打断。所以,短时间的不可中断状态是很正常的。但是,当进程长时间都处于不可中断状态时,进程很可能因为得不到硬件的响应,而长时间处于不可中断状态。 从 ps 或者 top 命令的输出中 D 状态,也就是不可中断状态 (Uninter 阅读全文

posted @ 2025-10-12 21:41 褚成志 阅读(117) 评论(0) 推荐(0)

[置顶] Linux虚拟内存、buffer、cache、缓存命中率、缓存文件大小

摘要: Linux虚拟内存、buffer、cache、缓存命中率、缓存文件大小 物理内存也称 为主存,大多数计算机用的主存都是动态随机访问内存(DRAM)。只有内核才可以直接访问物理内存。 虚拟内存 Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。进程就可以很方便访问虚拟内存。虚拟地址空间的内部又被分为内核空间和用户空间两部分,不同字长(也就 阅读全文

posted @ 2025-10-12 21:25 褚成志 阅读(257) 评论(0) 推荐(0)

[置顶] 存储器

摘要: 存储器的类型有哪些? 随机存储器(random access memory,RAM):RAM是易失性存储器 静态随机存储器(SRAM)。静态RAM只要电源供电不断就可以维持所需要的数据。 动态随机存储器(DRAM)。动态RAM由一个小电容构成,因为电容会泄露电荷,因此每隔几毫秒就需要为DRAM充电, 阅读全文

posted @ 2025-10-12 19:21 褚成志 阅读(165) 评论(0) 推荐(0)

2026年5月23日

昇腾超节点交付方案

摘要: 目录 项目概述 系统架构设计 详细实施方案 软件栈部署指南 性能验收标准 运维与保障体系 项目进度计划 风险管理 1. 项目概述 1.1 项目背景 超节点架构已成为AI基础设施建设的业界共识和主流选择。面对大模型从生成式AI向Agentic AI演进的趋势,MoE架构、百万级序列长度、多Agent调 阅读全文

posted @ 2026-05-23 10:11 褚成志 阅读(12) 评论(0) 推荐(0)

2026年5月17日

昇腾部署DeepSeek方案

摘要: 本博客详细介绍了在华为昇腾(Ascend)NPU上部署 DeepSeek 大模型的完整流程,涵盖环境准备、驱动安装、框架配置、模型下载与转换、推理部署、性能调优及常见问题排查等内容。 目录 概述 硬件与平台选型 环境准备 软件栈详解 模型权重获取 权重格式转换 部署方案一:MindIE 原生部署 部 阅读全文

posted @ 2026-05-17 16:44 褚成志 阅读(150) 评论(0) 推荐(0)

昇腾应用部署实践

摘要: 部署场景概览 昇腾平台支持多种部署场景: 场景 硬件 典型产品 特点 云端推理 Ascend 310P/910 Atlas 300I 高吞吐,低延迟 边缘推理 Ascend 310 Atlas 200 DK 低功耗,小体积 端侧推理 麒麟 NPU 华为手机 极低功耗 云端训练 Ascend 910B 阅读全文

posted @ 2026-05-17 16:27 褚成志 阅读(15) 评论(0) 推荐(0)

昇腾性能分析工具体系

摘要: 性能分析工具体系 CANN 提供了完整的性能分析工具链,帮助开发者定位性能瓶颈: ┌─────────────────────────────────────────────────────────┐ │ 性能分析工具体系 │ │ │ │ npu-smi ── 实时硬件监控(类 nvidia-smi 阅读全文

posted @ 2026-05-17 16:26 褚成志 阅读(23) 评论(0) 推荐(0)

昇腾AOE调优引擎

摘要: AOE 概述 AOE(Ascend Optimization Engine)是 CANN 提供的自动化性能调优引擎,通过搜索最优的算子执行参数(如 Tiling 策略)来提升模型性能,无需开发者手动调优。 AOE 支持三种调优模式: 模式 全称 调优对象 典型收益 OPAT Operator Aut 阅读全文

posted @ 2026-05-17 16:26 褚成志 阅读(9) 评论(0) 推荐(0)

MindSpore 与 PyTorch 在昇腾上的开发

摘要: MindSpore 概述 MindSpore 是华为自研的 AI 框架,与昇腾硬件深度协同优化,是 CANN 生态的原生框架。 MindSpore 核心特性: 原生支持昇腾硬件,无需额外适配插件 静态图(Graph Mode)和动态图(PyNative Mode)双模式 自动微分、自动并行 与 CA 阅读全文

posted @ 2026-05-17 16:25 褚成志 阅读(18) 评论(0) 推荐(0)

昇腾框架适配层

摘要: Framework Adaptor 概述 Framework Adaptor 是 CANN 软件栈中连接上层 AI 框架与底层 CANN 运行时的适配层。它将框架的计算图和算子调用转换为 CANN 的内部表示,使 PyTorch、TensorFlow、MindSpore 等框架能够无缝运行在昇腾硬件 阅读全文

posted @ 2026-05-17 16:23 褚成志 阅读(17) 评论(0) 推荐(0)

昇腾分布式训练策略

摘要: 分布式训练概述 大模型训练需要将计算分布到多个 NPU 上,主要有三种并行策略: ┌─────────────────────────────────────────────────────────┐ │ 并行策略 │ │ │ │ 数据并行(DP) 模型并行(MP) 流水线并行(PP) │ │ 每卡 阅读全文

posted @ 2026-05-17 16:22 褚成志 阅读(9) 评论(0) 推荐(0)

昇腾HCCL集合通信库

摘要: HCCL 概述 HCCL(Huawei Collective Communication Library)是 CANN 提供的高性能集合通信库,专为昇腾 AI 处理器的分布式训练场景设计,是昇腾生态中对应 NVIDIA NCCL 的组件。 核心特性: 支持 12 种集合通信原语 拓扑感知的通信算法选 阅读全文

posted @ 2026-05-17 16:22 褚成志 阅读(32) 评论(0) 推荐(0)

昇腾ATC模型转换工具

摘要: ATC 概述 ATC(Ascend Tensor Compiler)是 CANN 提供的离线模型转换工具,将主流 AI 框架的模型文件转换为昇腾硬件可执行的 .om(Offline Model)格式。 转换过程中 ATC 完成: 图优化(算子融合、常量折叠等) 算子编译(生成 AI Core 二进制 阅读全文

posted @ 2026-05-17 16:21 褚成志 阅读(24) 评论(0) 推荐(0)

昇腾GE图引擎

摘要: GE 概述 GE(Graph Engine)是 CANN 的核心图处理引擎,负责接收来自 AI 框架的计算图,执行一系列优化,并将其编译为昇腾硬件可执行的格式。 AI 框架(PyTorch/MindSpore/TF) ↓ 导出计算图(IR) GE 图引擎 ├── 图优化(Graph Optimiza 阅读全文

posted @ 2026-05-17 16:20 褚成志 阅读(11) 评论(0) 推荐(0)

Ascend C 新一代算子编程语言

摘要: Ascend C 概述 Ascend C 是华为推出的新一代昇腾算子编程语言,基于标准 C++ 语法扩展,是 TBE TIK 的官方替代方案。 核心优势: 标准 C++ 语法,学习曲线低 支持 CPU 侧仿真调试,无需真实硬件 编译器自动优化,性能接近手写汇编 与 Triton/TileLang 等 阅读全文

posted @ 2026-05-17 16:19 褚成志 阅读(11) 评论(0) 推荐(0)

昇腾TBE张量加速引擎

摘要: TBE 概述 TBE(Tensor Boost Engine)是 CANN 的算子开发框架,提供两种开发模式: 模式 语言 特点 适用场景 DSL 模式 Python 声明式,自动调度 规则算子,快速开发 TIK 模式 Python 命令式,手动控制 复杂算子,性能优先 TBE TIK 模式已被 A 阅读全文

posted @ 2026-05-17 16:17 褚成志 阅读(7) 评论(0) 推荐(0)

昇腾算子开发体系

摘要: 什么是算子 在深度学习框架中,算子(Operator) 是计算图的基本执行单元,对应一种数学运算(如矩阵乘法、卷积、激活函数等)。 在昇腾平台上,算子分为两类: 类型 执行单元 适用场景 AI Core 算子 达芬奇 AI Core 矩阵/向量密集计算(卷积、GEMM、激活等) AI CPU 算子 阅读全文

posted @ 2026-05-17 16:17 褚成志 阅读(21) 评论(0) 推荐(0)

昇腾模型推理与DVPP媒体处理

摘要: 模型管理 API 模型加载方式 CANN 支持三种模型加载方式: // 方式一:从文件加载(最常用) uint32_t modelId; aclmdlLoadFromFile("model.om", &modelId); // 方式二:从内存加载(适合嵌入式场景) void* modelData; 阅读全文

posted @ 2026-05-17 16:16 褚成志 阅读(12) 评论(0) 推荐(0)

昇腾核心开发接口

摘要: AscendCL(Ascend Computing Language)是 CANN 提供给应用开发者的核心 C/C++ API 库。它封装了底层硬件细节,提供统一的编程接口,是开发昇腾 AI 应用的主要入口。 AscendCL 的核心能力: 设备/上下文/流管理 内存管理与数据传输 模型加载与推理执 阅读全文

posted @ 2026-05-17 16:13 褚成志 阅读(15) 评论(0) 推荐(0)

昇腾内存管理

摘要: 内存模型概述 昇腾平台的内存管理是 CANN 开发中最需要深入理解的部分之一。与 CPU 编程不同,昇腾平台存在明确的 Host(主机)和 Device(设备)内存空间分离。 ┌─────────────────────────────────────────────────────────┐ │ 阅读全文

posted @ 2026-05-17 16:13 褚成志 阅读(26) 评论(0) 推荐(0)

昇腾驱动层与Runtime运行时

摘要: NPU 驱动架构 昇腾 NPU 驱动是 CANN 软件栈的最底层,负责操作系统与硬件之间的交互。 ┌─────────────────────────────────────────────────────┐ │ 用户态应用 │ ├────────────────────────────────── 阅读全文

posted @ 2026-05-17 16:12 褚成志 阅读(12) 评论(0) 推荐(0)

昇腾软件栈全景

摘要: 软件栈整体架构 CANN 软件栈是连接上层 AI 框架与底层昇腾硬件的完整软件体系。理解其分层结构是掌握 CANN 开发的基础。 ┌──────────────────────────────────────────────────────────────┐ │ 用户应用层 │ │ AI 推理服务 阅读全文

posted @ 2026-05-17 16:11 褚成志 阅读(20) 评论(0) 推荐(0)

达芬奇架构

摘要: 达芬奇架构概述 达芬奇(DaVinci)架构是华为为昇腾 AI 处理器设计的专用 AI 计算架构,从第一代(Ascend 310/910)到最新一代持续演进。其核心设计哲学是:以矩阵计算为中心,向量和标量计算为辅助,通过精细的数据流管理最大化计算效率。 AI Core 内部微架构 ┌──────── 阅读全文

posted @ 2026-05-17 16:09 褚成志 阅读(43) 评论(0) 推荐(0)

昇腾 AI 处理器硬件体系

摘要: 昇腾芯片家族 华为昇腾(Ascend)系列 AI 处理器是 CANN 生态的硬件基础。按照应用场景分为推理芯片和训练芯片两大系列。 主要芯片型号 芯片型号 定位 算力(FP16) 典型产品 Ascend 310 边缘推理 16 TOPS Atlas 200 DK Ascend 310P 边缘推理增强 阅读全文

posted @ 2026-05-17 16:08 褚成志 阅读(47) 评论(0) 推荐(0)

昇腾生态全景概览

摘要: 什么是 CANN CANN(Compute Architecture for Neural Networks)是华为面向 AI 场景打造的异构计算架构,定位是昇腾 AI 处理器的软件使能平台,相当于昇腾生态中的"CUDA"。 CANN 于 2018 年随昇腾芯片一同发布,2025 年宣布全栈开源,标 阅读全文

posted @ 2026-05-17 16:07 褚成志 阅读(21) 评论(0) 推荐(0)

CUDA 内存层次结构

摘要: 内存优化�?CUDA 性能调优中最重要的一环。理解各级内存的容量、延迟、带宽和使用方式,是写出高性能 Kernel 的关键�? 内存层次总览 线程私有 Block 共享 全局共享 ───────── ────────── ────────── 寄存�?(Register) 共享内存 (Shared 阅读全文

posted @ 2026-05-17 16:03 褚成志 阅读(13) 评论(0) 推荐(0)

CUDA基础

摘要: CUDA C/C++ 是在标准 C/C++ 基础上扩展的并行编程语言,通过 nvcc 编译器将 GPU 代码编译�?PTX �?SASS 指令�? 开发环境与编译 nvcc 编译�? # 编译单个文件 nvcc -o my_program my_kernel.cu # 指定 GPU 架构(推荐显式指 阅读全文

posted @ 2026-05-17 16:01 褚成志 阅读(10) 评论(0) 推荐(0)

GPU 互联架构

摘要: 节点内互联(NVLink) NVLink 技术演进 版本 产品 带宽(双向/GPU对) 拓扑 NVLink 1.0 P100 160 GB/s 部分互联 NVLink 2.0 V100 300 GB/s 全互联(NVSwitch) NVLink 3.0 A100 600 GB/s 全互联(NVSwi 阅读全文

posted @ 2026-05-17 15:57 褚成志 阅读(20) 评论(0) 推荐(0)

导航

杭州技术博主,专注分享云计算领域实战经验、技术教程与行业洞察, 打造聚焦云计算技术的垂直博客,助力开发者快速掌握云服务核心能力。

褚成志 云计算 技术博客