深度学习服务器配置讲解

以下内容结合AI生成。

导览

本章讲解运行深度学习模型需要用到的软件环境、GPU、CPU、内存、硬盘等,以及模型在硬件里的“流转过程”。

1. 软件环境

举例 说明
操作系统 Ubuntu 22.04 主流的Linux系统,很多论文源码都是优先适配这个环境。
Python 3.10版本 编写python代码的编程语言版本
PyTorch 2.1.0版本 一个python库(但核心代码是用 C++ 和 CUDA 写的),用于搭建神经网络,处理张量运算等。
transformers 5.3.0版本 一个由 Hugging Face 开发的python库( pip install transformers
CUDA 12.1版本 CUDA是显卡的加速引擎驱动。由 NVIDIA 开发的并行计算平台,没有它,PyTorch 就没法调用显卡去计算,只能靠慢悠悠的 CPU。

注意:

  1. PyTorch 的版本必须与 CUDA 严格匹配。
  2. transformers库被广泛应用的是因为通过 高度抽象的标准化工作流,实现了从云端模型到本地算力的无缝衔接:
    (1)数据标准化:利用 AutoTokenizer.from_pretrained() 自动加载与模型匹配的分词器,将原始文本、图像或音频转化为 GPU 可理解的数值张量(Tensors)。
    (2)模型实例化:通过 AutoModel.from_pretrained() 实现权重的声明式加载。它自动处理版本校验、断点下载,并将数以亿计的参数映射到物理内存或显存中。
    (3)算力最优化:配合 .to("cuda")load_in_4bit=True 等参数,将模型部署至特定的硬件后端(如RTX 4090),并利用量化技术在有限显存内运行超大规模参数。

2. GPU

显卡 = GPU核心 + 显存 + 供电模块、散热器、接口等。

型号举例 说明
显卡 RTX 4090 (24GB) 算力优秀(计算速度极快),显存为24GB,可以跑起 7B、13B 参数量的中型语言模型
GPU 核心 AD102-300-A1 (基于 Ada Lovelace 架构) 它包含了 16384 个 CUDA 核心。你跑 PyTorch 时的所有矩阵运算、深度学习的浮点计算,全是在这颗小芯片里完成的。它是决定这张显卡“算力”高低的根本。
显存 美光 (Micron) GDDR6X 24GB 颗粒(通常由 12 颗 2GB 的芯片环绕在 GPU 核心周围)。它包含了 16384 个 CUDA 核心。负责存储庞大的 AI 模型参数和训练数据。对于 RTX 4090 来说,这 24GB 的 GDDR6X 提供了超过 1TB/s 的带宽,确保数据能飞速喂给 GPU 核心。

注意:

  1. GPU核心只能直接访问显存。
  2. 显存大小决定了能跑多大的模型。

3. CPU与内存

说明
CPU 负责数据预处理(比如缩放图片、读取文字)和调度任务。如果CPU太弱,GPU就会因为拿不到数据而“干等”。
内存 即系统内存(RAM),给CPU用。但是显存是给GPU用的

4. 硬盘

举例 说明
系统盘 30GB 存放操作系统和已经安装好的环境(PyTorch等)。这个空间通常很挤,不要把大数据往这里放。
数据盘 50GB 放代码、放数据集、保存训练好的模型(Checkpoint)

5. 运行模型时,模型在哪儿

当前状态说明 模型所在的位置
step1 还没运行代码时 模型只是一个或者多个文件(通常后缀是 .safetensors 或 .bin),放在数据盘中
step2 运行model.from_pretrained(...)或者torch.load() 首先CPU发布指令让硬盘把数据盘中的模型文件读到系统内存中,然后CPU会处理这些数据,把它们转换成PyTorch能理解的张量(Tensor)形式。
step3 运行.to("cuda") 模型的所有权重参数会被整整齐齐地平铺在显存里。
step4 在显存中跑模型时 1. 你输入的数据(如一段话或一张图),首先进入内存。 2. CPU 把这段输入数据通过 PCIe 通道“扔”进显存。3. GPU 核心在显存里,拿着“输入数据”去和“模型权重”做矩阵乘法。4. 最后算出的结果(比如预测的下一个词)从显存传回内存,最后展示在你的屏幕上。

总结:

  • 模型权重:长期驻留在 GPU 显存里。
  • 中间计算结果:瞬时产生在 GPU 显存里,用完即销毁。
  • 原始数据/程序逻辑:运行在 CPU 内存里。
posted @ 2026-05-13 14:26  凤傲天是什么鬼  阅读(40)  评论(0)    收藏  举报