深度学习服务器配置讲解
以下内容结合AI生成。
导览
本章讲解运行深度学习模型需要用到的软件环境、GPU、CPU、内存、硬盘等,以及模型在硬件里的“流转过程”。
1. 软件环境
| 举例 | 说明 | |
|---|---|---|
| 操作系统 | Ubuntu 22.04 | 主流的Linux系统,很多论文源码都是优先适配这个环境。 |
| Python | 3.10版本 | 编写python代码的编程语言版本 |
| PyTorch | 2.1.0版本 | 一个python库(但核心代码是用 C++ 和 CUDA 写的),用于搭建神经网络,处理张量运算等。 |
| transformers | 5.3.0版本 | 一个由 Hugging Face 开发的python库( pip install transformers ) |
| CUDA | 12.1版本 | CUDA是显卡的加速引擎驱动。由 NVIDIA 开发的并行计算平台,没有它,PyTorch 就没法调用显卡去计算,只能靠慢悠悠的 CPU。 |
注意:
- PyTorch 的版本必须与 CUDA 严格匹配。
- transformers库被广泛应用的是因为通过 高度抽象的标准化工作流,实现了从云端模型到本地算力的无缝衔接:
(1)数据标准化:利用AutoTokenizer.from_pretrained()自动加载与模型匹配的分词器,将原始文本、图像或音频转化为 GPU 可理解的数值张量(Tensors)。
(2)模型实例化:通过AutoModel.from_pretrained()实现权重的声明式加载。它自动处理版本校验、断点下载,并将数以亿计的参数映射到物理内存或显存中。
(3)算力最优化:配合.to("cuda")或load_in_4bit=True等参数,将模型部署至特定的硬件后端(如RTX 4090),并利用量化技术在有限显存内运行超大规模参数。
2. GPU
显卡 = GPU核心 + 显存 + 供电模块、散热器、接口等。
| 型号举例 | 说明 | |
|---|---|---|
| 显卡 | RTX 4090 (24GB) | 算力优秀(计算速度极快),显存为24GB,可以跑起 7B、13B 参数量的中型语言模型 |
| GPU 核心 | AD102-300-A1 (基于 Ada Lovelace 架构) | 它包含了 16384 个 CUDA 核心。你跑 PyTorch 时的所有矩阵运算、深度学习的浮点计算,全是在这颗小芯片里完成的。它是决定这张显卡“算力”高低的根本。 |
| 显存 | 美光 (Micron) GDDR6X | 24GB 颗粒(通常由 12 颗 2GB 的芯片环绕在 GPU 核心周围)。它包含了 16384 个 CUDA 核心。负责存储庞大的 AI 模型参数和训练数据。对于 RTX 4090 来说,这 24GB 的 GDDR6X 提供了超过 1TB/s 的带宽,确保数据能飞速喂给 GPU 核心。 |
注意:
- GPU核心只能直接访问显存。
- 显存大小决定了能跑多大的模型。
3. CPU与内存
| 说明 | |
|---|---|
| CPU | 负责数据预处理(比如缩放图片、读取文字)和调度任务。如果CPU太弱,GPU就会因为拿不到数据而“干等”。 |
| 内存 | 即系统内存(RAM),给CPU用。但是显存是给GPU用的 |
4. 硬盘
| 举例 | 说明 | |
|---|---|---|
| 系统盘 | 30GB | 存放操作系统和已经安装好的环境(PyTorch等)。这个空间通常很挤,不要把大数据往这里放。 |
| 数据盘 | 50GB | 放代码、放数据集、保存训练好的模型(Checkpoint) |
5. 运行模型时,模型在哪儿
| 当前状态说明 | 模型所在的位置 | |
|---|---|---|
| step1 | 还没运行代码时 | 模型只是一个或者多个文件(通常后缀是 .safetensors 或 .bin),放在数据盘中 |
| step2 | 运行model.from_pretrained(...)或者torch.load()时 |
首先CPU发布指令让硬盘把数据盘中的模型文件读到系统内存中,然后CPU会处理这些数据,把它们转换成PyTorch能理解的张量(Tensor)形式。 |
| step3 | 运行.to("cuda")时 |
模型的所有权重参数会被整整齐齐地平铺在显存里。 |
| step4 | 在显存中跑模型时 | 1. 你输入的数据(如一段话或一张图),首先进入内存。 2. CPU 把这段输入数据通过 PCIe 通道“扔”进显存。3. GPU 核心在显存里,拿着“输入数据”去和“模型权重”做矩阵乘法。4. 最后算出的结果(比如预测的下一个词)从显存传回内存,最后展示在你的屏幕上。 |
总结:
- 模型权重:长期驻留在 GPU 显存里。
- 中间计算结果:瞬时产生在 GPU 显存里,用完即销毁。
- 原始数据/程序逻辑:运行在 CPU 内存里。

浙公网安备 33010602011771号