Day 1-2 学习笔记：15 分钟部署 & 运行 Gemma 4 大模型

任务来源：Datawhale AI 学习中心「〖Day1-2〗15分钟部署&运行 Gemma4 大模型，撰写学习笔记」
学习目标：理解大模型本地部署的基本流程，并能够使用 vLLM 启动 Gemma 4 模型服务，完成一次本地对话测试。

1. 大模型是什么？

大语言模型（LLM）的核心可以理解为：根据已有上下文，预测下一个最可能出现的 token。

和传统程序不同：

对比项	传统程序	大模型
工作方式	人工编写规则	从大量数据中学习模式
输出逻辑	按固定规则执行	基于概率生成结果
典型能力	计算、判断、流程控制	对话、写作、代码、推理、多模态理解

简单来说，大模型不是“真正理解一切”的程序，而是一个通过海量训练获得语言和知识模式的概率生成系统。

2. Gemma 4 简介

Gemma 4 是 Google DeepMind 推出的开放权重模型系列，面向本地部署、开发集成和智能体应用等场景。官方文档显示，Gemma 4 支持多模态输入，具备长上下文、多语言和推理能力。

2.1 主要特点

特点	说明
发布方	Google / Google DeepMind
模型定位	开放权重模型，适合研究、开发和本地部署
模型规模	E2B、E4B、12B、26B A4B、31B 等版本
输入能力	文本、图像；部分版本支持音频
输出形式	主要生成文本
上下文长度	最高可支持 256K token
语言能力	支持 140+ 种语言
部署方式	可通过 vLLM、Cloud Run、Hugging Face、Kaggle 等方式使用

2.2 为什么适合入门学习？

Gemma 4 的优势在于：

开放权重：可以下载到本地运行，便于学习和实验。
模型规格丰富：从轻量版本到大参数版本都有，适配不同硬件。
推理能力较强：适合对话、代码、总结、问答、智能体等任务。
部署生态完善：vLLM 等推理框架已支持 Gemma 4。

3. 本地部署整体流程

本次任务的核心流程可以概括为：

检查 GPU 环境
      ↓
下载 Gemma 4 模型权重
      ↓
安装 vLLM 推理框架
      ↓
启动 OpenAI 兼容 API 服务
      ↓
使用客户端与模型对话

其中：

模型权重：模型真正的参数文件，相当于“大脑”。
vLLM：高性能推理服务框架，相当于“发动机”。
API 服务：把模型封装成可访问的服务。
客户端对话：通过命令行或程序调用模型。

4. 环境检查

部署大模型前，首先需要确认 GPU、驱动和 PyTorch 是否可用。

4.1 查看 AMD GPU 信息

amd-smi

如果能正常显示 GPU 型号、显存、驱动等信息，说明 AMD GPU 基础环境可用。

4.2 检查 PyTorch 是否识别 GPU

python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

重点关注：

torch.cuda.is_available() 是否为 True
是否能正确显示 GPU 名称

注意：在 PyTorch 中，即使是 AMD ROCm 后端，接口名称通常仍然是 torch.cuda，这并不代表一定是 NVIDIA CUDA。

5. 下载 Gemma 4 模型

国内环境下可以使用 ModelScope 下载模型，速度通常比直接从海外平台拉取更稳定。

5.1 配置 pip 镜像源

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

5.2 安装 ModelScope

pip install modelscope

5.3 下载模型

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

下载完成后，可以检查模型目录：

ls -lh ./models/google/gemma-4-E4B-it/

通常需要看到模型配置文件、tokenizer 文件、权重文件等内容。

6. 安装并启动 vLLM

vLLM 是一个高性能大模型推理框架，能够把模型部署成 OpenAI API 兼容服务。

6.1 安装 vLLM

uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

这里使用 ROCm 相关 wheel，适合 AMD GPU 环境。

6.2 启动模型服务

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

启动后，这个终端会被服务占用，不要关闭。正常情况下，服务会监听：

http://localhost:8000/v1

如果日志中出现类似 Application startup complete，一般表示服务启动成功。

7. 与模型进行对话

重新打开一个终端，连接刚刚启动的 vLLM 服务：

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

然后输入测试问题：

你好，请介绍一下你自己。

如果模型能够返回回答，说明本地部署和推理流程已经跑通。

8. 常见问题与解决办法

问题	可能原因	解决办法
`amd-smi` 无输出	驱动或 ROCm 环境异常	检查 GPU 驱动、ROCm 安装和容器权限
`torch.cuda.is_available()` 为 `False`	PyTorch 版本不匹配或 GPU 不可见	检查 PyTorch ROCm 版本，确认容器能访问 GPU
`modelscope download` 失败	网络或模型路径问题	检查网络、模型名称、ModelScope 是否安装成功
`vllm serve` 启动很慢	模型加载和内核初始化需要时间	观察日志，不要过早中断
显存不足	模型过大或上下文长度过高	降低 `--max-model-len`，或换更小模型
客户端连接失败	服务未启动或端口不一致	确认服务地址是 `localhost:8000/v1`
对话无响应	模型仍在加载或服务异常	等待加载完成，检查 vLLM 日志

显存不足时可以尝试：

vllm serve ./models/google/gemma-4-E4B-it/ \
  --served-model-name gemma-4-E4B-it \
  --max-model-len 8192

如果仍然不够，可以进一步降到：

--max-model-len 4096

9. 核心概念整理

9.1 参数 / 权重

模型参数是神经网络内部学习到的数值。模型规模中的 4B、31B，通常表示几十亿级别参数量。

9.2 推理

推理是指使用已经训练好的模型完成任务，例如对话、总结、写代码、问答等。

9.3 部署

部署是把模型放到一个可访问的运行环境中，使用户或程序能够通过接口调用模型。

9.4 vLLM

vLLM 是推理加速和服务化框架，常用于把大模型部署成 API 服务。

9.5 OpenAI 兼容接口

vLLM 启动后可以提供类似 OpenAI API 的接口格式，便于用已有客户端、脚本或应用调用本地模型。

10. 本次实践收获

通过本次任务，我理解了一个大模型从“模型文件”到“可对话服务”的完整过程：

首先检查 GPU 和 PyTorch 环境，确保硬件能被识别。
然后下载 Gemma 4 模型权重。
接着使用 vLLM 加载模型，并启动本地 API 服务。
最后通过 vllm chat 连接服务，实现命令行对话。

这说明部署大模型并不是只下载一个模型文件，而是需要把 硬件环境、模型权重、推理框架、服务接口和客户端调用 串起来。

11. 我的理解与总结

本次学习最大的收获是：大模型本地部署的关键不在于命令本身，而在于理解每一步的作用。

ModelScope 负责解决模型下载问题。
vLLM 负责解决模型高效推理和服务化问题。
GPU / ROCm 负责提供硬件加速能力。
OpenAI 兼容 API 让本地模型也能像云端模型一样被程序调用。

对后续学习来说，先把模型跑起来非常重要。只有完成本地部署，后面才能继续做模型调用、应用开发、微调、RAG 或智能体等更复杂的任务。

12. 参考资料

Datawhale AI 学习中心任务页：〖Day1-2〗15分钟部署&运行 Gemma4 大模型，撰写学习笔记。
Google AI for Developers：Gemma 4 model card。
Google AI for Developers：Gemma 4 model overview。
vLLM 官方博客：Announcing Gemma 4 on vLLM。

posted @ 2026-06-12 23:59 盲仔你要沉住气阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

盲仔你要沉住气