G
N
I
D
A
O
L

Day 1-2 学习笔记:15 分钟部署 & 运行 Gemma 4 大模型

任务来源:Datawhale AI 学习中心「〖Day1-2〗15分钟部署&运行 Gemma4 大模型,撰写学习笔记」
学习目标:理解大模型本地部署的基本流程,并能够使用 vLLM 启动 Gemma 4 模型服务,完成一次本地对话测试。


1. 大模型是什么?

大语言模型(LLM)的核心可以理解为:根据已有上下文,预测下一个最可能出现的 token

和传统程序不同:

对比项 传统程序 大模型
工作方式 人工编写规则 从大量数据中学习模式
输出逻辑 按固定规则执行 基于概率生成结果
典型能力 计算、判断、流程控制 对话、写作、代码、推理、多模态理解

简单来说,大模型不是“真正理解一切”的程序,而是一个通过海量训练获得语言和知识模式的概率生成系统。


2. Gemma 4 简介

Gemma 4 是 Google DeepMind 推出的开放权重模型系列,面向本地部署、开发集成和智能体应用等场景。官方文档显示,Gemma 4 支持多模态输入,具备长上下文、多语言和推理能力。

2.1 主要特点

特点 说明
发布方 Google / Google DeepMind
模型定位 开放权重模型,适合研究、开发和本地部署
模型规模 E2B、E4B、12B、26B A4B、31B 等版本
输入能力 文本、图像;部分版本支持音频
输出形式 主要生成文本
上下文长度 最高可支持 256K token
语言能力 支持 140+ 种语言
部署方式 可通过 vLLM、Cloud Run、Hugging Face、Kaggle 等方式使用

2.2 为什么适合入门学习?

Gemma 4 的优势在于:

  1. 开放权重:可以下载到本地运行,便于学习和实验。
  2. 模型规格丰富:从轻量版本到大参数版本都有,适配不同硬件。
  3. 推理能力较强:适合对话、代码、总结、问答、智能体等任务。
  4. 部署生态完善:vLLM 等推理框架已支持 Gemma 4。

3. 本地部署整体流程

本次任务的核心流程可以概括为:

检查 GPU 环境
      ↓
下载 Gemma 4 模型权重
      ↓
安装 vLLM 推理框架
      ↓
启动 OpenAI 兼容 API 服务
      ↓
使用客户端与模型对话

其中:

  • 模型权重:模型真正的参数文件,相当于“大脑”。
  • vLLM:高性能推理服务框架,相当于“发动机”。
  • API 服务:把模型封装成可访问的服务。
  • 客户端对话:通过命令行或程序调用模型。

4. 环境检查

部署大模型前,首先需要确认 GPU、驱动和 PyTorch 是否可用。

4.1 查看 AMD GPU 信息

amd-smi

如果能正常显示 GPU 型号、显存、驱动等信息,说明 AMD GPU 基础环境可用。

4.2 检查 PyTorch 是否识别 GPU

python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

重点关注:

  • torch.cuda.is_available() 是否为 True
  • 是否能正确显示 GPU 名称

注意:在 PyTorch 中,即使是 AMD ROCm 后端,接口名称通常仍然是 torch.cuda,这并不代表一定是 NVIDIA CUDA。


5. 下载 Gemma 4 模型

国内环境下可以使用 ModelScope 下载模型,速度通常比直接从海外平台拉取更稳定。

5.1 配置 pip 镜像源

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

5.2 安装 ModelScope

pip install modelscope

5.3 下载模型

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

下载完成后,可以检查模型目录:

ls -lh ./models/google/gemma-4-E4B-it/

通常需要看到模型配置文件、tokenizer 文件、权重文件等内容。


6. 安装并启动 vLLM

vLLM 是一个高性能大模型推理框架,能够把模型部署成 OpenAI API 兼容服务。

6.1 安装 vLLM

uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

这里使用 ROCm 相关 wheel,适合 AMD GPU 环境。

6.2 启动模型服务

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

启动后,这个终端会被服务占用,不要关闭。正常情况下,服务会监听:

http://localhost:8000/v1

如果日志中出现类似 Application startup complete,一般表示服务启动成功。


7. 与模型进行对话

重新打开一个终端,连接刚刚启动的 vLLM 服务:

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

然后输入测试问题:

你好,请介绍一下你自己。

如果模型能够返回回答,说明本地部署和推理流程已经跑通。


8. 常见问题与解决办法

问题 可能原因 解决办法
amd-smi 无输出 驱动或 ROCm 环境异常 检查 GPU 驱动、ROCm 安装和容器权限
torch.cuda.is_available()False PyTorch 版本不匹配或 GPU 不可见 检查 PyTorch ROCm 版本,确认容器能访问 GPU
modelscope download 失败 网络或模型路径问题 检查网络、模型名称、ModelScope 是否安装成功
vllm serve 启动很慢 模型加载和内核初始化需要时间 观察日志,不要过早中断
显存不足 模型过大或上下文长度过高 降低 --max-model-len,或换更小模型
客户端连接失败 服务未启动或端口不一致 确认服务地址是 localhost:8000/v1
对话无响应 模型仍在加载或服务异常 等待加载完成,检查 vLLM 日志

显存不足时可以尝试:

vllm serve ./models/google/gemma-4-E4B-it/ \
  --served-model-name gemma-4-E4B-it \
  --max-model-len 8192

如果仍然不够,可以进一步降到:

--max-model-len 4096

9. 核心概念整理

9.1 参数 / 权重

模型参数是神经网络内部学习到的数值。模型规模中的 4B31B,通常表示几十亿级别参数量。

9.2 推理

推理是指使用已经训练好的模型完成任务,例如对话、总结、写代码、问答等。

9.3 部署

部署是把模型放到一个可访问的运行环境中,使用户或程序能够通过接口调用模型。

9.4 vLLM

vLLM 是推理加速和服务化框架,常用于把大模型部署成 API 服务。

9.5 OpenAI 兼容接口

vLLM 启动后可以提供类似 OpenAI API 的接口格式,便于用已有客户端、脚本或应用调用本地模型。


10. 本次实践收获

通过本次任务,我理解了一个大模型从“模型文件”到“可对话服务”的完整过程:

  1. 首先检查 GPU 和 PyTorch 环境,确保硬件能被识别。
  2. 然后下载 Gemma 4 模型权重。
  3. 接着使用 vLLM 加载模型,并启动本地 API 服务。
  4. 最后通过 vllm chat 连接服务,实现命令行对话。

这说明部署大模型并不是只下载一个模型文件,而是需要把 硬件环境、模型权重、推理框架、服务接口和客户端调用 串起来。


11. 我的理解与总结

本次学习最大的收获是:大模型本地部署的关键不在于命令本身,而在于理解每一步的作用。

  • ModelScope 负责解决模型下载问题。
  • vLLM 负责解决模型高效推理和服务化问题。
  • GPU / ROCm 负责提供硬件加速能力。
  • OpenAI 兼容 API 让本地模型也能像云端模型一样被程序调用。

对后续学习来说,先把模型跑起来非常重要。只有完成本地部署,后面才能继续做模型调用、应用开发、微调、RAG 或智能体等更复杂的任务。


12. 参考资料

  1. Datawhale AI 学习中心任务页:〖Day1-2〗15分钟部署&运行 Gemma4 大模型,撰写学习笔记。
  2. Google AI for Developers:Gemma 4 model card。
  3. Google AI for Developers:Gemma 4 model overview。
  4. vLLM 官方博客:Announcing Gemma 4 on vLLM。
posted @ 2026-06-12 23:59  盲仔你要沉住气  阅读(8)  评论(0)    收藏  举报