[教程] Windows 11 + RTX 4060 本地部署 llama.cpp (CUDA 加速) 运行 Qwen2.5

📋 前言
本教程旨在指导如何在 Windows 11 环境下，利用 NVIDIA RTX 4060 (8GB) 显卡，通过 CUDA 加速编译并运行 llama.cpp，最终部署 Qwen2.5-7B 大语言模型。

🖥️ 硬件与系统环境
操作系统: Windows 11
GPU: NVIDIA GeForce RTX 4060 (8GB VRAM)
内存: 32GB RAM
目标模型: Qwen2.5-7B-Instruct (GGUF 格式)
核心组件: CUDA 12.4, Visual Studio 2022, CMake, Python, Git

🛠️ 第一步：环境配置 (至关重要)

在开始编译前，请确保按顺序安装以下工具。顺序错误可能导致编译失败。

基础工具安装
Python: 安装最新版 (建议勾选 "Add to PATH")。
Git: 用于克隆代码仓库。
CMake: 构建工具，安装后需重启终端或手动添加环境变量。

安装 Visual Studio 2022
下载并安装 Visual Studio Community 2022 (或其他版本)，在安装器中必须勾选以下工作负载：
✅ 使用 C++ 的桌面开发 (Desktop development with C++)
✅ C++ CMake 工具 (C++ CMake tools)
✅ Windows 10/11 SDK
✅ MSVC v143 - VS 2022 C++ x64/x86 生成工具

安装 CUDA Toolkit (版本 12.4)
注意: llama.cpp 对 CUDA 版本敏感，推荐使用 12.4 以匹配最新的驱动和编译器支持。

下载: 访问 NVIDIA CUDA 12.4 Archive，选择 Windows -> x86_64 -> 11 -> exe (local)。
文件名示例：cuda_12.4.1_550.54.15_windows.exe
安装:
右键以管理员身份运行。
路径保持默认：C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4
组件选择:
✅ CUDA (核心组件)
✅ Driver components (若驱动过旧则更新)
❌ GeForce Experience (可选，非必须)
验证安装:
打开新的 CMD 窗口，依次运行：
nvcc --version

预期输出包含 release 12.4

  nvidia-smi

预期输出显示 CUDA Version: 12.4 且识别到 RTX 4060

  "C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4extrasdemo_suitedeviceQuery.exe"

预期输出 Result = PASS

环境变量检查:
运行 echo %CUDA_PATH%，应返回 C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4。
若未自动配置，请手动在系统环境变量 Path 中添加：
%CUDA_PATH%bin
%CUDA_PATH%libnvvp

验证 VS 集成
打开 Visual Studio 2022 -> 创建新项目，搜索 "CUDA"。若能找到 CUDA Runtime 模板，说明集成成功。

🚀 第二步：获取与编译 llama.cpp

克隆仓库
选择一个合适的工作目录（例如 D:devllm），执行：
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git submodule update --init --recursive

提示: --recursive 非常重要，否则缺少子模块会导致编译错误。

配置 CMake 工程
创建构建目录并配置参数。针对 RTX 4060 (Ada Lovelace 架构)，Compute Capability 设为 89。

cd D:devllmllama.cpp
mkdir build
cd build

cmake .. ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-DGGML_CUDA=ON ^
-DCMAKE_CUDA_ARCHITECTURES="89" ^
-DCMAKE_BUILD_TYPE=Release ^
-DGGML_NATIVE=ON ^
-DLLAMA_BUILD_SERVER=ON ^
-DLLAMA_BUILD_EXAMPLES=ON ^
-DLLAMA_BUILD_TESTS=ON ^
-DBUILD_TESTING=ON ^
-DLLAMA_BUILD_COMMON=ON

参数解析:
-DGGML_CUDA=ON: 启用 NVIDIA GPU 加速。
-DCMAKE_CUDA_ARCHITECTURES="89": 关键点。RTX 4060 的计算能力是 8.9，填错会导致无法调用显卡或性能极低。
-DLLAMA_BUILD_SERVER=ON: 构建 Web UI 服务端。

执行编译
方法一：命令行编译 (推荐)
cmake --build . --config Release -j 8
( -j 8 表示使用 8 个线程并行编译，可根据 CPU 核心数调整)

方法二：Visual Studio GUI
打开 buildllama.sln。
顶部菜单栏将配置改为 Release。
右键 ALL_BUILD -> 生成。

编译完成后，可执行文件位于 binRelease 目录下。

🤖 第三步：下载模型并运行

下载 GGUF 模型
llama.cpp 仅支持 GGUF 格式。我们下载量化版的 Qwen2.5-7B。

模型来源: HuggingFace (Bartowski)
文件名: Qwen2.5-7B-Instruct-Q4_K_M.gguf
大小: 约 4.3 GB (适合 8GB 显存)
下载地址: 点击下载
存放路径示例: D:AI DatamodelsQwen2.5-7B-Instruct-Q4_K_M.gguf

启动服务
进入编译输出目录，运行服务器：

cd D:devllmllama.cppbuildbinRelease

.llama-server.exe ^
-m "D:AI DatamodelsQwen2.5-7B-Instruct-Q4_K_M.gguf" ^
-ngl 99 ^
--host 127.0.0.1 ^
--port 8080 ^
-c 8192

参数详解:
参数说明
-m 模型文件的绝对路径

-ngl 99 Offload layers to GPU。设置为 99 表示尽可能将所有层加载到显存中（充分利用 RTX 4060）。

--host 监听地址，127.0.0.1 仅限本机访问

--port 服务端口，默认为 8080

-c 上下文窗口大小 (Context Window)，设为 8192 以支持长对话

开始对话
等待控制台输出 HTTP server listening on ... 后：
打开浏览器 (Chrome/Edge)。
访问：http://localhost:8080
即可看到类似下图的聊天界面，开始与 Qwen2.5 对话！

💡 常见问题排查 (FAQ)

Q1: 编译时报错 CUDA architecture '89' is not supported?
原因: CUDA Toolkit 版本过老，不支持 RTX 40 系列。
解决: 确保安装的是 CUDA 12.x (推荐 12.4)，并重新运行 CMake 配置。

Q2: 运行时显存爆满 (OOM) 或速度极慢?
检查: 确认 -ngl 参数是否生效。如果未设置或设置过小，模型会主要跑在 CPU 上。
观察: 任务管理器中 GPU 显存占用应接近 4.5GB - 6GB。

Q3: deviceQuery.exe 找不到或报错?
原因: 环境变量未配置或驱动未正确安装。
解决: 重新运行 nvidia-smi 确认驱动正常，并手动将 CUDA bin 目录加入 Path。

Q4: 网页打不开?
检查: 防火墙是否拦截了 8080 端口，或者命令行窗口是否被意外关闭。

🎉 结语
现在已经成功在本地搭建了一个高性能的 AI 推理环境。可以尝试更换其他 GGUF 模型（如 Llama 3, Mistral 等），只需修改 -m 参数的路径即可。

posted @ 2026-03-22 16:03 爱吃菜心阅读(306) 评论(0) 收藏举报

刷新页面返回顶部

cornmonster

[教程] Windows 11 + RTX 4060 本地部署 llama.cpp (CUDA 加速) 运行 Qwen2.5

公告