[教程] Windows 11 + RTX 4060 本地部署 llama.cpp (CUDA 加速) 运行 Qwen2.5
📋 前言
本教程旨在指导如何在 Windows 11 环境下,利用 NVIDIA RTX 4060 (8GB) 显卡,通过 CUDA 加速编译并运行 llama.cpp,最终部署 Qwen2.5-7B 大语言模型。
🖥️ 硬件与系统环境
操作系统: Windows 11
GPU: NVIDIA GeForce RTX 4060 (8GB VRAM)
内存: 32GB RAM
目标模型: Qwen2.5-7B-Instruct (GGUF 格式)
核心组件: CUDA 12.4, Visual Studio 2022, CMake, Python, Git
🛠️ 第一步:环境配置 (至关重要)
在开始编译前,请确保按顺序安装以下工具。顺序错误可能导致编译失败。
基础工具安装
Python: 安装最新版 (建议勾选 "Add to PATH")。
Git: 用于克隆代码仓库。
CMake: 构建工具,安装后需重启终端或手动添加环境变量。
安装 Visual Studio 2022
下载并安装 Visual Studio Community 2022 (或其他版本),在安装器中必须勾选以下工作负载:
✅ 使用 C++ 的桌面开发 (Desktop development with C++)
✅ C++ CMake 工具 (C++ CMake tools)
✅ Windows 10/11 SDK
✅ MSVC v143 - VS 2022 C++ x64/x86 生成工具
安装 CUDA Toolkit (版本 12.4)
注意: llama.cpp 对 CUDA 版本敏感,推荐使用 12.4 以匹配最新的驱动和编译器支持。
下载: 访问 NVIDIA CUDA 12.4 Archive,选择 Windows -> x86_64 -> 11 -> exe (local)。
文件名示例:cuda_12.4.1_550.54.15_windows.exe
安装:
右键以管理员身份运行。
路径保持默认:C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4
组件选择:
✅ CUDA (核心组件)
✅ Driver components (若驱动过旧则更新)
❌ GeForce Experience (可选,非必须)
验证安装:
打开新的 CMD 窗口,依次运行:
nvcc --version
预期输出包含 release 12.4
nvidia-smi
预期输出显示 CUDA Version: 12.4 且识别到 RTX 4060
"C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4extrasdemo_suitedeviceQuery.exe"
预期输出 Result = PASS
环境变量检查:
运行 echo %CUDA_PATH%,应返回 C:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4。
若未自动配置,请手动在系统环境变量 Path 中添加:
%CUDA_PATH%bin
%CUDA_PATH%libnvvp
验证 VS 集成
打开 Visual Studio 2022 -> 创建新项目,搜索 "CUDA"。若能找到 CUDA Runtime 模板,说明集成成功。
🚀 第二步:获取与编译 llama.cpp
克隆仓库
选择一个合适的工作目录(例如 D:devllm),执行:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git submodule update --init --recursive
提示: --recursive 非常重要,否则缺少子模块会导致编译错误。
配置 CMake 工程
创建构建目录并配置参数。针对 RTX 4060 (Ada Lovelace 架构),Compute Capability 设为 89。
cd D:devllmllama.cpp
mkdir build
cd build
cmake .. ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-DGGML_CUDA=ON ^
-DCMAKE_CUDA_ARCHITECTURES="89" ^
-DCMAKE_BUILD_TYPE=Release ^
-DGGML_NATIVE=ON ^
-DLLAMA_BUILD_SERVER=ON ^
-DLLAMA_BUILD_EXAMPLES=ON ^
-DLLAMA_BUILD_TESTS=ON ^
-DBUILD_TESTING=ON ^
-DLLAMA_BUILD_COMMON=ON
参数解析:
-DGGML_CUDA=ON: 启用 NVIDIA GPU 加速。
-DCMAKE_CUDA_ARCHITECTURES="89": 关键点。RTX 4060 的计算能力是 8.9,填错会导致无法调用显卡或性能极低。
-DLLAMA_BUILD_SERVER=ON: 构建 Web UI 服务端。
执行编译
方法一:命令行编译 (推荐)
cmake --build . --config Release -j 8
( -j 8 表示使用 8 个线程并行编译,可根据 CPU 核心数调整)
方法二:Visual Studio GUI
打开 buildllama.sln。
顶部菜单栏将配置改为 Release。
右键 ALL_BUILD -> 生成。
编译完成后,可执行文件位于 binRelease 目录下。
🤖 第三步:下载模型并运行
下载 GGUF 模型
llama.cpp 仅支持 GGUF 格式。我们下载量化版的 Qwen2.5-7B。
模型来源: HuggingFace (Bartowski)
文件名: Qwen2.5-7B-Instruct-Q4_K_M.gguf
大小: 约 4.3 GB (适合 8GB 显存)
下载地址: 点击下载
存放路径示例: D:AI DatamodelsQwen2.5-7B-Instruct-Q4_K_M.gguf
启动服务
进入编译输出目录,运行服务器:
cd D:devllmllama.cppbuildbinRelease
.llama-server.exe ^
-m "D:AI DatamodelsQwen2.5-7B-Instruct-Q4_K_M.gguf" ^
-ngl 99 ^
--host 127.0.0.1 ^
--port 8080 ^
-c 8192
参数详解:
参数 说明
-m 模型文件的绝对路径
-ngl 99 Offload layers to GPU。设置为 99 表示尽可能将所有层加载到显存中(充分利用 RTX 4060)。
--host 监听地址,127.0.0.1 仅限本机访问
--port 服务端口,默认为 8080
-c 上下文窗口大小 (Context Window),设为 8192 以支持长对话
开始对话
等待控制台输出 HTTP server listening on ... 后:
打开浏览器 (Chrome/Edge)。
访问:http://localhost:8080
即可看到类似下图的聊天界面,开始与 Qwen2.5 对话!
💡 常见问题排查 (FAQ)
Q1: 编译时报错 CUDA architecture '89' is not supported?
原因: CUDA Toolkit 版本过老,不支持 RTX 40 系列。
解决: 确保安装的是 CUDA 12.x (推荐 12.4),并重新运行 CMake 配置。
Q2: 运行时显存爆满 (OOM) 或速度极慢?
检查: 确认 -ngl 参数是否生效。如果未设置或设置过小,模型会主要跑在 CPU 上。
观察: 任务管理器中 GPU 显存占用应接近 4.5GB - 6GB。
Q3: deviceQuery.exe 找不到或报错?
原因: 环境变量未配置或驱动未正确安装。
解决: 重新运行 nvidia-smi 确认驱动正常,并手动将 CUDA bin 目录加入 Path。
Q4: 网页打不开?
检查: 防火墙是否拦截了 8080 端口,或者命令行窗口是否被意外关闭。
🎉 结语
现在已经成功在本地搭建了一个高性能的 AI 推理环境。可以尝试更换其他 GGUF 模型(如 Llama 3, Mistral 等),只需修改 -m 参数的路径即可。


浙公网安备 33010602011771号