【记录】LLM本地部署尝试
Update at 2026.04.21 当前生态概述
时隔两年,相关生态已经完善了很多,24年发布的原博客内容过时,特补充一节现状综述
如果你有 本地部署/自托管 LLM模型的 想法/需求,可以参考本节
信息渠道
- 搜索引擎、各大中文社区、github社区
- reddit的LocalLLaMA 板块
自行对齐:
- 你的期望需求
- 你可用的硬件或预算
- 你的软件(环境、模型、工具)选择与配置
当前本地模型的定位:适合作为执行器而非元件开发器;不能如claude code接opus、codex接gpt般开箱即用,需稍加调校
模型获取(开源平台)
支持本地部署/自托管的模型 =
开源模型
这里的开源指模型提供方以某种开源许可证的方式开放权重
huggingface,美国平台,需要某种你懂得的妙妙上网工具
魔搭,中国平台
模型选型
简单粗暴的方式是,直接看huggingface的Trending或者下载量,毕竟好东西大家都爱用
目前(2026年4月)最好的小型通用LLM是google的gemma系列、阿里的Qwen系列 等;当然,针对特定垂直场景的SOTA会更多样化
只推荐知名的官方模型及其下载量大的民间量化版本,不推荐任何“野鸡”模型,性能损伤如工具调用都淌口水还是小事,存在的安全风险才是大事
原则顺序:匹配你可用的硬件(模型尺寸和量化等级) > 匹配你的场景和需求 > 用的人多 >= 发布的时间新
如何评测:在自己环境场景的实际测试 > 其它人在相似任务下的实际测试 > 商业机构在相关场景下的私有测试(付费考试你懂的) > 模型页面用于宣传性能的公开基准测试(开卷考试)
传奇跑分王
推理工具
| 场景 | 推荐工具 | 特点 |
|---|---|---|
| Windows | LM Studio | 带 GUI,开箱即用 |
| 跨平台 / 显存或内存受限 | llama.cpp | 通用兼容、门槛极低、高效 |
| Linux / 多卡 | vLLM | 高性能推理服务 |
SGLang和LMDeploy我没试过
不推荐: ollama
理由1 它不好用,不论出于 任何 考虑 ,用 LM Studio 或 llama.cpp 一定 比 ollama 好
许多博客会误导性的让小白尝试ollama,
我也是这些灌水博客的受害者
理由2 Friends Don't Let Friends Use Ollama,这篇文章揭示了为什么ollama要做出 左右脑互搏的设计
注意,到此为止,接下来的内容成文于两年前,已过时
部署时间:2024年5月10日
update(2024年7月15日):这几天刚刚了解到cuda环境已经被封装在pytorch包的二进制文件里面了...所以疑似是不需要装CUDA的(没实测)
环境
-
英伟达显卡(显存大小,在windows11上部署的话,8G勉强能跑,16G应该才能正常跑)
-
Windows11
下载开源 LLM:ChatGLM3
下载代码,通过VSCode打开ChatGLM3文件夹,作为工作目录
下载模型,大概十几G,记录下保存的目录,形如X:\xxx\xxx\xxx\chatglm3-6b
安装miniconda
将会在虚拟环境中配置所需的Python环境
安装CUDA
-
首先通过命令
nvidia-smi查看显卡支持的CUDA最高版本 -
然后在pytorch官网查看你想安装的pytorch版本对应的CUDA版本
-
官网安装CUDA ,根据我的环境与任务,我选择的是CUDA12.1疑似无需安装
配置python环境
- 关于pytorch版本与安装命令,请严格按照官网的来
- 参考 https://pytorch.org/get-started/locally/
- 参考 https://pytorch.org/get-started/previous-versions/#linux-and-windows-6
- 在WINDOWS下如果安装pytorch2.3,后续运行模型时可能会报警告(1Torch was not compiled with flash attention.),当然,似乎不影响使用;于是选择pytorch2.1.2,不会报警告,当然,暂时没发现性能或其它方面(与会报警告的2.3.0比较)有什么优势。
首先,可以在开始菜单中找到miniconda(安装的时候默认勾选了),打开miniconda的终端,依次运行以下代码
conda create -n GPT python=3.11 -y
activate GPT
activate GPT
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
然后可以关闭这个终端了。
接下来切到VSCode,将VSCode的Python解释器选成GPT环境中的解释器。(此步应有图片,有空再补)
在VScode中直接新建终端,就默认是在虚拟环境GPT中的终端,在这个终端运行命令
pip install -r requirements.txt
环境就配置完成了。
最后,可以运行 ChatGLM3\中的各种应用demo做测试,代码中的MODEL_PATH都要修改为LLM的模型保存目录,例如可以这样改 MODEL_PATH=X:\\xxx\\xxx\\xxx\\chatglm3-6b
关于代码怎么写怎么用,查阅源代码提供的各个文档,或者上官网
个人PC部署体验
我的渣机配置是 12600KF+16G内存+RTX4060(8G显存),用4-bit量化部署,GPU使用率和显存直接跑满,共享显存使用5G+,运行对话功能的demo时,一次对话视情况不同需要1分钟~数分钟不等,挺慢的
(update 2024.7.15)推测跑得慢的原因:显存不够用的情况下,系统用内存充当“共享显存”,性能瓶颈在于,数据通过主板上的PCIE4.0接口在内存和显卡之间的交互效率实在太低,因此跑大模型一定要用显存足够的显卡
语言性能方面,输出质量还达不到可用的水准
如果真正用LLM参与实践,并且需要自己部署的话,最好用有专业显卡的服务器(足够大显存+没有GUI界面渲染对显存的占用),部署更多参数的模型(7B肯定是不能用的)

浙公网安备 33010602011771号