【记录】LLM本地部署尝试

Update at 2026.04.21 当前生态概述

时隔两年，相关生态已经完善了很多，24年发布的原博客内容过时，特补充一节现状综述

如果你有本地部署/自托管 LLM模型的想法/需求，可以参考本节

信息渠道

搜索引擎、各大中文社区、github社区
reddit的LocalLLaMA 板块

自行对齐：

你的期望需求
你可用的硬件或预算
你的软件（环境、模型、工具）选择与配置

当前本地模型的定位：适合作为执行器而非元件开发器；不能如claude code接opus、codex接gpt般开箱即用，需稍加调校

模型获取（开源平台）

支持本地部署/自托管的模型 = 开源模型
这里的开源指模型提供方以某种开源许可证的方式开放权重

huggingface，美国平台，~~需要某种你懂得的妙妙上网工具~~

魔搭，中国平台

模型选型

简单粗暴的方式是，直接看huggingface的Trending或者下载量，毕竟好东西大家都爱用
目前（2026年4月）最好的小型通用LLM是google的gemma系列、阿里的Qwen系列等；当然，针对特定垂直场景的SOTA会更多样化
只推荐知名的官方模型及其下载量大的民间量化版本，不推荐任何“野鸡”模型，性能损伤如工具调用都淌口水还是小事，存在的安全风险才是大事

原则顺序：匹配你可用的硬件（模型尺寸和量化等级） > 匹配你的场景和需求 > 用的人多 >= 发布的时间新

如何评测：在自己环境场景的实际测试 > 其它人在相似任务下的实际测试 > 商业机构在相关场景下的私有测试（付费考试你懂的） > 模型页面用于宣传性能的公开基准测试（开卷考试）

~~传奇跑分王~~

推理工具

场景	推荐工具	特点
Windows	LM Studio	带 GUI，开箱即用
跨平台 / 显存或内存受限	llama.cpp	通用兼容、门槛极低、高效
Linux / 多卡	vLLM	高性能推理服务

SGLang和LMDeploy我没试过

不推荐： ollama

理由1 它不好用，不论出于任何考虑，用 LM Studio 或 llama.cpp 一定比 ollama 好

许多博客会误导性的让小白尝试ollama，~~我也是这些灌水博客的受害者~~

理由2 Friends Don't Let Friends Use Ollama，这篇文章揭示了为什么ollama要做出 左右脑互搏的设计

注意，到此为止，接下来的内容成文于两年前，已过时

部署时间：2024年5月10日

update（2024年7月15日）：这几天刚刚了解到cuda环境已经被封装在pytorch包的二进制文件里面了...所以疑似是不需要装CUDA的（没实测）

环境

英伟达显卡（显存大小，在windows11上部署的话，8G勉强能跑，16G应该才能正常跑）
Windows11

下载开源 LLM：ChatGLM3

下载代码，通过VSCode打开ChatGLM3文件夹，作为工作目录

下载模型，大概十几G，记录下保存的目录，形如X:\xxx\xxx\xxx\chatglm3-6b

另一篇参考流程

安装miniconda

官网

将会在虚拟环境中配置所需的Python环境

安装CUDA

首先通过命令 nvidia-smi 查看显卡支持的CUDA最高版本
然后在pytorch官网查看你想安装的pytorch版本对应的CUDA版本
~~官网安装CUDA ，根据我的环境与任务，我选择的是CUDA12.1~~ 疑似无需安装

随便百度一篇可以参考

配置python环境

关于pytorch版本与安装命令，请严格按照官网的来
参考 https://pytorch.org/get-started/locally/
参考 https://pytorch.org/get-started/previous-versions/#linux-and-windows-6
在WINDOWS下如果安装pytorch2.3，后续运行模型时可能会报警告（1Torch was not compiled with flash attention.），当然，似乎不影响使用；于是选择pytorch2.1.2，不会报警告，当然，暂时没发现性能或其它方面（与会报警告的2.3.0比较）有什么优势。

首先，可以在开始菜单中找到miniconda（安装的时候默认勾选了），打开miniconda的终端，依次运行以下代码

conda create -n GPT python=3.11 -y

activate GPT

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

然后可以关闭这个终端了。

接下来切到VSCode，将VSCode的Python解释器选成GPT环境中的解释器。（此步应有图片，有空再补）

在VScode中直接新建终端，就默认是在虚拟环境GPT中的终端，在这个终端运行命令

pip install -r requirements.txt

环境就配置完成了。

最后，可以运行 ChatGLM3\中的各种应用demo做测试，代码中的MODEL_PATH都要修改为LLM的模型保存目录，例如可以这样改 MODEL_PATH=X:\\xxx\\xxx\\xxx\\chatglm3-6b

关于代码怎么写怎么用，查阅源代码提供的各个文档，或者上官网

个人PC部署体验

我的渣机配置是 12600KF+16G内存+RTX4060（8G显存），用4-bit量化部署，GPU使用率和显存直接跑满，共享显存使用5G+，运行对话功能的demo时，一次对话视情况不同需要1分钟~数分钟不等，挺慢的

（update 2024.7.15）推测跑得慢的原因：显存不够用的情况下，系统用内存充当“共享显存”，性能瓶颈在于，数据通过主板上的PCIE4.0接口在内存和显卡之间的交互效率实在太低，因此跑大模型一定要用显存足够的显卡

语言性能方面，输出质量还达不到可用的水准

如果真正用LLM参与实践，并且需要自己部署的话，最好用有专业显卡的服务器（足够大显存+没有GUI界面渲染对显存的占用），部署更多参数的模型（7B肯定是不能用的）

posted @ 2024-05-10 05:54 ilxT 阅读(435) 评论(0) 收藏举报

刷新页面返回顶部

ilxT的博客

测测博客子标题