本地部署大模型的工具汇总

总结如下：

入门级轻量部署：Ollama、LM Studio、GPT4All
高性能推理：Llama.cpp、vLLM、TGI、TensorRT-LLM
本地微调：LoRA + PEFT、Axolotl、DeepSpeed
企业级 API 部署：FastChat、OpenWebUI

1. 轻量级推理工具（适用于消费级硬件）

这些工具适用于个人 PC、笔记本，甚至是边缘设备，如 Jetson Nano 或 Raspberry Pi。

(1) Ollama

简介：适用于 Mac、Windows、Linux，支持一键部署开源 LLM（如 Llama、Mistral）。
优点：安装简单，支持 GPU 加速，命令行交互直观。
官网：https://ollama.com/

(2) LM Studio

简介：适用于 Windows/Mac，带有 GUI 界面，可以下载并本地运行 LLaMA、Mistral 等模型。
优点：界面友好，易于管理多个模型，支持 GPU 加速。
官网：https://lmstudio.ai/

(3) GPT4All

简介：支持多种开源 LLM（如 LLaMA、Mistral），有 GUI 版本和 CLI 版本。
优点：跨平台（Win/Linux/Mac），可在 CPU 运行。
官网：https://gpt4all.io/

(4) KoboldCpp

简介：专门用于本地运行 AI 写作助手（支持 Llama.cpp）。
优点：优化推理速度，适合文本创作场景。
GitHub：https://github.com/LostRuins/koboldcpp

2. 高性能推理框架（适用于 GPU/服务器）

这些工具适用于拥有高性能 GPU（如 RTX 3090、A100）的用户或服务器端推理。

(5) Llama.cpp

简介：Meta LLaMA 模型的高效 C++ 推理引擎，支持 CPU 和 GPU（OpenCL/CUDA）。
优点：轻量级，性能优化，适合本地推理。
GitHub：https://github.com/ggerganov/llama.cpp

(6) vLLM

简介：专为高吞吐量优化的 LLM 推理引擎，支持 Hugging Face Transformer 模型。
优点：比传统 PyTorch 推理快数倍，适用于部署高性能 API。
GitHub：https://github.com/vllm-project/vllm

(7) TGI（Text Generation Inference）

简介：Hugging Face 官方推出的高效推理框架，支持 LLaMA、Falcon、Mistral 等。
优点：优化显存占用，支持多 GPU 执行。
GitHub：https://github.com/huggingface/text-generation-inference

(8) TensorRT-LLM

简介：NVIDIA 推出的 LLM 推理优化库，支持 Transformer 架构，适用于 A100/H100 GPU。
优点：极致优化推理速度，减少显存占用。
GitHub：https://github.com/NVIDIA/TensorRT-LLM

3. 本地训练与微调工具（适用于有多 GPU/TPU 需求）

如果你想要本地微调大模型（如 LLaMA 2、Mistral），可以使用以下工具：

(9) LoRA + PEFT

简介：利用 LoRA（低秩适配）进行高效微调，适用于 Hugging Face 生态。
GitHub：https://github.com/huggingface/peft

(10) Axolotl

简介：封装了 LoRA 微调流程，适用于 LLaMA、Mistral 等大模型。
GitHub：https://github.com/OpenAccess-AI-Collective/axolotl

(11) DeepSpeed

简介：微软推出的 LLM 训练优化库，可用于大模型的高效并行训练。
GitHub：https://github.com/microsoft/DeepSpeed

(12) Colossal-AI

简介：适用于大模型训练和推理的优化库，支持多 GPU/TPU 训练。
GitHub：https://github.com/hpcaitech/ColossalAI

4. 专用 AI 服务器部署工具

适用于企业级部署，可用于本地服务器或私有云环境。

(13) FastChat

简介：适用于 OpenAI 兼容 API 部署，可以搭建自己的 ChatGPT 服务器。
GitHub：https://github.com/lm-sys/FastChat

(14) OpenWebUI

简介：支持本地运行的大模型 Web UI，适用于 GPT-4、LLaMA 2。
GitHub：https://github.com/open-webui/o

posted on 2025-03-28 16:57 kid;) 阅读(623) 评论(0) 收藏举报

刷新页面返回顶部