本地部署大模型的工具汇总
总结如下:
- 入门级轻量部署:Ollama、LM Studio、GPT4All
- 高性能推理:Llama.cpp、vLLM、TGI、TensorRT-LLM
- 本地微调:LoRA + PEFT、Axolotl、DeepSpeed
- 企业级 API 部署:FastChat、OpenWebUI
1. 轻量级推理工具(适用于消费级硬件)
这些工具适用于个人 PC、笔记本,甚至是边缘设备,如 Jetson Nano 或 Raspberry Pi。
(1) Ollama
- 简介:适用于 Mac、Windows、Linux,支持一键部署开源 LLM(如 Llama、Mistral)。
- 优点:安装简单,支持 GPU 加速,命令行交互直观。
- 官网:https://ollama.com/
(2) LM Studio
- 简介:适用于 Windows/Mac,带有 GUI 界面,可以下载并本地运行 LLaMA、Mistral 等模型。
- 优点:界面友好,易于管理多个模型,支持 GPU 加速。
- 官网:https://lmstudio.ai/
(3) GPT4All
- 简介:支持多种开源 LLM(如 LLaMA、Mistral),有 GUI 版本和 CLI 版本。
- 优点:跨平台(Win/Linux/Mac),可在 CPU 运行。
- 官网:https://gpt4all.io/
(4) KoboldCpp
- 简介:专门用于本地运行 AI 写作助手(支持 Llama.cpp)。
- 优点:优化推理速度,适合文本创作场景。
- GitHub:https://github.com/LostRuins/koboldcpp
2. 高性能推理框架(适用于 GPU/服务器)
这些工具适用于拥有高性能 GPU(如 RTX 3090、A100)的用户或服务器端推理。
(5) Llama.cpp
- 简介:Meta LLaMA 模型的高效 C++ 推理引擎,支持 CPU 和 GPU(OpenCL/CUDA)。
- 优点:轻量级,性能优化,适合本地推理。
- GitHub:https://github.com/ggerganov/llama.cpp
(6) vLLM
- 简介:专为高吞吐量优化的 LLM 推理引擎,支持 Hugging Face Transformer 模型。
- 优点:比传统 PyTorch 推理快数倍,适用于部署高性能 API。
- GitHub:https://github.com/vllm-project/vllm
(7) TGI(Text Generation Inference)
- 简介:Hugging Face 官方推出的高效推理框架,支持 LLaMA、Falcon、Mistral 等。
- 优点:优化显存占用,支持多 GPU 执行。
- GitHub:https://github.com/huggingface/text-generation-inference
(8) TensorRT-LLM
- 简介:NVIDIA 推出的 LLM 推理优化库,支持 Transformer 架构,适用于 A100/H100 GPU。
- 优点:极致优化推理速度,减少显存占用。
- GitHub:https://github.com/NVIDIA/TensorRT-LLM
3. 本地训练与微调工具(适用于有多 GPU/TPU 需求)
如果你想要本地微调大模型(如 LLaMA 2、Mistral),可以使用以下工具:
(9) LoRA + PEFT
- 简介:利用 LoRA(低秩适配)进行高效微调,适用于 Hugging Face 生态。
- GitHub:https://github.com/huggingface/peft
(10) Axolotl
- 简介:封装了 LoRA 微调流程,适用于 LLaMA、Mistral 等大模型。
- GitHub:https://github.com/OpenAccess-AI-Collective/axolotl
(11) DeepSpeed
- 简介:微软推出的 LLM 训练优化库,可用于大模型的高效并行训练。
- GitHub:https://github.com/microsoft/DeepSpeed
(12) Colossal-AI
- 简介:适用于大模型训练和推理的优化库,支持多 GPU/TPU 训练。
- GitHub:https://github.com/hpcaitech/ColossalAI
4. 专用 AI 服务器部署工具
适用于企业级部署,可用于本地服务器或私有云环境。
(13) FastChat
- 简介:适用于 OpenAI 兼容 API 部署,可以搭建自己的 ChatGPT 服务器。
- GitHub:https://github.com/lm-sys/FastChat
(14) OpenWebUI
- 简介:支持本地运行的大模型 Web UI,适用于 GPT-4、LLaMA 2。
- GitHub:https://github.com/open-webui/o
 
                    
                 
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号