本地部署大模型的工具汇总

总结如下:

1. 轻量级推理工具(适用于消费级硬件)

这些工具适用于个人 PC、笔记本,甚至是边缘设备,如 Jetson Nano 或 Raspberry Pi。

(1) Ollama

  • 简介:适用于 Mac、Windows、Linux,支持一键部署开源 LLM(如 Llama、Mistral)。
  • 优点:安装简单,支持 GPU 加速,命令行交互直观。
  • 官网:

(2) LM Studio

  • 简介:适用于 Windows/Mac,带有 GUI 界面,可以下载并本地运行 LLaMA、Mistral 等模型。
  • 优点:界面友好,易于管理多个模型,支持 GPU 加速。
  • 官网:

(3) GPT4All

  • 简介:支持多种开源 LLM(如 LLaMA、Mistral),有 GUI 版本和 CLI 版本。
  • 优点:跨平台(Win/Linux/Mac),可在 CPU 运行。
  • 官网:

(4) KoboldCpp

2. 高性能推理框架(适用于 GPU/服务器)

这些工具适用于拥有高性能 GPU(如 RTX 3090、A100)的用户或服务器端推理。

(5) Llama.cpp

  • 简介:Meta LLaMA 模型的高效 C++ 推理引擎,支持 CPU 和 GPU(OpenCL/CUDA)。
  • 优点:轻量级,性能优化,适合本地推理。
  • GitHub:

(6) vLLM

  • 简介:专为高吞吐量优化的 LLM 推理引擎,支持 Hugging Face Transformer 模型。
  • 优点:比传统 PyTorch 推理快数倍,适用于部署高性能 API。
  • GitHub:

(7) TGI(Text Generation Inference)

(8) TensorRT-LLM

  • 简介:NVIDIA 推出的 LLM 推理优化库,支持 Transformer 架构,适用于 A100/H100 GPU。
  • 优点:极致优化推理速度,减少显存占用。
  • GitHub:

3. 本地训练与微调工具(适用于有多 GPU/TPU 需求)

如果你想要本地微调大模型(如 LLaMA 2、Mistral),可以使用以下工具:

(9) LoRA + PEFT

(10) Axolotl

(11) DeepSpeed

(12) Colossal-AI

4. 专用 AI 服务器部署工具

适用于企业级部署,可用于本地服务器或私有云环境。

(13) FastChat

(14) OpenWebUI

posted on 2025-03-28 16:57  kid;)  阅读(623)  评论(0)    收藏  举报