公告

使用docker快速部署ktransformers的操作流程

KTransformers（发音为 Quick Transformers）旨在通过先进的内核优化和放置/并行策略来增强您对 🤗 [Transformers](https://github.com/huggingface/transformers) 的体验。
KTransformers 是一个以 Python 为中心的灵活框架，其核心是可扩展性。通过用一行代码实现并注入优化模块，用户可以获得与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 的 RESTful API，甚至是一个简化的类似 ChatGPT 的 Web 界面。
我们对 KTransformers 的愿景是成为一个用于实验创新 LLM 推理优化的灵活平台。如果您需要任何其他功能，请联系项目方

官方docker部署流程：https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/Docker.md

但里面给的是0.2.1的镜像，部署过程中可能有一些卡壳

以下是使用latest镜像部署安装的流程

准备工作

1、机器资源

根据模型文件的大小，来配置不同的资源。如果资源较小，可以选择小模型，比如deepseek-r1，可以在魔塔社区找

我用的是deepseek-r1-gguf，DeepSeek-R1-Q4_K_M，模型文件大小总共约200多G，

启动后内存占用230G，GPU使用12G左右

2、模型文件

这里需要注意的是，模型文件下载时，不光要下载gguf文件，也要下载相关的配置文件

gguf中可能没有，也可以到deepseek-r1模型中下载，下全了

官方建议的模型（https://kvcache-ai.github.io/ktransformers/en/install.html）

2、本地先装好docker

3、选择镜像

到镜像仓库中找镜像的版本，https://docker.mybacc.com/（连不上的话可以找国内的源）。选择适合自己机器的镜像，建议下载最新的版本，因为有其他版本的问题可能都已经修复了

docker pull approachingai/ktransformers:latest-AVX512

后缀AVX512、AVX2意思是cpu架构相关的信息，在机器中查看cpu（lscpu）找对应的字眼，能找到哪个就下哪个

剩下就简单了，一路执行命令即可

4、启动容器并进入容器

docker run --gpus all -v /path/to/models:/models --name ktransformers -itd approachingai/ktransformers:latest-AVX512

 docker exec -it ktransformers /bin/bash

根据需要在run时设置宿主机与容器的映射端口，方便后续用api或者web方式调用

5、容器内进行chat

python -m ktransformers.local_chat  --gguf_path /models/path/to/gguf_path --model_path /models/path/to/model_path --cpu_infer 33

启动时需要花费一定时间，耐心等待，启动之后，会进入chat窗口，输入你的内容即可开始

6、通过API方式启动

ktransformers --model_path /models/path/to/model_path --gguf_path /models/path/to/gguf_path --port 10002

启动后，当前窗口会停留在监听状态，通过其他窗口即可进行api调用

7、通过web方式启动，可访问页面

ktransformers --model_path /models/path/to/model_path --gguf_path /models/path/to/gguf_path --port 10002 --web True

启动后，当前窗口会停留在监听状态

网页端访问地址：http://localhost:10002/web/index.html#/chat

需要改website中的配置，默认写死了

ps：如果有问题，可以在github仓库的issues中查找，基本都有讨论，看的过程中也可以了解很多知识

posted on 2025-03-25 23:44 Faquir 阅读(1608) 评论(0) 收藏举报

刷新页面返回顶部