Faquir

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

KTransformers(发音为 Quick Transformers)旨在通过先进的内核优化和放置/并行策略来增强您对 🤗 [Transformers](https://github.com/huggingface/transformers) 的体验。
KTransformers 是一个以 Python 为中心的灵活框架,其核心是可扩展性。通过用一行代码实现并注入优化模块,用户可以获得与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 的 RESTful API,甚至是一个简化的类似 ChatGPT 的 Web 界面。
我们对 KTransformers 的愿景是成为一个用于实验创新 LLM 推理优化的灵活平台。如果您需要任何其他功能,请联系项目方

官方docker部署流程:https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/Docker.md

但里面给的是0.2.1的镜像,部署过程中可能有一些卡壳

以下是使用latest镜像部署安装的流程

准备工作

1、机器资源

根据模型文件的大小,来配置不同的资源。如果资源较小,可以选择小模型,比如deepseek-r1,可以在魔塔社区找

我用的是deepseek-r1-gguf,DeepSeek-R1-Q4_K_M,模型文件大小总共约200多G,

启动后内存占用230G,GPU使用12G左右

2、模型文件

这里需要注意的是,模型文件下载时,不光要下载gguf文件,也要下载相关的配置文件

gguf中可能没有,也可以到deepseek-r1模型中下载,下全了

官方建议的模型(https://kvcache-ai.github.io/ktransformers/en/install.html

2、本地先装好docker

3、选择镜像

到镜像仓库中找镜像的版本,https://docker.mybacc.com/(连不上的话可以找国内的源)。选择适合自己机器的镜像,建议下载最新的版本,因为有其他版本的问题可能都已经修复了

docker pull approachingai/ktransformers:latest-AVX512

 

后缀AVX512、AVX2意思是cpu架构相关的信息,在机器中查看cpu(lscpu)找对应的字眼,能找到哪个就下哪个

剩下就简单了,一路执行命令即可

4、启动容器并进入容器

docker run --gpus all -v /path/to/models:/models --name ktransformers -itd approachingai/ktransformers:latest-AVX512
 docker exec -it ktransformers /bin/bash

根据需要在run时设置宿主机与容器的映射端口,方便后续用api或者web方式调用

5、容器内进行chat

python -m ktransformers.local_chat  --gguf_path /models/path/to/gguf_path --model_path /models/path/to/model_path --cpu_infer 33

启动时需要花费一定时间,耐心等待,启动之后,会进入chat窗口,输入你的内容即可开始

 6、通过API方式启动

ktransformers --model_path /models/path/to/model_path --gguf_path /models/path/to/gguf_path --port 10002

启动后,当前窗口会停留在监听状态,通过其他窗口即可进行api调用

7、通过web方式启动,可访问页面

ktransformers --model_path /models/path/to/model_path --gguf_path /models/path/to/gguf_path --port 10002 --web True

启动后,当前窗口会停留在监听状态

网页端访问地址:http://localhost:10002/web/index.html#/chat 

需要改website中的配置,默认写死了

ps: 如果有问题,可以在github仓库的issues中查找,基本都有讨论,看的过程中也可以了解很多知识

posted on 2025-03-25 23:44  Faquir  阅读(1608)  评论(0)    收藏  举报