摘要: 常用函数 获取模型输入节点信息 import tensorflow as tf from tensorflow.python.tools import saved_model_utils model_dir = 'model_dir' meta_graph_def = saved_model_uti 阅读全文
posted @ 2024-03-04 11:13 周周周文阳 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 背景 TensorRT-LLM是Nvidia官方推出的大模型推理加速框架,目前只对部分显卡型号有做定制加速。最近新出的Chat with RTX也是基于TensorRT-LLM进行的本地推理。 TensorRT-LLM支持PagedAttention、FlashAttention、SafeTenso 阅读全文
posted @ 2024-02-20 19:07 周周周文阳 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 介绍 当前大模型主流推理方式包括:vllm、tgi、原生transformer 回顾 目前主流大模型都是由transformer演变过来,transformer核心是attention,参考《Attention is All You Need》 ,attention核心则是3个矩阵:Query、Ke 阅读全文
posted @ 2023-12-18 11:15 周周周文阳 阅读(725) 评论(0) 推荐(0) 编辑
摘要: 介绍 目前大模型微调主要方案是 LLaMA-Factory LLaMA-Factory中,提供了两种多卡框架:Accelerate、DeepSpeed Accelerate 依赖 accelerate==0.24.1 transformers==4.34.1 datasets==2.14.7 tik 阅读全文
posted @ 2023-12-12 15:06 周周周文阳 阅读(1387) 评论(0) 推荐(0) 编辑
摘要: 背景 当前很多开源系统都是基于k8s,而部署时会遇到组件包含mysql的情况。理想的情况下,是将mysql迁移到云上托管。但实际情况可能比较复杂,比如这个开源框架需要mysql的DML权限,但是公司DBA不提供; 而基于k8s部署mysql的问题是,这个mysql集群往往是单点的。一般mysql会依 阅读全文
posted @ 2023-09-10 15:06 周周周文阳 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 序 说到深度模型优化,可能想到最多的就是上GPU,对于CV、NLP这一类模型效果非常明显,一般RT能下降到原来的1/10。但是在实际中,会遇到一些排序类的模型 例如推荐模型DSMM、ESMM、DIN等模型,这些模型深度一般只有4、5层,上GPU后性能、RT反而下降,猜测原因可能是模型网络简单,导致反 阅读全文
posted @ 2023-08-13 23:31 周周周文阳 阅读(165) 评论(0) 推荐(0) 编辑
摘要: Transformer使用 transformer是对模型推理的预处理和后处理, 官方demo: https://github.com/kserve/kserve/tree/master/python/custom_transformer,核心代码: class ImageTransformer(M 阅读全文
posted @ 2022-07-10 00:48 周周周文阳 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 基本配置 局部配置knative 在isvc anntations增加 autoscaling.knative.dev,源码位置 示例如下: apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: annotati 阅读全文
posted @ 2022-06-28 10:18 周周周文阳 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 设置全局scale to zero的暂存时间,官方文档地址 apiVersion: v1 kind: ConfigMap metadata: name: config-autoscaler namespace: knative-serving data: scale-to-zero-pod-rete 阅读全文
posted @ 2022-06-23 10:17 周周周文阳 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 现象 构建python服务镜像。在使用k8s pod部署时,kubectl logs不显示日志,而过段时间kubectl logs又能够看到日志。 其中,容器内通过 python main.py 启动python服务所有的日志使用print打印。 在使用docker run 启动容器时,docker 阅读全文
posted @ 2022-04-26 00:41 周周周文阳 阅读(1207) 评论(0) 推荐(0) 编辑