摘要: 现有服务框架和静态压缩技术不能适配负载的波动。服务框架全精度时违反slo(请求变慢或被丢弃),静态压缩在部署前固定,所以长期精度下降,不能在请求下降时恢复高精度 基于形态自适应,实时监控系统负载, 并根据内存压力动态调整模型组件(transformer层和KVC模块) workload变大 : 将部 阅读全文
posted @ 2025-07-29 22:49 拾墨、 阅读(15) 评论(0) 推荐(0)