TensorRT 和 ONNX Runtime 推理优化实战:10 个降低延迟的工程技巧
模型速度的瓶颈往往不在算法本身。几毫秒的优化累积起来就能让用户感受到明显的性能提升。下面这些技术都是在生产环境跑出来的经验,不需要重构代码实施起来也相对简单并且效果显著。
https://avoid.overfit.cn/post/494ca93b9c184407936ef7b6bd16e15e
模型速度的瓶颈往往不在算法本身。几毫秒的优化累积起来就能让用户感受到明显的性能提升。下面这些技术都是在生产环境跑出来的经验,不需要重构代码实施起来也相对简单并且效果显著。
https://avoid.overfit.cn/post/494ca93b9c184407936ef7b6bd16e15e