TensorRT 和 ONNX Runtime 推理优化实战：10 个降低延迟的工程技巧

模型速度的瓶颈往往不在算法本身。几毫秒的优化累积起来就能让用户感受到明显的性能提升。下面这些技术都是在生产环境跑出来的经验，不需要重构代码实施起来也相对简单并且效果显著。