NVIDIA's Triton/TensorRT的Transformer语言模型性能评测与优化指南
工程实际上线部署,综合考虑并发和延迟,这块做了一个调研,希望能有所帮助。
地址:https://blog.einstein.ai/benchmarking-tensorrt-inference-server/
时刻记着自己要成为什么样的人!
工程实际上线部署,综合考虑并发和延迟,这块做了一个调研,希望能有所帮助。
地址:https://blog.einstein.ai/benchmarking-tensorrt-inference-server/