摘要:
Rate Limiter 这篇文章记录 Rate Limter 的使用方法,主要来自于文档。 从效果上来说,Rate Limiter 的作用是限制了请求分发到模型实例上。从实现上来说,Rate Limiter 引入了 “Resource” 的概念,表示一个模型实例需要的资源,当系统中存在足够的资源, 阅读全文
摘要:
前言 这段时间一直在学习如何使用 Triton,期间也是一直在尝试构建 Triton Inference Server。这构建的过程感觉特别的痛苦,一方面是网络问题导致的构建速度慢、构建失败的问题,另一方面是 Triton 提供的构建脚本在我这儿并不有效,需要自己想一个办法。 按照官方的文档,我们有 阅读全文
摘要:
Model Warmup 的设置 这一篇非常简单,就是记录 Model Warmup 是如何使用的。本来是为了解决第一次推理太慢的问题,后来发现其实不适用 Model Warmup。不过都已经手写了 protobuf 了,官方的例子还藏在测试的 .sh 文件中,为了方便后续使用,就写一篇来做记录好了 阅读全文