摘要: Rate Limiter 这篇文章记录 Rate Limter 的使用方法,主要来自于文档。 从效果上来说,Rate Limiter 的作用是限制了请求分发到模型实例上。从实现上来说,Rate Limiter 引入了 “Resource” 的概念,表示一个模型实例需要的资源,当系统中存在足够的资源, 阅读全文
posted @ 2021-11-11 21:38 楷哥 阅读(1369) 评论(0) 推荐(0) 编辑
摘要: 前言 这段时间一直在学习如何使用 Triton,期间也是一直在尝试构建 Triton Inference Server。这构建的过程感觉特别的痛苦,一方面是网络问题导致的构建速度慢、构建失败的问题,另一方面是 Triton 提供的构建脚本在我这儿并不有效,需要自己想一个办法。 按照官方的文档,我们有 阅读全文
posted @ 2021-11-11 15:58 楷哥 阅读(3662) 评论(11) 推荐(0) 编辑
摘要: Model Warmup 的设置 这一篇非常简单,就是记录 Model Warmup 是如何使用的。本来是为了解决第一次推理太慢的问题,后来发现其实不适用 Model Warmup。不过都已经手写了 protobuf 了,官方的例子还藏在测试的 .sh 文件中,为了方便后续使用,就写一篇来做记录好了 阅读全文
posted @ 2021-11-11 10:56 楷哥 阅读(2296) 评论(0) 推荐(0) 编辑