2021 年 11月 11 日随笔档案 - 楷哥

2021年11月11日

摘要： Rate Limiter 这篇文章记录 Rate Limter 的使用方法，主要来自于文档。从效果上来说，Rate Limiter 的作用是限制了请求分发到模型实例上。从实现上来说，Rate Limiter 引入了 “Resource” 的概念，表示一个模型实例需要的资源，当系统中存在足够的资源，阅读全文

posted @ 2021-11-11 21:38 楷哥阅读(1369) 评论(0) 推荐(0) 编辑

我不会用 Triton 系列：构建 Triton Server 过程记录

摘要：前言这段时间一直在学习如何使用 Triton，期间也是一直在尝试构建 Triton Inference Server。这构建的过程感觉特别的痛苦，一方面是网络问题导致的构建速度慢、构建失败的问题，另一方面是 Triton 提供的构建脚本在我这儿并不有效，需要自己想一个办法。按照官方的文档，我们有阅读全文

posted @ 2021-11-11 15:58 楷哥阅读(3662) 评论(11) 推荐(0) 编辑

我不会用 Triton 系列：Model Warmup 的使用

摘要： Model Warmup 的设置这一篇非常简单，就是记录 Model Warmup 是如何使用的。本来是为了解决第一次推理太慢的问题，后来发现其实不适用 Model Warmup。不过都已经手写了 protobuf 了，官方的例子还藏在测试的 .sh 文件中，为了方便后续使用，就写一篇来做记录好了阅读全文

posted @ 2021-11-11 10:56 楷哥阅读(2296) 评论(0) 推荐(0) 编辑

博客园

普普通通的大学生

公告