摘要: 硬件辅助的NPU多租户,提高资源利用率和公平性 摘要 现代云平台已经部署了像谷歌云TPU这样的神经处理单元(NPU),以加速在线机器学习(ML)推理服务。为了提高NPU的资源利用率,他们允许多个ML应用程序共享同一个NPU,并开发了时间复用和基于抢占的共享机制。然而,对真实世界的NPU的研究表明,由 阅读全文
posted @ 2024-01-20 05:16 吴建明wujianming 阅读(121) 评论(0) 推荐(0)