《利用 XLA 将 GPU 性能推向极限》，2018-11-22，Toby Boyd、Yanan Cao、Sanjoy Das、Thomas Joerg、Justin Lebar

在各种内部模型上观察到速度提升1.13～3.04倍。

通常情况下，当您运行 TensorFlow 图表时，所有运算都由 TensorFlow 图表执行器单独执行。每个运算都会安装由图表执行器分派的预编译 GPU 内核（随附于 TensorFlow 二进制文件中）。

XLA 提供了另一种运行 TensorFlow 模型的模式：这种模式会将您的 TensorFlow 图表编译成专为您的模型生成的 GPU 内核序列。由于这些是您程序独有的内核，因此它们可以利用模型的特定信息进行优化。

posted @ 2020-07-27 15:55 ZH奶酪阅读(345) 评论(0) 收藏举报

刷新页面返回顶部

ZH奶酪(张贺)