随笔分类 -  computer architecture

摘要:Roofline 模型 Roof-line Model 解决的,是“计算量为A且访存量为B的模型在算力为C且带宽为D的计算平台所能达到的理论性能上限E是多少”这个问题。 参考资料 Roofline Model与深度学习模型的性能分析 NVIDIA - Nsight Compute - Rooflin 阅读全文
posted @ 2022-07-19 15:14 专注于GPU的程序员 阅读(105) 评论(0) 推荐(0)
摘要:相同点 一个时钟周期可以同时执行多条指令 不同点 VLIW 依靠编译器和程序员自身来决定哪些指令可以并行执行 硬件实现较简单 功能比较专一的专用处理器领域 超标量 靠硬件自身来决定哪些指令可以并行地执行 硬件实现较复杂 通用领域的高性能处理器 阅读全文
posted @ 2022-05-05 10:16 专注于GPU的程序员 阅读(151) 评论(0) 推荐(0)
摘要:世界上最简单的处理器核心是什么样的?单核单线程! 现以GPU为例。 渲染1024个顶点,也就是1024个线程。渲染的Shader程序由两条指令组成,且都是算术逻辑指令。所有算术逻辑指令的执行都花费一个时钟周期。 FragThread threads[1024]; for (auto thread : 阅读全文
posted @ 2020-12-12 12:27 专注于GPU的程序员 阅读(739) 评论(0) 推荐(0)