随笔分类 - computer architecture
摘要:Roofline 模型 Roof-line Model 解决的,是“计算量为A且访存量为B的模型在算力为C且带宽为D的计算平台所能达到的理论性能上限E是多少”这个问题。 参考资料 Roofline Model与深度学习模型的性能分析 NVIDIA - Nsight Compute - Rooflin
阅读全文
摘要:相同点 一个时钟周期可以同时执行多条指令 不同点 VLIW 依靠编译器和程序员自身来决定哪些指令可以并行执行 硬件实现较简单 功能比较专一的专用处理器领域 超标量 靠硬件自身来决定哪些指令可以并行地执行 硬件实现较复杂 通用领域的高性能处理器
阅读全文
摘要:世界上最简单的处理器核心是什么样的?单核单线程! 现以GPU为例。 渲染1024个顶点,也就是1024个线程。渲染的Shader程序由两条指令组成,且都是算术逻辑指令。所有算术逻辑指令的执行都花费一个时钟周期。 FragThread threads[1024]; for (auto thread :
阅读全文

浙公网安备 33010602011771号