What is Fermi?(11)

支持32xCSAA的ROP单元

在GT200当中，虽然开启4x抗锯齿后仍然能够获得不错的性能表现，不过在8x抗锯齿下，由于ROP单元设计因素，在一些最新游戏当中会出现较为明显的性能下降。因此，NVIDIA在GF100当中重新对ROP单元进行了优化，不仅8x抗锯齿获得较大的性能提升，同时还加入了最新的32x覆盖采样抗锯齿模式。

抗锯齿效能提升

GF100为了提升8x抗锯齿下的性能表现，重新设计了ROP子系统，大幅提升数据吞吐量以及执行效率。在GF100架构当中，包含了6组ROP单元，每组包含8个ROP单元，并且每组ROP单元均由一个64bit的显存控制器来进行控制。实际上，每组ROP单元都与一个64bit显存控制器、一组L2缓存关联起来，如果增加或删减一组ROP单元，那么其他被关联的两个部件也将会相应的增加或删减。

在GF100当中，每组ROP当中的ROP单元数量也比上一代架构翻了一番，并且每个ROP单元在一个时钟周期内均能够输出一个32位整数像素，一个FP16像素需要两个以上的时钟周期，一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升，相同地址的原子操作执行速度最高可达GT200的20倍，邻近存储区的操作执行速度最高可达7.5倍。

那么，能够让8x多重采样抗锯齿（MSAA）的性能大幅提升原因在哪里？其实从前面的介绍当中各位已经能够了解到，NVIDIA在ROP子系统上做出了重大的改进，因此在压缩效率方面有了很大的提升，让更多的ROP单元能够更有效的渲染那些未经过压缩的小基元。

举例来说，在《鹰击长空》游戏当中，NVIDIA上一代顶级产品GeForce GTX 285在分别开启4x抗锯齿以及8x抗锯齿对比下，性能下降幅度大约在50%以上，而在最新的GF100产品上，同样开启4x反锯齿和8x反锯齿进行对比，两者性能差距仅为9%。

全新32x覆盖采样抗锯齿

ROP单元的改进不仅为我们带来了更好的8x抗锯齿性能，同时还为我们带来了全新的32x覆盖采样抗锯齿（CSAA）模式，全新的32x CSAA能够为我们带来更加顶级的画面效果。全新的32x覆盖采样抗锯齿（CSAA）不仅仅是因为显卡性能提升而增加，同时也要受益于最新的DirectX 11 API。在DX11当中，新增了“透明覆盖（Alpha-to-Coverage）”功能，让抗锯齿在一些非常细致的表现当中更加真实。下面两张草叶的截图就是很好的证明：

覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样，那么将会出现非常糟糕的锯齿以及镶边现象，尤其是在纹理靠近屏幕的时候（例如上图左半部分的画面表现）。采用32x CSAA后，GPU将会提供32个覆盖采样，从而最大限度减少了毛边效果。

另外，由于“透明覆盖”不支持DX9，因此在DX9游戏当中无法实现32xCSAA效果。不过NVIDIA为此推出了一种“透明测试（alpha test）”技术，使得TMAA能够转换DirectX 9应用程序中旧的着色器代码，让透明纹理的边缘硬化，从而加入“透明覆盖”，同样达到了不错的抗锯齿效果。

32x CSAA的效能也要比我们想象当中的快很多，在实际测试当中，如果8x MSAA性能为100%，那么32x CSAA的效能大约为8x MSAA的90%以上，甚至接近95%。从而为玩家开启32x CSAA提供了极大的可行性。

posted @ 2010-04-22 16:36 芈希有阅读(322) 评论(0) 收藏举报

刷新页面返回顶部

希有阁

成长是男人的致命伤

What is Fermi?(11)

公告