通过一个Vector*Matrix的例子来详细的讲述了如何使用SSE来优化我们的操作,讲解的很详细了.
例子分成下面的这几个步骤来完成优化操作:
Naïve C++
Basic SSE
Batch Processing
16-byte memory alignment
Instruction Pairing
Prefetching
Increase Temporal Locality of Memory I/O
Application-Specific Specialization
最终函数的执行时间从90 cycles/vector降到了17 cycles/vector,呵呵
Optimizing for SSE: A Case Study
例子分成下面的这几个步骤来完成优化操作:
Naïve C++
Basic SSE
Batch Processing
16-byte memory alignment
Instruction Pairing
Prefetching
Increase Temporal Locality of Memory I/O
Application-Specific Specialization
最终函数的执行时间从90 cycles/vector降到了17 cycles/vector,呵呵
Optimizing for SSE: A Case Study

浙公网安备 33010602011771号