随笔档案「2025年7月30日」：13.10.3 与矩阵变换的联系 ... - 最爱丁珰

2025年7月30日

摘要：注意，K和W是一一对应的关系，于是这里就是在说\(\forall\)X，经过卷积层K和矩阵W得到的结果是一样的；\(\forall\)Y，经过转置卷积层K和矩阵W.T得到的结果是一样的至于那个什么反向传播，应该是他没说清楚阅读全文

posted @ 2025-07-30 23:18 最爱丁珰阅读(4) 评论(0) 推荐(0)

摘要：然后讲多输出通道那里，注意说的是“每个”输出通道“都有”一个三维卷积核阅读全文

posted @ 2025-07-30 22:49 最爱丁珰阅读(7) 评论(0) 推荐(0)

摘要：目录P375P376 P375 图5-29并行性提高的原因应该是：在第\(i\)个循环正在执行第二个mul的时候，由于add和load很快，所以第\(i+1\)个循环的第一个mul已经开始执行了，第\(i\)个循环执行完第二个mul之后准备执行第\(i+1\)个循环的第二个mul的时候，就可以无缝衔阅读全文

posted @ 2025-07-30 22:47 最爱丁珰阅读(7) 评论(0) 推荐(0)

5.8 循环展开

摘要：目录P367 P367 整数加法CPE下降的原因：在P365讲述的其它性能因素，就是说每次循环，除了循环体，还有一些额外的开销，这些额外的开销与循环体的具体内容没有关系，而这些额外开销是瓶颈；这里我们进行循环展开之后，循环的总次数就减少了，额外开销不再是瓶颈，瓶颈变成了整数加法；由于总的加法次数没有阅读全文

posted @ 2025-07-30 19:51 最爱丁珰阅读(25) 评论(0) 推荐(0)

5.7 理解现代处理器

摘要：目录P357 P357 这里说的指令级并行与第四章讲的流水线不同，这里指的是将整个程序的指令划分成若干独立的部分，而这些独立的部分并行进行第四章讲的流水线结构阅读全文

posted @ 2025-07-30 18:45 最爱丁珰阅读(5) 评论(0) 推荐(0)

5.7.2 功能单元的性能

摘要：目录P361 P361 下面的图片显示了这里说的流水线是什么意思（下面的图将一个乘法操作分成了三个微操作，每一个乘法在运算单元里面按照顺序执行三个微操作阶段）所以这里的流水线达成了并行性。注意这里的并行性并不是指多个功能单元的并行性，而是单个并行单元的执行不同阶段的不同部分可以同时进行发射时间指阅读全文

posted @ 2025-07-30 16:16 最爱丁珰阅读(8) 评论(0) 推荐(0)

5.7.1 整体操作

摘要：目录P357P358P360 P357 超标量的基本思想就是CPU会一次性读入很多条指令，接着会将读取的指令分成若干独立的部分，于是若干独立的部分就可以并行执行，并行执行这些部分当然就是乱序的 P358 指令译码将一条指令转换成若干基本操作之后，就会确定这些基本操作之间的依赖关系以此来找出彼此独立的阅读全文

posted @ 2025-07-30 15:48 最爱丁珰阅读(5) 评论(0) 推荐(0)

5.2 表示程序性能

摘要：目录P345 P345 之所以要用时钟周期来度量而不是用具体的纳秒，是因为一台机器的时钟频率是固定的（比如2G Hz表示一秒运行的时钟周期为2G），所以程序员更关心一个程序所消耗的总的时钟周期是多少阅读全文

posted @ 2025-07-30 15:13 最爱丁珰阅读(4) 评论(0) 推荐(0)

4.5.5 流水线冒险

摘要：目录P303P306 P303 讲一下图4-53 注意这个一个方块内部代表的是正在传递的过程：比如D，开始的时候，流水线寄存器D已经加载好各个参数了（stat,icode等），D的中间表示的是传递这些参数（包括转发）到E 于是书里面的意思是这个：在周期7，0x032这个指令需要的是%eax的值，而这阅读全文

posted @ 2025-07-30 12:25 最爱丁珰阅读(8) 评论(0) 推荐(0)

最爱丁珰

公告