摘要:
注意,K和W是一一对应的关系,于是这里就是在说\(\forall\)X,经过卷积层K和矩阵W得到的结果是一样的;\(\forall\)Y,经过转置卷积层K和矩阵W.T得到的结果是一样的 至于那个什么反向传播,应该是他没说清楚 阅读全文
posted @ 2025-07-30 23:18
最爱丁珰
阅读(3)
评论(0)
推荐(0)
摘要:
然后讲多输出通道那里,注意说的是“每个”输出通道“都有”一个三维卷积核 阅读全文
posted @ 2025-07-30 22:49
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
目录P375P376 P375 图5-29并行性提高的原因应该是:在第\(i\)个循环正在执行第二个mul的时候,由于add和load很快,所以第\(i+1\)个循环的第一个mul已经开始执行了,第\(i\)个循环执行完第二个mul之后准备执行第\(i+1\)个循环的第二个mul的时候,就可以无缝衔 阅读全文
posted @ 2025-07-30 22:47
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
目录P367 P367 整数加法CPE下降的原因:在P365讲述的其它性能因素,就是说每次循环,除了循环体,还有一些额外的开销,这些额外的开销与循环体的具体内容没有关系,而这些额外开销是瓶颈;这里我们进行循环展开之后,循环的总次数就减少了,额外开销不再是瓶颈,瓶颈变成了整数加法;由于总的加法次数没有 阅读全文
posted @ 2025-07-30 19:51
最爱丁珰
阅读(24)
评论(0)
推荐(0)
摘要:
目录P357 P357 这里说的指令级并行与第四章讲的流水线不同,这里指的是将整个程序的指令划分成若干独立的部分,而这些独立的部分并行进行第四章讲的流水线结构 阅读全文
posted @ 2025-07-30 18:45
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
目录P361 P361 下面的图片显示了这里说的流水线是什么意思(下面的图将一个乘法操作分成了三个微操作,每一个乘法在运算单元里面按照顺序执行三个微操作阶段) 所以这里的流水线达成了并行性。注意这里的并行性并不是指多个功能单元的并行性,而是单个并行单元的执行不同阶段的不同部分可以同时进行 发射时间指 阅读全文
posted @ 2025-07-30 16:16
最爱丁珰
阅读(6)
评论(0)
推荐(0)
摘要:
目录P357P358P360 P357 超标量的基本思想就是CPU会一次性读入很多条指令,接着会将读取的指令分成若干独立的部分,于是若干独立的部分就可以并行执行,并行执行这些部分当然就是乱序的 P358 指令译码将一条指令转换成若干基本操作之后,就会确定这些基本操作之间的依赖关系以此来找出彼此独立的 阅读全文
posted @ 2025-07-30 15:48
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
目录P345 P345 之所以要用时钟周期来度量而不是用具体的纳秒,是因为一台机器的时钟频率是固定的(比如2G Hz表示一秒运行的时钟周期为2G),所以程序员更关心一个程序所消耗的总的时钟周期是多少 阅读全文
posted @ 2025-07-30 15:13
最爱丁珰
阅读(3)
评论(0)
推荐(0)
摘要:
目录P303P306 P303 讲一下图4-53 注意这个一个方块内部代表的是正在传递的过程:比如D,开始的时候,流水线寄存器D已经加载好各个参数了(stat,icode等),D的中间表示的是传递这些参数(包括转发)到E 于是书里面的意思是这个:在周期7,0x032这个指令需要的是%eax的值,而这 阅读全文
posted @ 2025-07-30 12:25
最爱丁珰
阅读(5)
评论(0)
推荐(0)

浙公网安备 33010602011771号