Rocket - core - bypass或者stall

https://mp.weixin.qq.com/s/g2oTABxX1RXp03sod87hmw

简单介绍bypass或者stall之间的差异。

1. 概述

bypass的条件与stall的条件并不相同，甚至应该互斥。即不能bypass的则stall，不stall的则bypass。前提条件是存在hazard。下面针对这两种情况进行分析。

2. bypass的判断条件

bypass的条件由id_bypass_src根据bypass_sources中定义的情况确定：

以ID/EX两个阶段的hazard为例，要bypass的情况，简单而言就是RAW，即Read After Write，即ID阶段的指令，需要EX阶段指令要回写的寄存器的值。（由于用来做bypass的数据来自于mem_reg_wdata，而mem_reg_wdata使用alu.io.out进行更新，所以EX阶段指令的rd的值必须来自于alu.io.out。）

3. stall的判断条件：以ID/EX两个阶段的hazard为例

以ID/EX两个阶段的hazard为例，stall的条件为：

忽略fpu hazard，就是data hazard去掉一些不能bypass的情况。

这里的data hazards包含RAW和WAW两种情况：

a. ex_waddr与id_raddr1/id_raddr2进行比对；

b. ex_waddr与id_waddr进行比对；

不能bypass的情况，则不是单纯的从理论上来考虑，还包括一些实现上没有bypass的情况。

首先从理论上而言，不能bypass而必须stall ID阶段的指令的原因，就是EX阶段的指令无法及时的给出所需要的数据。包括：

a. 计算需要的时间过长；

b. 读取所需要的时间过长；

从当前的实现而言，

a. mul/div/fp/rock/scie表示计算所需要的时间过长；

b. mem表示获取所需要的时间过长（在最快即dcache命中的情况下，在WB阶段才能返回数据）；

那么另外的两种情况呢？为什么csr和jalr不能bypass呢？这是因为实现的原因。

4. 为什么jalr不能bypass而jal可以？

这是一个很容易联想到的问题。

首先看jal指令的情况：

其效果如下：

a. PC + imm => target address；

b. PC + 4 => rd;

jalr指令在规范中的描述如下：

其效果如下：

a. rs1 + imm => target address;

b. PC + 4 => rd;

看上去并没有太大的差异。在看二者的实现：

可以看到，虽然都使用alu做加法运算，但是jal指令使用alu计算PC + 4，而jalr使用alu计算rs1 + imm。jal指令的PC + 4后续回写到rd，而jalr指令的rs1 + imm却不会回写到rd。

所以对jalr指令，不能将alu.io.out的值用于bypass。而在bypass的实现中，只使用的是mem_reg_wdata进行bypass，其值来自于alu.io.out:

所以jalr不能用于bypass，而jal可以。CSR指令的情况也类似：

alu计算的结果要存入csr，而不是rd:

5. 小结：以ID/EX两个阶段的hazard为例

1) data hazards

使用图形表示，data hazards的情况，包括在如下的矩形中：

2) RAW和WAW

data hazards包括RAW和WAW两种情况：

3) ex_cannot_bypass

如果加上ex_cannot_bypass代表的情况，其关系图示如下：

其中：

针对RAW的情况：

a. bypass判断时，判断了RAW的情况：

b. ex_cannot_bypass从RAW中排除了一些不能bypass的情况，必须要stall；

c. RAW中剩余的情况，就是实际bypass了的情况；

针对WAW的情况：

a. WAW的全部情况都不需要bypass；

b. WAW的部分情况需要stall，如ex_ctrl.mem代表的情况。所以ex_cannot_bypass也从WAW中排除了一些情况；

4) 跳出data hazards之外

如果跳出data hazards之外，考虑与ex_cannot_bypass的关系，其关系如下图：

ex_cannot_bypass中包含了一些data hazards中不包含的情况。如果没有data hazards的限制，这些情况也会导致stall。加上了data hazards的限制之后，这些情况则不会导致stall。也就是说存在一些情况，虽然前面一条指令需要花较长时间而没有执行完成，但后一条指令却没有被stall而继续执行。在这种情况下，后一条指令先于前一条指令完成。

考虑如下指令序列：

1: load

2: nop

第1条指令属于ex_cannot_bypass的情况（ex_ctrl.mem = true），但两条指令不是data hazards（既不是RAW，也不是WAW）。不满足id_ex_hazard的条件：

所以不会导致第2条指令stall在ID阶段。而是会继续沿着流水线经过EX/MEM/WB阶段执行完毕。

因为第一条指令的信息存放在sboard中，另一部分经过io.dmem.req被dcache模块记录，dcache模块返回时会带有相关的信息，所以不影响返回结果回写寄存器。

posted @ 2022-03-21 20:16 wjcdx 阅读(343) 评论(0) 收藏举报

刷新页面返回顶部

技术之一

Rocket - core - bypass或者stall

公告