\((3)\) 为什么预测的时候还需要存储中间变量\(z,h,o\),我们直接释放掉不就行了吗? 实际上存储不是这么理解的,我们计算了\(z,h,o\)就势必在某一个时刻会将其作为临时变量存储在内存中(尽管这个时间可能非常短),这个样子仍然是消耗了内存的,我们也要算上