s4,mamba,mamba vision
RNN对比S4


SMM
当前状态+输入 -> 预测下一个状态
推理时以RNN的自回归形式
训练时,以一维卷积核的形式,并行计算。

区分离散、连续下的 状态方程与输出方程
连续:

离散

带skip-connection的连续SSM


灰色部分不包含skip-connection


离散->连续,连续->离散
通过零阶保持技术(Zero-order hold technique),指定步长(size) \(\Delta\) 达到离散输入->连续输入
根据步长size进行采样,达到 连续输出->离散输出
对A,B做零阶保持

问题:
- 为何可以像卷积一样计算(训练时)?
其中矩阵K由常量组成,故可先行得到K

\(y_k = C \bar{A}^k \bar{B} x_0 + C \bar{A}^{k-1} \bar{B} x_1 + \cdots + C \bar{A} \bar{B} x_{k-1} + C \bar{B} x_k\)
化为向量相乘,左边是K,右边是X
\(y_3 = \begin{pmatrix} C\bar{A}\bar{A}\bar{A}\bar{B} & C\bar{A}\bar{A}\bar{B} & C\bar{A}\bar{B} & C\bar{B} \end{pmatrix} \begin{pmatrix} x_0 \\ x_1 \\ x_2 \\ x_3 \end{pmatrix}\)
\(\bar{\mathbf{K}} = ( C\bar{B} \quad C\bar{A}\bar{B} \quad \dots \quad C\bar{A}^k\bar{B} )\)
\(y = \bar{\mathbf{K}} * x\)
-
SSM是如何解决长期记忆问题的?
长距离依赖问题的解决之道:HiPPO(不懂) -
不理解这里的S4概括

本文来自博客园,作者:main(void),转载请注明原文链接:https://www.cnblogs.com/MR---Zhao/p/19398274

浙公网安备 33010602011771号