s4,mamba,mamba vision

RNN对比S4

SMM
当前状态+输入 -> 预测下一个状态

推理时以RNN的自回归形式
训练时，以一维卷积核的形式，并行计算。

区分离散、连续下的状态方程与输出方程
连续：

离散

带skip-connection的连续SSM

灰色部分不包含skip-connection

离散->连续，连续->离散

通过零阶保持技术(Zero-order hold technique)，指定步长(size) \(\Delta\) 达到离散输入->连续输入
根据步长size进行采样，达到连续输出->离散输出

对A,B做零阶保持

问题：

为何可以像卷积一样计算（训练时）？
其中矩阵K由常量组成，故可先行得到K

\(y_k = C \bar{A}^k \bar{B} x_0 + C \bar{A}^{k-1} \bar{B} x_1 + \cdots + C \bar{A} \bar{B} x_{k-1} + C \bar{B} x_k\)
化为向量相乘,左边是K,右边是X
\(y_3 = \begin{pmatrix} C\bar{A}\bar{A}\bar{A}\bar{B} & C\bar{A}\bar{A}\bar{B} & C\bar{A}\bar{B} & C\bar{B} \end{pmatrix} \begin{pmatrix} x_0 \\ x_1 \\ x_2 \\ x_3 \end{pmatrix}\)

\(\bar{\mathbf{K}} = ( C\bar{B} \quad C\bar{A}\bar{B} \quad \dots \quad C\bar{A}^k\bar{B} )\)
\(y = \bar{\mathbf{K}} * x\)

SSM是如何解决长期记忆问题的？
长距离依赖问题的解决之道：HiPPO（不懂）
不理解这里的S4概括

posted @ 2025-12-29 09:59 main(void) 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

To be or not to be

That is a question

s4,mamba,mamba vision

公告