通往科学发现的AI还需要什么?

上篇 blog 的核心机制 “科学发现=把不同领域知识强制放进共享表征空间,再用一致性约束逼出结构”,可以一一对应成三个AI可训练的对象,对应到工程就是:

  • 世界模型(WM):实现“共享表征空间”的唯一载体(同一 latent 状态)
  • 约束传播(CP):把“跨领域一致性”实现成作用在同一 latent 上的筛子,并让筛子能连锁剪枝
  • 结构搜索(SS):把“结构稳定家族”实现成对结构变量的显式选择与压缩,而不是指望大网络自己长出来

1

下面展开说工程上如何训练这三个部分。


1 世界模型(WM)= “共享表征空间”的具体化

1.1 共享表征空间数学表达是什么

把所有领域/仪器/尺度的知识都落到同一个可干预的状态 (z_t) 上:

  • 状态演化(受干预/控制):

\[z_{t+1} \sim p_\theta\!\left(z_{t+1}\mid z_t,\; a_t,\; u_t\right) \]

  • 多视角观测(不同领域“语言/仪器”):

\[o_t^{(k)} \sim p_{\phi_k}\!\left(o_t^{(k)}\mid z_t\right),\quad k=1,\dots,K \]

这里:

  • (z_t):共享 latent(“共享表征空间”)
  • (a_t):动作/控制量(温度、压力、配比、场强、机器人动作等)
  • (u_t):干预掩码/标签(近似 “哪些变量被 do() 强制设定”)
  • (o_t^{(k)}):第 (k) 个领域/传感器的观测

关键点:不是“每个领域一个 latent 然后对齐”,而是从结构上只允许一个 (z_t)

1.2 “强制共享”在训练里如何体现

训练目标的主项是多视角联合似然(或误差):

\[\mathcal{L}_{\text{pred}} = \sum_{t}\sum_{k=1}^{K} \mathbb{E}\Big[-\log p_{\phi_k}\!\left(o_{t+1}^{(k)}\mid z_{t+1}\right)\Big] \]

这会迫使不同领域都必须通过同一个 (z) 去解释数据——共享表征不是口号,是架构约束


2 约束传播(CP)= “一致性约束”的实现,并让它能连锁剪枝

上篇blog里的“筛子”有两个特征:

  1. 约束不是只做正则,而是能否决大块候选解释
  2. 一个约束能通过共享表征影响其他领域(“传播”)

这在工程上就是:约束必须直接作用在同一个 (z_t) / 同一个动力学上

2.1 把跨领域规律写成对 (z) 的约束项

将第 (m) 条领域约束写成可微或可判定的形式:

  • 软约束(loss):

\[\mathcal{L}_{\text{cons}} = \sum_m \lambda_m\;\mathbb{E}\Big[c_m\!\left(z_{0:T}, a_{0:T}, u_{0:T}\right)\Big] \]

其中 (c_m(\cdot)\ge 0) 表示违反程度(越大越不一致)。

例子(只依赖共享 (z),因此天然跨领域):

  • 守恒/不变性(某个量 (I) 在演化中保持):

\[c_{\text{inv}} = \sum_{t}\left\lVert I(z_{t+1}) - I(z_t)\right\rVert_2^2 \]

  • 对称/等变一致性(变换 (T) 前后结果匹配):

\[c_{\text{sym}} = \left\lVert WM\!\left(T(z_t), T(a_t), u_t\right) - T\!\left(WM(z_t, a_t, u_t)\right) \right\rVert \]

2.2 “传播”从哪里来:共享 latent 的耦合效应

传播不是额外模块的魔法,而是同一个 (z) 带来的联动:

  • 约束在 (z) 上排除一类轨迹形状
  • 那么任何观测头 (p_{\phi_k}(o^{(k)}\mid z)) 都被迫跟着调整
  • 等价于“一个领域的筛子把别的领域的解释空间也剪掉”

所以 约束传播 的本质是:把约束施加在共享坐标系((z))上,而不是施加在各自领域的输出上。

2.3 反事实一致性:让“一致性”变成可检验的硬标准

一致性可以写成:

给定同一初始状态 (z_t),对两个不同干预 ((a_t,u_t)) 与 ((a'_t,u'_t)),要求变化只沿“允许的因果通道”发生:

\[\mathcal{L}_{\text{cf}} = \mathbb{E}\Big[ d\!\left( p_\theta(z_{t+1}\mid z_t,a_t,u_t), \; p_\theta(z'_{t+1}\mid z_t,a'_t,u'_t) \right) \Big] \]

其中距离 $$(d(\cdot,\cdot)) $$不是强行相等,而是结合约束定义“该变什么、不该变什么”,例如干预掩码限定受影响子空间。


3 结构搜索(SS)= “结构稳定”如何被逼出来(显式压缩)

上篇 blog 提到:筛子越来越多,最后剩下“结构稳定家族”。工程上需要一个显式的结构变量 (S)(例如交互图、模块组合、机制选择),否则“家族”不会显化。

3.1 把“理论结构”变成可搜索变量 (S)

令世界模型依赖结构 (S):

\[z_{t+1} \sim p_{\theta,S}\!\left(z_{t+1}\mid z_t,a_t,u_t\right) \]

常见的 (S) 例子:

  • 交互图 (G)(哪些变量/对象相互作用)
  • 模块连接方式(哪些子机制被复用)
  • 机制族选择(多个机制专家的门控稀疏)

3.2 “结构压缩”写成选择压力(MDL/复杂度惩罚)

将“结构压缩”写成复杂度项 (\mathcal{C}(S)):

\[\mathcal{C}(S) \approx \begin{cases} \lVert G\rVert_0 & \text{(边数/稀疏)}\\[4pt] \text{\#modules used} & \text{(模块数)}\\[4pt] \text{MDL}(S) & \text{(描述长度)} \end{cases} \]

然后结构搜索用一个统一评分:

\[\text{Score}(S) = -\mathcal{L}_{\text{pred}} -\beta\,\mathcal{L}_{\text{cf}} -\gamma\,\mathcal{C}(S) -\sum_m \lambda_m\,\mathcal{L}_{\text{cons},m} \]

其中

\[ 1. (\mathcal{L}_{\text{pred}}):能解释多领域数据(共享表征必须“能用”); 2. (\mathcal{L}_{\text{cf}}):反事实一致(不是相关性拟合); 3. (\mathcal{C}(S)):结构压缩(留下“稳定家族”而非任意复杂黑箱); 4. (\mathcal{L}_{\text{cons}}):跨领域一致性筛子(传播剪枝); \]

SS 的作用就是在结构空间里优化/筛选 (S),让“幸存者”变少且更稳。


4 合起来的可训练闭环

把三者合并成一个总目标,可以写成:

\[\min_{\theta,\{\phi_k\},S} \;\; \mathcal{L}_{\text{pred}} + \beta\,\mathcal{L}_{\text{cf}} + \gamma\,\mathcal{C}(S) + \sum_m \lambda_m\,\mathcal{L}_{\text{cons},m} \]

其中:

  • WM:由 (\theta,{\phi_k})(动力学 + 多观测头)实现共享表征
  • CP:由 (\mathcal{L}{\text{cons}}) 与 (\mathcal{L}{\text{cf}}) 实现一致性与传播
  • SS:由 (S) 与 (\mathcal{C}(S)) 实现结构显化与压缩选择
posted @ 2025-12-24 10:19  Engineblogs  阅读(2)  评论(0)    收藏  举报