通往科学发现的AI还需要什么？

[上篇 blog 科学发现：不同领域知识的共享表征空间、一致性约束 ]的核心机制 “科学发现=把不同领域知识强制放进$\color{blue}{共享表征空间}$，再用$\color{blue}{一致性约束}$逼出$\color{blue}{结构}$”，可以一一对应成三个AI可训练的对象，对应到工程就是：

世界模型（WM）：实现“共享表征空间”的唯一载体（同一 latent 状态）
约束传播（CP）：把“跨领域一致性”实现成作用在同一 latent 上的筛子，并让筛子能连锁剪枝
结构搜索（SS）：把“结构稳定家族”实现成对结构变量的显式选择与压缩，而不是指望大网络自己长出来

下面展开说工程上如何训练这三个部分。

1 世界模型（WM）= “共享表征空间”的具体化

1.1 共享表征空间数学表达是什么

把所有领域/仪器/尺度的知识都落到同一个可干预的状态 (z_t) 上：

状态演化（受干预/控制）：

\[z_{t+1} \sim p_\theta\!\left(z_{t+1}\mid z_t,\; a_t,\; u_t\right) \]

多视角观测（不同领域“语言/仪器”）：

\[o_t^{(k)} \sim p_{\phi_k}\!\left(o_t^{(k)}\mid z_t\right),\quad k=1,\dots,K \]

这里：

(z_t)：共享 latent（“共享表征空间”）
(a_t)：动作/控制量（温度、压力、配比、场强、机器人动作等）
(u_t)：干预掩码/标签（近似 “哪些变量被 do() 强制设定”）
(o_t^{(k)})：第 (k) 个领域/传感器的观测

关键点：不是“每个领域一个 latent 然后对齐”，而是从结构上只允许一个 (z_t)。

1.2 “强制共享”在训练里如何体现

训练目标的主项是多视角联合似然（或误差）：

\[\mathcal{L}_{\text{pred}} = \sum_{t}\sum_{k=1}^{K} \mathbb{E}\Big[-\log p_{\phi_k}\!\left(o_{t+1}^{(k)}\mid z_{t+1}\right)\Big] \]

这会迫使不同领域都必须通过同一个 (z) 去解释数据——共享表征不是口号，是架构约束。

2 约束传播（CP）= “一致性约束”的实现，并让它能连锁剪枝

上篇blog里的“筛子”有两个特征：

约束不是只做正则，而是能否决大块候选解释
一个约束能通过共享表征影响其他领域（“传播”）

这在工程上就是：约束必须直接作用在同一个 (z_t) / 同一个动力学上。

2.1 把跨领域规律写成对 (z) 的约束项

将第 (m) 条领域约束写成可微或可判定的形式：

软约束（loss）：

\[\mathcal{L}_{\text{cons}} = \sum_m \lambda_m\;\mathbb{E}\Big[c_m\!\left(z_{0:T}, a_{0:T}, u_{0:T}\right)\Big] \]

其中 (c_m(\cdot)\ge 0) 表示违反程度（越大越不一致）。

例子（只依赖共享 (z)，因此天然跨领域）：

守恒/不变性（某个量 (I) 在演化中保持）：

\[c_{\text{inv}} = \sum_{t}\left\lVert I(z_{t+1}) - I(z_t)\right\rVert_2^2 \]

对称/等变一致性（变换 (T) 前后结果匹配）：

\[c_{\text{sym}} = \left\lVert WM\!\left(T(z_t), T(a_t), u_t\right) - T\!\left(WM(z_t, a_t, u_t)\right) \right\rVert \]

2.2 “传播”从哪里来：共享 latent 的耦合效应

传播不是额外模块的魔法，而是同一个 (z) 带来的联动：

约束在 (z) 上排除一类轨迹形状
那么任何观测头 (p_{\phi_k}(o^{(k)}\mid z)) 都被迫跟着调整
等价于“一个领域的筛子把别的领域的解释空间也剪掉”

所以约束传播的本质是：把约束施加在共享坐标系（(z)）上，而不是施加在各自领域的输出上。

2.3 反事实一致性：让“一致性”变成可检验的硬标准

一致性可以写成：

给定同一初始状态 (z_t)，对两个不同干预 ((a_t,u_t)) 与 ((a'_t,u'_t))，要求变化只沿“允许的因果通道”发生：

\[\mathcal{L}_{\text{cf}} = \mathbb{E}\Big[ d\!\left( p_\theta(z_{t+1}\mid z_t,a_t,u_t), \; p_\theta(z'_{t+1}\mid z_t,a'_t,u'_t) \right) \Big] \]

其中距离 $$(d(\cdot,\cdot)) $$不是强行相等，而是结合约束定义“该变什么、不该变什么”，例如干预掩码限定受影响子空间。

3 结构搜索（SS）= “结构稳定”如何被逼出来（显式压缩）

上篇 blog 提到：筛子越来越多，最后剩下“结构稳定家族”。工程上需要一个显式的结构变量 (S)（例如交互图、模块组合、机制选择），否则“家族”不会显化。

3.1 把“理论结构”变成可搜索变量 (S)

令世界模型依赖结构 (S)：

\[z_{t+1} \sim p_{\theta,S}\!\left(z_{t+1}\mid z_t,a_t,u_t\right) \]

常见的 (S) 例子：

交互图 (G)（哪些变量/对象相互作用）
模块连接方式（哪些子机制被复用）
机制族选择（多个机制专家的门控稀疏）

3.2 “结构压缩”写成选择压力（MDL/复杂度惩罚）

将“结构压缩”写成复杂度项 (\mathcal{C}(S))：

\[\mathcal{C}(S) \approx \begin{cases} \lVert G\rVert_0 & \text{(边数/稀疏)}\\[4pt] \text{\#modules used} & \text{(模块数)}\\[4pt] \text{MDL}(S) & \text{(描述长度)} \end{cases} \]

然后结构搜索用一个统一评分：

\[\text{Score}(S) = -\mathcal{L}_{\text{pred}} -\beta\,\mathcal{L}_{\text{cf}} -\gamma\,\mathcal{C}(S) -\sum_m \lambda_m\,\mathcal{L}_{\text{cons},m} \]

其中：

\[ 1. (\mathcal{L}_{\text{pred}})：能解释多领域数据（共享表征必须“能用”）; 2. (\mathcal{L}_{\text{cf}})：反事实一致（不是相关性拟合）; 3. (\mathcal{C}(S))：结构压缩（留下“稳定家族”而非任意复杂黑箱）; 4. (\mathcal{L}_{\text{cons}})：跨领域一致性筛子（传播剪枝）; \]

SS 的作用就是在结构空间里优化/筛选 (S)，让“幸存者”变少且更稳。

4 合起来的可训练闭环

把三者合并成一个总目标，可以写成：

\[\min_{\theta,\{\phi_k\},S} \;\; \mathcal{L}_{\text{pred}} + \beta\,\mathcal{L}_{\text{cf}} + \gamma\,\mathcal{C}(S) + \sum_m \lambda_m\,\mathcal{L}_{\text{cons},m} \]

其中：

WM：由 (\theta,{\phi_k})（动力学 + 多观测头）实现共享表征
CP：由 (\mathcal{L}{\text{cons}}) 与 (\mathcal{L}{\text{cf}}) 实现一致性与传播
SS：由 (S) 与 (\mathcal{C}(S)) 实现结构显化与压缩选择

5. 总结：如何训练通往科学发现的AI模型

用世界模型把$\color{blue}{多领域数据强行落到同一 latent}$；用$\color{blue}{一致性约束在 latent 上做可传播的剪枝}$；再用$\color{blue}{结构搜索}$把“幸存的解释”压缩成显式结构。

三者分别解决三个问题：

WM（共享表征空间的载体）解决的是“对齐问题”
CP（约束传播）解决的是“筛子要能否决、且能连锁”的问题
SS（结构搜索）解决的是“稳定家族要显化”的问题

共享 latent 让约束能跨域作用 → 约束剪枝让结构候选快速变少 → 结构压缩让幸存机制稳定可复用 → 反过来让 WM 更容易学到可泛化的 (z)。
这就是通往“科学发现”的“可训练AI模型”的核心。

posted @ 2025-12-24 10:20 Engineblogs 阅读(24) 评论(0) 收藏举报

刷新页面返回顶部