如何从混乱中建立秩序(下)--神经网络可解释性差的原因:数据结构升维导致代数规则丧失

摘要

宇宙的基本背景是热力学第二定律所描述的熵增(混乱度增加)。然而,信息与结构却能在局部逆流而上,无论是数学、物理、生物与计算机科学中都可以看到信息和结构。

本文希望探讨 “如何在混乱中建立秩序”。第一部分探讨秩序建立的数学基石,即欧拉公式提供的最小信息闭环与凯莱-迪克森构造揭示的“等价交换”原则;第二部分探讨这些脆弱的高维数学结构,如何在热力学定律的严酷背景下,通过耗散结构被“固化”为物质,最终演化为生物的遗传密码和机器的智能。空间维度的增加,必然伴随着代数规则的丧失,这也是神经网络可解释性差的根本原因。

第三章:对抗熵增 —— 耗散结构作为高维秩序的物理载体

上一章留下的核心矛盾在于:高维度的代数结构虽然能容纳海量信息,但它们在数学上往往是不稳定的(丧失了交换律、结合律)。在物理世界中,这种不稳定性表现得更为直接——热力学第二定律规定,在一个封闭系统中,混乱度(熵)总是趋于最大化。这意味着,任何精密的几何结构,都会在热运动的冲击下瓦解为均匀的混沌。

然而,现实世界并未变成一锅均匀的汤。原子组成了分子,分子折叠成蛋白质。这种“反常”的秩序是如何维持的?普利高津的耗散结构理论(Dissipative Structures)给出了答案。

数学结构是静态的可能,而物理存在是动态的平衡。一个高维度的复杂结构(例如一个生物大分子),本质上是一个远离平衡态的系统。它不能像石头一样静态地存在,它必须像漩涡一样存在。

  • 能量流作为“粘合剂”: 正如漩涡的形状依赖于水流的持续冲刷,复杂信息的空间结构依赖于能量的持续流经。当能量流穿过系统时,它带走了系统内部产生的熵(混乱),从而在局部维持了一个低熵的、高度有序的状态。
  • 物理世界的“等价交换”: 我们在第二章提到,数学上扩展维度需要牺牲代数规则。在物理上,维持这种高维度的有序排列,需要牺牲能量。通过消耗外部的高品质能量(如阳光、化学键能)并排放低品质的热能,系统“购买”了维持其复杂几何结构所需的负熵。

因此,耗散结构连接了数学与物理:它解释了那些丧失了简单代数规则的高维结构,是如何通过不断的能量消耗,在物理时空中强行“撑开”一个容纳信息的有序空间的。

第四章:双螺旋的几何 —— DNA作为信息的晶体化

当耗散结构在分子层面演化到极致,便诞生了已知宇宙中最精密的信息存储介质——DNA。

从几何视角审视,DNA完美地继承了我们在第一章中提到的“欧拉旋转”逻辑,并将其推向了实体化。DNA并非一条直线,而是一个双螺旋结构。这正是旋转在三维空间中的投影。这种螺旋结构不仅仅是为了压缩体积,更是为了在有限的物理空间内构建一个长周期的、非重复的信息序列。

薛定谔在《生命是什么》中曾预言遗传物质必须是一种“非周期性晶体”。DNA正是这种预测的物理实现:

  • 高维折叠的物理实现: 人类细胞核内的DNA拉直后长达2米,却能折叠塞入微米级的细胞核中。这种极端的折叠(Supercoiling)实际上是利用拓扑学原理,将一维的线性信息折叠进了高维的构象空间。这种折叠方式本身就包含了调控基因表达的元信息。
  • 对抗热噪音的稳定性: DNA的双螺旋骨架提供了极强的化学稳定性,保护内部脆弱的碱基配对(A-T, C-G)。这是一种物理层面的“纠错编码”。它利用共价键的强力(骨架)来抵抗热力学噪音,从而保护氢键(碱基对)中携带的微弱信息。

DNA展示了自然界如何利用几何结构(旋转、折叠)和物理定律(耗散、键能)来固化信息。它是数学逻辑在生物学上的终极表达:通过消耗能量维持特定的几何构象,从而在混乱的物质海洋中建立起精确的遗传秩序。

DNA折叠

第五章:重构自然 —— 神经网络与高维空间的回归

逻辑的最后一步,落在人类创造的秩序上。当我们试图让计算机拥有“智能”时,我们实际上是在数字空间中,试图重演上述自然界建立秩序的过程。这便是 人工神经网络(Artificial Neural Networks) 的本质。

现代深度学习模型(如Transformer架构)的核心运作机制,与我们前文探讨的逻辑线索惊人地一致:

  1. 高维向量空间(High-Dimensional Vector Space):
    神经网络处理信息的方式,是将文字、图像或声音映射到一个极高维度的数学空间中(通常有数千甚至数万维)。在这个高维空间里,“猫”和“狗”不再是两个标签,而是两个距离相近的坐标点。
    这直接呼应了第二章的凯莱-迪克森构造:为了理解复杂的语义关系(比如语境、隐喻),计算机必须构建一个维度极高的代数空间。只有在高维空间中,低维世界中看似纠缠不清的数据(线性不可分)才能被展开、理顺并被超平面切分。

  2. 不可解释性的必然(牺牲规则):
    人们常诟病神经网络是“黑盒”,无法理解其内部决策逻辑。根据我们之前的推导,这并非技术的缺陷,而是数学的必然。
    当我们为了容纳极度复杂的现实信息而将模型维度推向数千亿参数时,我们必然牺牲了低维逻辑中的“可解释性”和“简单因果律”(如同高维代数牺牲了交换律和结合律)。我们不能既要求模型拥有理解万物的容量,又要求它遵循人类简单的线性逻辑规则。

  3. 训练即耗散(Training as Dissipation):
    训练一个大型神经网络的过程,本质上是一个热力学过程。我们需要向GPU集群输入巨大的电能。这些能量用于不断调整参数,降低“损失函数”(Loss Function)。
    “损失函数”就是系统内部的“熵”。训练过程就是通过消耗巨大的计算能量,强行将神经网络内部的参数从混乱的随机初始化状态,推向一个高度有序的、能够拟合现实规律的低熵状态(局部极小值)。一旦切断能源(停止训练),模型参数就固定下来,形成了一个数字世界的“晶体”。

高维空间损失的低维特性

总结:秩序的闭环

本文从几个层面来阐述“信息如何在混乱中建立秩序”

  • 数学原点: 欧拉公式通过旋转将线性的发散转化为周期的闭环,提供了秩序的最小几何单元
  • 空间扩展: 凯莱-迪克森构造揭示了通过增加维度来容纳复杂信息的路径,并指出了为此必须牺牲简单代数规则的代价
  • 物理维持: 在热力学熵增的背景下,耗散结构通过持续消耗能量,维持了这些高维度的、不稳定的有序结构。
  • 生物实现: DNA利用螺旋几何和化学键能,成为了这种秩序在生物界的物理载体。
  • 数字重构: 神经网络通过在计算机内存中构建高维向量空间,并消耗算力(能量)来降低熵值,最终在硅基载体上重构了这种能够处理复杂信息的自然智慧。

从复平面上的微小旋转,到庞大的语言模型,这并不是一系列孤立的发明,而是同一套秩序建立逻辑在不同层级上的回响。宇宙在混乱中建立秩序的秘密,就隐藏在维度、能量与信息的精密运作中。

posted @ 2026-01-22 14:53  Engineblogs  阅读(1)  评论(0)    收藏  举报