智源大会-2024-全-

智源大会 2024（全）

AI系统课程 01：论坛背景与嘉宾介绍 🎤

在本节课中，我们将学习2024年北京智源大会AI系统论坛的背景、核心挑战以及论坛的整体议程安排。本次论坛聚焦于支撑大模型发展的底层系统技术，内容涵盖从芯片架构到大规模集群组网的完整技术栈。

论坛背景与重要性

上一节我们介绍了课程概述，本节中我们来看看本次AI系统论坛设立的背景及其重要性。该论坛是大会中唯一一个全面探讨大模型所需算力与相关系统问题的专场。

首先，当前大模型的发展呈现出明确的趋势：模型规模持续扩大，参数数量从千亿级迈向万亿级。同时，在多模态任务的驱动下，模型的序列长度（Sequence Length）已从几千个令牌（Token）增长至几十万甚至几百万个令牌量级。这些变化对底层计算系统提出了严峻挑战。

其次，训练数据量也急剧增长。无论是语言模型（如从Llama 2到Llama 3的演进），还是今年备受关注的多模态与视频生成模型，都使得训练数据集规模扩大了数个量级。数据量的激增进一步加剧了对算力的需求和系统设计的复杂性。

另一方面，大模型的算法远未固化。尽管去年语言模型多遵循类似GPT的路线，但随着模态多样化和研究者的大胆尝试，模型结构在今年已进入“百花齐放”的阶段。这意味着底层计算算子的需求更加多变且快速演进，如何让系统架构跟上这种快速变化，并适配多种不同的硬件架构，是一个关键问题。

AI系统面临的全面挑战

上一节我们讨论了模型与数据层面的趋势，本节中我们来看看这些趋势给整个AI技术栈带来的系统性挑战。挑战自底向上贯穿整个技术栈。

以下是AI系统面临的核心挑战全景图，它涵盖了本次论坛的所有议题：

芯片架构创新：未来是否会出现新的芯片架构，或在现有指令集上进行拓展，是算力基础的核心问题。
编译器技术：面对多样化的芯片架构与指令集，编译器如何实现高效、统一的代码生成与优化。
大规模集群优化：为应对万卡乃至更大规模的集群进行高性能训练，需要对并行计算框架和调度进行深度优化。
异构算力集成：如何统一管理和优化CPU、GPU、ASIC等不同类型的计算单元，形成高效的异构计算*台。
高性能组网技术：万卡集群对网络互联技术提出了前所未有的高带宽、低延迟要求，这是实现高效大规模训练的关键。

这张图概括了今天论坛的全部议题。我们很荣幸邀请到了来自上述各个领域的专家，他们将分享应对这些挑战的最新思考、研究成果以及对未来的展望。

论坛议程安排

上一节我们梳理了技术挑战，本节中我们来了解本次论坛的具体安排。今天的议题安排不分先后，旨在自底向上地为听众厘清AI系统技术栈的全貌。

论坛预计包含八个到九个主题演讲，内容覆盖从底层芯片到上层集群调度的完整链条。希望各位能够尽情享受今天上午这场关于AI系统各领域的知识盛宴。

本节课中我们一起学习了2024北京智源大会AI系统论坛的背景。我们了解到，在模型规模扩大、数据量激增、算法快速演进的背景下，AI系统在芯片、编译器、集群优化、异构计算与网络技术等方面面临着一系列严峻挑战。本次论坛旨在汇聚各方专家，共同探讨这些挑战的解决方案与未来方向。

课程名称：AI系统 - P10：网络驱动的大规模AI训练 - 阿里云可预期网络HPN7 🚀

概述

在本节课中，我们将学习大规模AI训练集群中网络的核心作用与挑战，并深入了解阿里云HPN7.0网络架构如何通过针对性设计，解决万卡乃至十万卡集群的互联问题，以保障算力的线性增长。

从CPU到GPU：数据中心网络的演进

上一节我们了解了课程的整体目标，本节中我们来看看数据中心网络是如何演进的。

整个数据中心已经从以CPU为中心的分布式系统，演进到以AI和GPU为中心的数据中心。这种演进对网络乃至整个数据中心基础设施（如制冷、供电、机房设计）都带来了颠覆性的挑战。

我们可以将数据中心网络的发展分为三个阶段：

第一个十年（约2000年起）：互联网初期，网络服务于客户端-服务器模式，规模较小。
第二个十年（约2010年起）：云计算兴起，出现了大数据和集群化存储系统。网络引入RDMA等技术来加速集群互联。
当前阶段：进入AI时代。训练任务需要上万张GPU卡协同完成，真正实现了“数据中心即计算机”的架构。这对网络提出了前所未有的新要求。

AI训练对网络提出的新挑战

传统数据中心网络的设计已不适用于当前的大模型训练场景。这正是我们需要设计万卡级HPN7.0网络的原因。

以下是AI计算与传统计算在网络上三个关键差异：

任务协同性：多台机器运行同一任务，存在“木桶效应”。任何一张卡或一个网络节点故障，都可能导致整个任务停止。
网络协同需求：GPU卡内通过NVLink等高带宽互联，卡间通过以太网互联。这两级网络需要高效协同，才能充分发挥整体效率。
连接模式变化：AI计算中，单卡发起的网络连接数量很少（通常在100以内），而传统CPU服务器可能发起数十万甚至百万级别的连接。这种连接熵的急剧降低，会导致网络哈希均衡出现问题，影响性能。

网络性能即集群算力

网络是决定集群算力上限（Skyline）的核心因素。

训练时间是AI竞争的关键。训练时间公式可以简化为：
训练时间 = 计算量 / 算力 + 通信等待时间
当算力规模（GPU数量）增大时，理论计算时间会缩短。然而，规模增大也意味着机器间同步的通信量急剧增加。网络通信的等待时间会随之变长，导致总体算力无法线性增长，出现性能下降。

因此，集群网络设计的核心目标就是：在从几百卡扩展到一万卡的过程中，尽可能保持算力的线性增长。这既能节约成本，更能节省宝贵的训练时间。可以说，网络的性能即集群的算力。

高性能网络系统的关键组成部分与挑战

构建一个高性能的AI网络系统，需要关注以下三个关键部分：

集群架构：需要设计能够连接万卡、十万卡的物理网络拓扑。
高效协议：需要像跑车引擎一样高效的端到端传输协议（如RDMA）和调度系统。
运维监控：需要强大的性能剖析、优化和故障定位系统，确保大规模集群的稳定运行。

实现上述目标，主要面临四大挑战：

集群网络架构：需要设计能承载万卡/十万卡算力的合适拓扑，避免网络拥塞。
流量均匀性：解决多对一（Incast）等流量模式下的拥塞问题，实现全局最优的流量调度。
高效传输：通过零拷贝、DMA等技术，实现高带宽、低延迟的数据传输。
可预期性能：确保网络性能稳定、可预测，满足AI训练的要求。

阿里云HPN7.0的设计与解决方案

阿里云HPN7.0针对上述挑战，为AI集群设计了万卡及更大规模的网络系统。

HPN7.0的核心设计特点如下：

规模与架构：采用两层Clos Fabric结构，支持1.6万卡的集群规模。基于51.2T以太网交换机实现。
高可用设计：采用双上联和双*面设计，单链路或单节点故障对业务无感知，支持在线更换。
无阻塞段：通过多轨互联，在千卡范围内实现无阻塞网络，带宽达到理论极限。
低延迟路径：两层交换使网络跳数仅为两跳（传统三层架构为五跳），极大简化路径并降低延迟。
自研技术：搭载自研的Rocky v2 RDMA协议和HPC流控算法，优化传输细节。

通过拓扑与并行策略的协同映射、千卡无阻塞段、低跳数万卡互联、3.2T单机RDMA带宽以及自研通信库等技术的结合，HPN7.0实现了：

集合通信性能提升一倍。
在DeepSpeed框架下运行LLaMA 13B模型，端到端性能提升10%。

全栈自研：从硬件到系统的掌控

HPN7.0的成功得益于阿里在AI网络系统的全栈自研能力。

仅在网络通信层面自研不足以发挥极致性能。HPN7.0实现了全系统自研：

网络设备自研：自研了模块化硬件、128端口400G交换机等，掌握芯片和信号调优的主动权。
光互联自研：基于阿里专利，实现了400G光模块（QSFP112）的自研，保障了互联信号的稳定性和质量。

通过全栈自研，阿里将系统的稳定性、性能优化潜力掌控在自己手中，从而将集群网络能力发挥到极致。

未来展望：更大规模与更智能的网络

展望未来，AI基础设施将发生从硬件到系统的全面变革。

从以CPU为中心到以GPU为中心的转变，将驱动电力、机房、网络及GPU互联系统的全面升级。未来趋势包括：

AI机柜（AI Rack）：出现集成64-72张GPU的高密度机柜，对散热、供电提出挑战。机柜内GPU间通过超大带宽（如3.2T）互联（Scale-Up）。
Scale-Up与Scale-Out融合：关键挑战在于如何将机柜内的高带宽Scale-Up网络与机柜间通过以太网/IB互联的Scale-Out网络高效融合。需要将模型切分、训练流量模式与网络拓扑、RDMA、流控进行协同设计。
更灵活的流量模式：未来可能出现MOE、All-to-All等新通信模式，以及多机推理中的KV Cache同步需求，网络需要提供新的带宽和能力。
更大规模集群：网络需要面向10万卡乃至更大规模的集群，支持100T级交换网络和新型硬件。

业界已成立UEC（Ultra Ethernet Consortium）和UA Link（Ultra Accelerator Link）等联盟，旨在统一Scale-Out和Scale-Up网络的标准与技术。阿里作为UEC技术委员会成员，正积极参与其中，为未来更大规模的AI基础设施构建网络能力。

总结

本节课我们一起学习了大规模AI训练中网络的核心价值与挑战。我们了解到，网络性能直接决定了集群算力的上限。阿里云HPN7.0通过创新的两层Clos架构、千卡无阻塞设计、全栈自研硬件和协议，有效解决了万卡集群的互联问题，实现了算力的高效线性扩展。展望未来，Scale-Up与Scale-Out网络的融合、应对新流量模式、支持十万卡集群，将是AI网络系统持续演进的关键方向。

课程名称：AI系统 - P2：解锁AI潜力：AI框架与硬件加速器的连接挑战 🚀

概述

在本节课中，我们将要学习如何将AI模型与多样化的硬件加速器连接起来，并探讨构建一个高效、可互操作的软件生态系统所面临的挑战。我们将从硬件加速器的类型、主流AI框架、连接技术栈以及未来的发展方向等多个维度进行解析。

1. 动机与挑战

当前存在大量开源AI模型，它们需要在各种不同类型的硬件上运行。这些模型用途广泛，从生成式AI、自然语言处理、自动驾驶到欺诈检测和移动可穿戴设备，对计算能力、延迟、功耗和外形因素的要求各不相同。

核心挑战在于：如何将使用少数几种主流框架（如PyTorch, TensorFlow, JAX, PaddlePaddle）开发的模型，高效地部署到种类繁多、架构各异的硬件加速器上。

2. 硬件加速器概览

以下是主要的硬件加速器类型及其特点：

GPU（图形处理器）：如NVIDIA和AMD的产品。它们具有高吞吐量和强大的流式并行处理能力，非常适合计算密集型的AI模型训练和推理。
- 公式/代码：高性能 = 高并行度 + 高内存带宽
TPU（张量处理器）：如谷歌的TPU，采用收缩阵列架构，对特定的张量运算极为高效，尤其擅长大规模训练。
NPU（神经网络处理器）：名称常用于移动设备或数据中心的专用AI芯片，例如苹果的神经网络引擎或华为的昇腾芯片。
FPGA（现场可编程门阵列）：具有高度灵活性和可重构性，在研究和原型设计阶段非常有效，便于探索特定计算模型。
DSP（数字信号处理器）：功耗极低，适用于对功耗和尺寸有严格限制的嵌入式设备，但用途较为专一。

硬件生态非常庞大，包括NVIDIA、AMD、百度、华为、昇腾等众多厂商，每种硬件都需要专门的代码和优化。

3. AI框架概览

不同的AI框架各有优势和适用场景：

PyTorch：以灵活性和易用性著称，便于快速构建和调试模型。
TensorFlow：历史悠久，生产环境部署稳健，生态系统成熟。
JAX：由Google开发，与XLA编译器紧密集成，擅长数值计算。
PaddlePaddle：百度开发，专注于从超大规模到移动端的全场景。
ONNX（开放神经网络交换）：并非框架，而是一种模型表示格式，能有效促进不同框架间模型的交换。

4. 连接框架与硬件的技术栈

上一节我们介绍了多样的框架和硬件，本节中我们来看看它们是如何连接起来的。这通常通过一系列软件层实现：

以下是连接技术栈的关键组成部分：

计算库：如PyTorch的libtorch、oneDNN等，提供基础算子实现。
内核语言：
- CUDA/HIP：NVIDIA/AMD的专用编程语言，用于编写底层GPU内核。
- Triton：一种基于Python的高级编程语言，能高效表达GPU内核，并正逐步支持更多硬件。
手写优化内核：针对特定硬件高度调优的代码，通常能获得最佳性能。
AI编译器基础设施：如PyTorch的TorchDynamo/Inductor、TensorFlow/JAX的XLA、PaddlePaddle的PaddlePaddle等。它们旨在将高级模型描述编译并优化为针对特定硬件的高效代码。

理想情况是，模型能像通过“魔法云”一样自动编译到任何硬件。但现实是，为了获得最佳性能，模型和编译器都需要针对目标硬件进行大量细致的调优。

5. 生态系统面临的挑战

连接框架与硬件的路径非常复杂，主要挑战包括：

碎片化与复杂性：框架、编译器、库、硬件组合爆炸，难以维护、调试和获得工具支持。
互操作性不足：不同框架和库之间的API交互存在障碍。虽然ONNX等工具提供了模型转换能力，但转换后的模型往往需要重新调优才能达到最佳性能。
性能优化依赖手写代码：根据行业对话，目前前沿部署中，约70%的关键路径内核仍依赖于手写代码，只有约5%完全依赖编译器自动优化。目标是将更多开发工作转移到高级语言和参数化内核上。

6. 新兴技术与未来方向

面对挑战，社区也在探索新的解决方案：

Triton的作用扩展：Triton不仅作为手写内核的高级语言，也正成为编译器（如PyTorch Inductor）的中间目标。项目如Triton-Shared正探索将其支持扩展到更多专用硬件。
MLIR（多级中间表示）：MLIR等编译器基础设施提供了创建可重用、可组合编译流程的机会，有望成为连接不同框架和硬件的公共基础层。
未来计算范式：量子计算、神经形态计算等新兴技术可能为处理高维数据、实现更高能效和容错性提供新的可能性。

未来的方向是收敛与协作：硬件供应商、框架开发者、库开发者和应用开发者需要共同努力，建立更统一的优化方法、更稳定的公共API和共享的基础设施，以开放合作的方式推动整个生态系统向前发展。

总结

本节课中我们一起学习了AI模型与硬件加速器连接的复杂图景。我们了解了：

多样化的硬件（GPU、TPU、NPU等）和主流AI框架（PyTorch、TensorFlow等）构成了生态的两极。
连接它们的技术栈包括计算库、内核语言和AI编译器，但路径复杂。
当前生态系统面临碎片化、互操作性差和过度依赖手写优化等核心挑战。
社区正通过Triton、MLIR等新兴技术和推动开放协作来寻求解决之道，旨在构建一个更高效、更统一的AI软件生态系统。

附加信息：演讲者David Edelsohn提及了与联合国合作的“AI for Climate Innovation Grand Challenge”项目，旨在汇聚全球智慧，利用AI应对气候变化，并欢迎各界参与。

课程名称：AI系统领域的重要问题与思考 🧠

课程编号：P3

在本节课中，我们将探讨AI系统领域当前面临的重要问题。课程内容基于袁进辉在2024北京智源大会上的分享，涵盖从训练到推理的系统挑战，以及算法与系统协同的新趋势。

概述

AI系统领域在大模型兴起后，其重要性和研究方向发生了显著变化。本节课将回顾过去在训练系统方面的核心工作，分析当前推理系统的关键矛盾，并探讨算法与系统结合带来的新机遇。

回顾：训练系统的核心工作

上一节我们介绍了课程的整体背景，本节中我们来看看过去在AI训练系统方面的核心工作。

在2016年至2023年期间，研究重点集中在训练系统上。当时，AI系统工作与算法和模型训练研究具有同等重要性。

一个核心思路是使用编译器技术，将面向单卡编写的程序，通过多层重写转换为分布式执行的物理图。这涉及引入系统层面的表达，编译器或优化器在该表达上进行逐层转换。

在OneFlow中，一个关键创新是SBP（Split, Broadcast, Partial）规则。该规则通过简单的张量映射，将逻辑视角转换为物理视角，从而表达各种并行模式。

公式示例：

逻辑张量 → SBP规则 → 物理张量

基于SBP，编译器可以通过简单的注解（annotation），将单卡程序自动转换为分布式执行代码。此外，自动并行化技术可以进一步优化这些注解，实现更高效的分布式执行。

在运行时层面，Actor模型和消息传递机制被用于处理超大规模分布式场景。这种抽象方式在跨集群异步协作中表现出强大生命力，部分芯片公司（如Tenstorrent）也在硬件层面采用了类似思路。

当前挑战：大模型时代的系统研究

上一节我们回顾了训练系统的核心工作，本节中我们来看看大模型时代系统研究面临的新挑战。

大模型（尤其是Transformer Decoder-only架构）的普及，使得许多自动并行和编译器优化技术似乎不再被广泛采用。例如，许多公司更倾向于使用手工优化的并行方案（如Megatron），而非自动并行框架。

这种现象引发了一个问题：纯系统研究的价值是否在下降？

然而，一些公司和研究机构（如Google的JAX、xAI）仍然青睐自动并行和编译器技术。这表明，在模型结构仍需探索的场景中，系统优化仍有重要需求。

训练层面的另一个重大挑战是超大规模可扩展性（例如十万卡、百万卡集群）。这类研究需要大型计算装置，对多数研究者而言难以实现。

转向推理：系统研究的新焦点

上一节我们讨论了大模型时代系统研究的挑战，本节中我们来看看为何推理成为当前的研究焦点。

推理研究受到关注的原因包括：

大规模训练集群难以获取。
推理在经济价值和应用需求上日益重要。

推理的计算量约为训练的三分之一，但token生成量可能无限增长。例如，OpenAI每天处理的推理token量可达数万亿。

当前芯片设计主要针对训练负载，导致在推理场景中存在资源错配。推理分为两个阶段：

Prefill阶段：类似训练，计算密集。
Decoding阶段：内存带宽瓶颈，尤其在batch size较小时。

Roofline模型分析显示，当batch size较小时，推理受内存带宽限制；只有当batch size超过临界点后，计算单元才能被充分利用。

算法与系统的协同优化

上一节我们介绍了推理系统的核心矛盾，本节中我们来看看算法与系统协同优化的新趋势。

在推理场景中，纯系统优化（如内核优化）的端到端贡献可能有限。因此，算法与系统协同优化成为提升效率的关键。

以下是几个协同优化的例子：

投机采样（Speculative Sampling）
使用较小模型并行生成多个token，以提高解码阶段的并行度，从而更好地利用硬件资源。

Agent工作流优化
Agent任务通常涉及多个大模型调用，这些调用之间存在依赖关系，形成有向无环图（DAG）。通过图优化技术，可以消除不必要的调用，或并行执行多个调用。

模型路由（Model Routing）
将任务动态分配给不同规模的模型，例如将简单任务分配给小模型，复杂任务分配给大模型。这可以显著提升整体推理效率。

混合代理（Mixture of Agents）
通过多个较弱模型的协作，达到甚至超过单个强模型的效果。这需要系统层面的协同调度优化。

注意力机制优化
例如GQA（Grouped Query Attention）和MLA（Multi-Head Latent Attention），可以减少KV缓存占用，提升推理速度。但需注意，某些场景（如数理逻辑推理）可能需要完整的注意力机制以保证效果。

量化精度
量化可以减小KV缓存，但可能降低注意力计算的分辨率，影响长上下文处理效果。

总结

本节课中，我们一起学习了AI系统领域的重要问题与思考：

回顾了训练系统中的自动并行和编译器技术。
分析了大模型时代系统研究面临的新挑战。
探讨了推理系统中硬件与软件的矛盾。
介绍了算法与系统协同优化的新趋势。

当前，AI系统研究正从纯系统优化转向与算法、硬件协同的创新模式。未来，如何在这些交叉领域找到高影响力的研究方向，仍是值得探索的问题。

课程名称：AI系统 - P4：FlagGems通用Triton算子库 🧠

概述

在本节课中，我们将学习由智源社区联合多家芯片公司共同研发的开源项目——FlagGems通用Triton算子库。我们将了解其诞生的背景、技术选型、核心优势、实现方法以及未来的发展规划。这个项目旨在解决AI领域，特别是大模型训练中，多元芯片生态适配与混合算力利用的难题。

多元芯片生态的挑战与机遇

上一节我们介绍了课程的整体背景，本节中我们来看看当前AI计算领域面临的核心挑战。

当前，除了英伟达的CUDA生态，市场上存在多种AI芯片架构。每家芯片厂商通常选择向CUDA生态对齐来构建自己的软件栈。然而，这种做法存在几个根本性问题：

编程接口限制：CUDA的编程模型（SIMT）专为英伟达GPU架构设计。对于非SIMT架构（如SIMD、TPU等）的加速器，适配起来非常困难，甚至存在本质性障碍。
适配负担过重：CUDA体系庞大而复杂。针对大模型AI领域所需的算子集合，全面适配CUDA既不具备充分性（用不上全部功能），也不具备必要性（投入产出比低），开发难度和成本极高。
生态割裂：每家厂商独立构建生态，导致软件生态碎片化，无法实现不同芯片间算力的有效融合与统一调度。

因此，要解决多元算力混合使用的问题，必须在CUDA生态之外，寻找一种更轻量、更通用的统一编程方案。

为什么选择Triton？🚀

上一节我们分析了生态适配的难题，本节中我们来看看FlagGems选择Triton作为基础技术栈的原因。

Triton作为一种新兴的异构计算编程语言，在构建通用算子库方面展现出四大核心优势：

更优的编程模型：Triton采用基于Tile或Block的编程范式。开发者只需关注数据块的并行划分，而如何将计算映射到具体的SIMT或SIMD硬件架构上，则由编译器后端完成。这使其能灵活适配多种硬件架构。

公式/代码示例：在Triton中，一个简单的向量加法内核可能这样开始：

@triton.jit
def add_kernel(x_ptr, y_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
    pid = tl.program_id(axis=0)
    block_start = pid * BLOCK_SIZE
    offsets = block_start + tl.arange(0, BLOCK_SIZE)
    mask = offsets < n_elements
    x = tl.load(x_ptr + offsets, mask=mask)
    y = tl.load(y_ptr + offsets, mask=mask)
    output = x + y
    tl.store(output_ptr + offsets, output, mask=mask)

独特的开源与开发优势：Triton专注于为AI领域，特别是自定义算子开发，提供了高质量、易用的编程接口。相比一些大而全的AI编译器（如基于MLIR的方案），Triton在自定义算子开发上更直接、高效。
经过验证的卓越性能：实测表明，手动编写的Triton算子在性能上可与高度优化的CUDA内核媲美，甚至在某些情况下更具优势。
- 图示说明：在矩阵乘（GEMM）和Flash Attention等关键算子上，Triton实现能达到与CUDA版本持*的性能。在LayerNorm等算子优化上，手动Triton实现也展现出显著优势。
日益增长的生态支持：越来越多的国产芯片厂商已经开始适配Triton，将其作为接入PyTorch生态的重要途径。部分大模型在国产芯片上使用Triton算子的替换率已超过90%，证明了其可行性和覆盖率。

综合来看，Triton在编程灵活性、开发效率、性能表现和生态趋势上提供了一个非常均衡且领先的解决方案。

FlagGems的设计目标与架构

上一节我们确立了Triton的技术优势，本节中我们具体探讨如何利用它来构建FlagGems算子库。

传统的算子库开发主要有两种模式：一是各厂商为自家芯片独立开发封闭的算子库；二是定义统一接口，各厂商分别实现。前者导致生态割裂，后者在混合算力场景下可能因实现不一致引发问题。

FlagGems提出了第三种路径：基于Triton构建一个开源、共享的通用算子库。其核心设计目标如下：

通用性：提供统一的编程接口，与PyTorch等主流框架对齐。
共享与开源共建：建立统一仓库，吸引多方共同开发，减少重复投入，保证算子实现的一致性。
全覆盖：支持大部分训练任务所需的全量算子，特别是大模型中的高频算子。
高性能：算子性能需达到可用于训练的水*，与原生算子库性能相当。
多后端支持：同一个Triton算子源码，应能编译并运行在多种不同的芯片后端上。

在技术实现上，FlagGems选择了即时编译（JIT） 路线，而非预编译（AOT）。即通过Triton的标准接口在运行时动态生成内核。虽然这会引入一定的运行时开销，但带来了更好的框架兼容性和灵活性，且该开销可通过优化技术显著降低。

FlagGems的核心特性与易用性

上一节我们介绍了FlagGems的顶层设计，本节中我们来看看它如何让开发者用起来更简单。

FlagGems致力于提供极致的易用性，其核心特性体现在以下三个方面：

1. 自动、透明地接入PyTorch
FlagGems利用PyTorch的库扩展API（torch.library），在运行时动态替换PyTorch原生算子的实现。用户无需修改模型代码，也无需重新编译PyTorch。

以下是两种使用方式：

全局替换：在代码开头添加两行即可替换所有支持的算子。
```
import flag_gems
flag_gems.enable()
```
局部替换：通过上下文管理器，只在特定代码块内启用FlagGems算子，便于测试和验证。
```
with flag_gems.use_gems():
    # 此代码块内的算子将被FlagGems替换
    output = model(input)
```

2. 不依赖Torch Compile，追求低延迟
FlagGems不强制要求使用torch.compile，这意味着它对算子本身的端到端延迟要求更高，无论算子大小都必须足够快。团队对Triton的运行时进行了深度优化，显著降低了小算子的CPU开销，使性能曲线与PyTorch原生算子（eager模式）基本持*。

3. 基于真实模型Profile进行开发
FlagGems的算子开发并非凭空想象，而是通过剖析主流大模型（如LLaMA、GPT等）的训练过程，提取其中出现频率最高（bottleneck）的算子集合进行优先开发和优化，确保投入产出比最大化。

开发工具与当前成果

上一节我们了解了如何使用FlagGems，本节中我们看看团队是如何高效开发这些算子的。

开发一个覆盖全面的算子库面临巨大工作量，特别是对于Pointwise等数量繁多、形状多变的算子。FlagGems为此开发了自动代码生成工具。

该工具能够：

自动处理不同输入形状。
处理非连续的内存排布（Non-contiguous layout）。
支持标量与张量的混合输入。
方便地定义算子融合（Fusion）。

例如，只需像写Python lambda表达式一样定义计算逻辑，工具就能将其扩展为一个完整的、优化的Pointwise算子内核。

当前成果概览：
截至分享时，FlagGems已实现66个基础算子和6个融合算子，涵盖以下类别：

线性代数类（如GEMM）
神经网络类（如激活函数）
基础数学与逻辑运算类
融合算子类

性能方面，大部分算子与CUDA实现性能持*，部分算子有优势，少数算子仍需持续优化。团队已在FlagScale等训练框架中进行了替换验证，在训练至5000步时，损失曲线与原生算子训练基本吻合，证明了其正确性与可行性。

开源、生态与合作展望

上一节我们展示了FlagGems的现有成果，本节中我们来看看它的开源状态和未来计划。

FlagGems项目已在GitHub上开源，由智源、中科嘉禾、硅基等团队共同维护。目前，除了支持英伟达GPU外，已适配并支持国内多家芯片公司的产品。

未来规划：

算子覆盖：2024年底前，实现100个以上高频算子；2025年，基本实现大模型训练算子的全覆盖。
性能优化：持续优化后端编译器，使在大部分适配芯片上的性能达到原生性能的90%以上。
生态拓展：
- 支持PyTorch之外的框架，如飞桨（PaddlePaddle）。
- 探索融入RISC-V开源生态体系。
- 探讨在超算*台上的落地应用。

总结

本节课中，我们一起学习了FlagGems通用Triton算子库。我们从当前AI多元算力生态的挑战出发，深入探讨了选择Triton作为解决方案的原因，了解了FlagGems的设计目标、核心特性以及极致的易用性设计。我们还看到了团队通过自动代码生成工具提升开发效率，并展示了项目当前的开源成果和未来的发展蓝图。

FlagGems的核心价值在于，它试图通过一个开源、共享、基于现代编程语言（Triton）的算子库，降低多元芯片的软件生态适配成本，推动不同算力的融合与高效利用，为AI计算的基础设施建设提供了一种新的、可行的思路。

课程名称：深度学习编译 - 从定制化资源分配到高性能代码生成 🚀

概述

在本节课中，我们将学习深度学习编译器的核心工作流程，并探讨如何通过定制化的资源分配、编译抽象层间的协同优化以及针对特定算子的高性能代码生成，来提升AI模型在各类硬件（特别是AI芯片）上的运行效率。

1. 深度学习编译的背景与动机

上一节我们介绍了课程概述，本节中我们来看看深度学习编译产生的背景。

深度学习框架通常依赖底层硬件厂商提供的预编译算子库来执行计算。然而，当遇到新的、未实现的算子时，就需要编译器来自动生成高效的代码。这就是深度学习编译器研发的主要背景。

深度学习编译器可以面向多种硬件*台，包括：

通用处理器：如CPU、GPU。
领域特定芯片：如针对AI计算设计的各种AI芯片（例如TPU、华为昇腾等）。由于国际环境的影响，国内在该领域的投入尤为显著。

2. AI芯片的独特挑战：存储模型

上一节我们了解了编译器的通用目标，本节中我们来看看AI芯片带来的独特挑战。

与传统的CPU/GPU相比，AI芯片最大的区别在于其存储模型。

CPU/GPU的存储模型：通常是金字塔形的层次结构，数据流动路径相对固定和直接。
AI芯片的存储模型：数据流动路径更为复杂。例如，在TPU或华为昇腾芯片中，数据可能从权重缓存（Weight Buffer）读取，放入累加器（Accumulator）进行计算，经过激活函数处理后，再写回统一缓冲区（UB Buffer）。这种非传统的数据流管理是优化的关键。

3. 深度学习编译的标准流程与优化机会

上一节我们讨论了硬件差异，本节中我们来看看标准的编译流程及其局限。

当前深度学习编译形成了一个相对固定的流程：

将神经网络表示为计算图。
将计算图切分为多个子图。
将子图转换为底层的循环表示。
利用算子编译器进行优化。
最终进行代码生成，适配底层硬件。

这种分层抽象的设计旨在缩小各层的优化搜索空间。然而，这种分割有时也会限制跨抽象层的联合优化机会。因此，在模型结构、计算图层、算子编译层之间进行协同优化，可能带来额外的性能收益。

4. 定制化资源分配

上一节我们指出了跨层优化的潜力，本节中我们来看第一个具体实践：定制化资源分配。

传统编译器在做调度时，视角通常局限于算子层面（如卷积、归一化算子的融合）。但如果将视野提升到整个模型结构特征，结合硬件资源调度，可以获得更好的效果。

例如，ResNet50模型可分为四个阶段（stage），其间包含下采样操作，导致特征图尺寸逐渐减小。如果采用传统的、按阶段*均切分批次（batch）的方式，后期阶段的片上缓存利用率会降低。

优化方案：根据各阶段数据量的不同，动态调整每个阶段处理的batch大小。

第一阶段：处理 batch=1 的图像。
后续阶段：逐步增加batch大小（如 batch=2, batch=4）。

核心优势：这种非均匀的调度策略能使AI芯片珍贵的片上缓存利用率最大化，从而提升整体性能。实验表明，在国产芯片上，该方法相比*均切分策略取得了显著的性能提升。

5. 编译抽象层间的协同优化

上一节我们介绍了模型级的资源调度，本节中我们深入到编译层之间，看看如何协同工作。

深度学习编译通常分为图层编译和算子层编译两个阶段。传统流程是图层划分完子图后，直接交给算子层处理，但这忽略了底层编译的约束和开销。

我们的尝试：将算子层编译器的约束反馈给图层编译器。

具体案例：考虑一个复合算子，例如“求和取对数后做减法”。

传统问题：“求和取对数”是一个规约操作。在分块（tiling）后，想将其与后续的“减法”分块合并是非常困难的，因为必须等所有规约完成才能开始减法。
协同优化：在图层编译阶段，我们将这种复合算子拆分为更细粒度的原子算子（如单独的规约算子和元素操作算子）。
重新融合：基于原子算子，按照新的、更利于底层优化的模式进行子图融合。

带来的好处：形成以原子算子为基础的、具有完美循环嵌套的子图。这样的子图交给算子层编译器（如AKG）后，能更高效地进行循环合并、循环分块等优化，减少子图数量和数据移动开销，最终生成更优的代码。

6. 高性能代码生成：以规约和矩阵乘为例

上一节我们探讨了编译层间的协同，本节中我们聚焦于最终的高性能代码生成。

要生成极致性能的代码，往往离不开针对特定算子和硬件的手工优化与编译器的结合。

以下是两个关键案例：

案例一：GPU上的规约算子

标准化：将神经网络中各种形式的规约算子，通过转换公式统一归约为几种标准型。
转换公式示例（概念）：复杂规约模式 -> 标准规约形式
映射：将标准型的并行轴和规约轴映射到GPU的两级并行抽象（线程块、线程）上。
内核调用：在最内层循环调用手工编写的高性能、固定形状的规约微内核库。编译器负责将任意规模的问题映射到这个微内核上，并利用GPU的原子操作保证正确性。

案例二：神威*台上的矩阵乘法

*台特性：神威*台由主控核和众核阵列构成，核间通过特定通信方式（如消息传递）交互。
编译器角色：编译器需要建模硬件的通信模式，自动组织数据在核间与组间的传输（如通过DDR）。
代码生成：最内层调用*台提供的、高度优化的汇编微内核（例如固定尺寸为 64x64x32 的矩阵乘块）。编译器的工作是将任意规模的矩阵乘问题，分块并映射到这个微内核上。

效果：该方法能达到神威*台理论峰值性能的90.14%，甚至比经过深度手工优化的库性能还能提升约10%。同时，编译器还能支持如算子融合等优化，进一步超越固定手工库的性能。

总结

本节课我们一起学习了深度学习编译的完整链条：

从应对AI芯片独特存储模型的挑战出发。
通过定制化资源分配，结合模型结构特征优化硬件资源利用率。
利用编译抽象层间的协同优化，将底层约束反馈至上层，生成更利于优化的中间表示。
最终通过领域定制化的高性能代码生成，结合手工微内核与编译器自动化，在GPU和神威等特定*台上实现接*或超越手工库的性能。

这些方法展示了通过软硬件协同设计以及编译技术的深度优化，能够充分挖掘现代AI硬件的计算潜力。

课程名称：多元算力下大模型并行训练框架技术与实践 🚀

概述

在本节课中，我们将学习在多元算力时代下，如何应对大模型并行训练所面临的各种挑战。课程内容将涵盖异构混合训练、新芯片端到端训练、长序列训练以及芯片迁移等核心场景，并介绍智源团队提出的系统性解决方案与开源框架FlagScale。

1. 多元算力时代的挑战与需求

我们已身处多元算力的时代。面对不同的芯片，用户会产生多样化的需求。

以下是几种典型的需求场景：

在两款不同的芯片上进行高效的异构混合训练。
在一款新的芯片上实现高效的端到端训练。
支持任意长度的序列训练。
由于业务或政策原因，将训练任务从一款芯片迁移到另一款芯片。

作为模型训练者和系统研究者，智源团队同样面临这些需求和挑战。

2. 高效异构混合训练

上一节我们介绍了多元算力时代的背景，本节中我们来看看如何实现高效的异构混合训练。异构混合训练面临诸多挑战。

以下是四个主要挑战：

性能瓶颈：不同芯片的算力与优化水*不同，整体性能易被最慢的芯片拖累。
通信障碍：不同芯片间的连接拓扑和方式各异，且商业原因导致芯片间信息互通困难。
任务调度：现有调度系统多针对同构芯片，用户需自行配置以使用异构集群。
模型效果：不同芯片的架构和算子实现存在差异，可能影响最终模型效果。

通过系统化的设计，这些挑战是可以被解决的。针对上述挑战，我们逐一来看解决方案。

以下是针对挑战的解决方案：

性能瓶颈：在框架层面进行更细粒度的任务负载划分，让每款芯片物尽其用。
通信障碍：在并行策略层面，将通信限制在节点之间，利用IB、RoCE等标准协议。
任务调度：从“以芯片为中心”转向“算力透明”的调度模式，用户按算力付费，提升系统利用率。
模型效果：如果异构训练效果不达预期，问题可能出在芯片本身。异构训练可作为检验芯片质量的手段。

基于神经网络分层特性，解决方案的核心思路是：根据芯片的算力和内存约束，将模型的不同层或部分计算任务分配给不同的芯片，跨集群的通信主要发生在节点之间。

2.1 异构并行策略的演进

解决了基础问题后，下一步是追求更高的性能。我们与天数智芯合作，将异构并行策略迭代了三代。

以下是三代策略的演进过程：

第一代：Eager数据并行：根据芯片算力分配不同大小的数据批次。问题在于负载切分粒度粗，且需要跨芯片进行All-Reduce通信，效率较低。
第二代：按算力切分层：根据芯片算力分配不同数量的模型层进行计算。好处是切分更细，且通信变为点对点（P2P），难度降低。但要求模型并行维度一致，限制了灵活性。
第三代：灵活的TP异构：不要求模型并行维度一致，允许维度变化。这进一步释放了调优空间，性能可在此基础上再提升约30%。

2.2 性能与效果验证

性能方面，在不同规模、配比、代际乃至跨架构的混合训练中，异构训练都能达到很高水*，部分场景性能甚至超过100%。这是因为合并集群后解锁了更大的优化空间，例如可以使用更大的批次（batch size）或关闭重计算。

模型效果方面，在真实数据集（FlagEval*台）上的评测显示，从相同检查点（checkpoint）开始，在异构集群上持续训练后，效果差异（diff）非常小。虽然无法完全规避差异（源于检查点来源和参数重切分导致的随机状态变化），但总体结果令人满意。

3. 新芯片上的端到端高效训练

在项目周期紧急的情况下，从算法、框架到硬件的协同设计是实现新芯片端到端高效训练的有效方法。

以下是协同设计的具体实践：

算法层面：采用两阶段训练法。例如，从已有7B模型扩展至16B，训练后再扩展为千亿参数的MOE模型。在通信方面实现了4倍加速。
框架层面：与沐曦合作，重点解决长周期训练的稳定性问题。
- 节点级容错：当单个节点故障时，仅替换该节点并原地重启训练，而非终止整个任务，极大缩短了恢复时间。
- 异步检查点保存：使用独立进程在后台异步执行数据从GPU到CPU再到落盘的操作，避免了训练进程的等待。相比同步保存，落盘速度提升约300倍，训练吞吐提升约3倍。
硬件与性能：沐曦提供了与CUDA高度兼容的产品和千卡集群，使FlagScale框架能快速适配。在深度优化后，实现了优异的性能提升。

训练损失（train loss）曲线符合预期。扩展性测试显示，在相同配置下，沐曦集群能维持90%以上的扩展效率，甚至优于部分英伟达集群。这提示我们，在大规模万卡乃至十万卡训练时代，单芯片性能固然重要，但高效的芯片间互联更为关键。

4. 支持任意长度的长序列训练

算法团队通常希望在任何芯片上都能进行任意序列长度的训练，这在多模态场景下需求尤为迫切。长序列带来了巨大的内存压力。

Transformer结构的内存复杂度主要来自两方面：

序列长度的*方复杂度：O(S^2)，源于注意力（Attention）计算。
序列长度与隐藏层的线性复杂度：O(S*H)，源于激活值存储。

例如，当序列长度（S）为256K，隐藏层大小（H）为1024时，即使使用BF16精度，单个张量所需内存也远超单芯片容量。

4.1 解决方案：结合现有系统优化技术

解决长序列训练需要结合多种系统优化技术。

以下是两种关键技术：

Flash Attention：通过分块计算，将注意力计算的内存复杂度从O(S^2)降低到块级别O(block_size^2)，可支持到百K（100,000）量级的序列长度。
Ring Attention：在分块基础上，结合分布式技术。每个设备只处理一个KV块，在计算过程中，通过环状（Ring）通信，从上一个设备获取所需的K/V，并将自己的K/V传递给下一个设备，实现计算与通信的重叠，可支持兆（1,000,000）级以上序列长度。

初步性能结果显示，随着序列长度从4K增长到1M，训练时间虽在增加，但并非线性增长。性能剖析（breakdown）表明，计算仍是主要开销，而通信通过计算-通信重叠得到了很好的隐藏，这说明分布式方法是有效的。

5. *滑的芯片迁移

从一个芯片迁移到另一个新芯片，传统做法需要考虑框架、*台的变化，带来较高的开发和学习成本，且并行与优化策略依赖专家经验。

智源提出的解决方案旨在降低迁移门槛：

*台与框架：支持多种芯片，用户无需修改代码或学习新框架。
并行与优化：通过自动调优工具，帮助用户自动选择高效的并行和优化策略。

5.1 自动调优系统架构

该系统的工作流程如下：

输入模型信息和集群信息，构建搜索空间。
基于搜索空间进行剪枝优化，筛选出较优的候选策略集。
生成可执行配置，送入评估器（Estimator）。
评估器通过实际性能剖析（Profiling）或调用硬件厂商提供的成本模型（Cost Model）来评估性能。
评估结果被记录，并通过在线反馈（Online Feedback）机制实时优化搜索过程，形成一个闭环，快速找到最优配置。

在九鼎*台上线的案例显示，随着调优系统运行，任务性能逐步提升。在A800、天数智芯BI150、沐曦C500等芯片上的实验表明，该自动调优方法在不同模型规模和硬件上均能取得良好加速比，最高可达23%的性能提升。通过基于历史和内存模型的剪枝算法，能将搜索空间压缩84%以上，提升用户体验。

6. 开源框架：FlagScale 🛠️

综合以上技术与实践，智源开源了FlagScale训练框架。经过与合作伙伴的协作，其最新架构核心分为前端和后端。

以下是FlagScale架构的核心特点：

前端：提供统一接口，集成自动调优、性能预估、自动容错等功能，便于实验管理和与*台工作流集成。
后端：支持多种执行后端（如Megatron、DeepSpeed及自研的FlagScale内核）和底层算子库（如智源的FlagGems、FlashAttention及厂商引擎），实现解耦。

该框架已适配八个厂商的芯片，在智源内外完成了十次完整的预训练。新版本将开源上述所有功能，并增强CI/CD能力。它百分之百兼容现有开源库，并增加了异构训练、长序列训练等自定义组件，旨在实现无缝的芯片迁移。

总结与展望

本节课我们一起学习了多元算力下大模型训练的四大核心场景及其解决方案。

以下是本节课的核心内容总结：

异构混合训练：通过细粒度负载划分、标准化通信和灵活并行策略，可实现高效训练。
新芯片端到端训练：算法-框架-硬件协同设计与稳定性优化是关键。
长序列训练：结合Flash Attention、Ring Attention等分布式优化技术可突破内存限制。
芯片迁移：统一的框架接口与自动调优系统能大幅降低迁移成本。
开源框架FlagScale：提供了实现上述能力的统一*台。

多元算力已成为趋势，为系统领域带来更多机遇。异构训练、新芯片训练已通过系统方法变得实用，自动化是多元算力时代的关键。未来工作将聚焦于构建统一通信库、实现端到端异构训练，并在长序列、MOE等架构下进行更多并行与优化创新。我们期待与更多伙伴共建FlagScale社区。

课程名称：大模型高效可扩展并行策略研究（P7）🚀

概述

在本节课中，我们将学习大模型训练中高效可扩展的并行策略。我们将探讨现有并行方法的挑战，并介绍一种基于SBP（Split, Broadcast, Partial Sum）模型的自动分布式并行框架AutoDDL。课程将涵盖3D分布式矩阵乘法、混合序列并行策略以及如何将二阶优化方法融入流水线并行以提升效率。

Transformer架构与并行策略的挑战

当前大模型的主流架构仍然是Transformer。随着模型规模和能力的增长，其并行策略也变得越来越复杂，通常涉及多个维度的并行组合。这对系统开发者和性能优化人员带来了沉重负担。

因此，我们需要开发能够自动运行的分布式框架，以自动生成最优的并行策略和代码实现。虽然该领域已有许多工作，但仍面临一些挑战。

以下是现有并行策略面临的两个主要挑战：

通信与内存开销高：在已有的并行策略中，通信开销和内存开销并不高效。以Megatron-LM中的操作符并行为例，它需要将整个输入数据在多个进程上复制，进行本地计算后，再对输出数据进行一次All-Reduce操作。这种方法虽然简单，但内存和通信开销都较高。
框架描述能力有限：现有的深度学习框架对分布式张量的描述能力有限，难以高效描述如2.5D或3D分布式矩阵乘法这类通信效率更高的并行算法。

AutoDDL：基于SBP的自动并行框架

上一节我们介绍了现有并行策略的挑战，本节中我们来看看AutoDDL框架如何解决这些问题。

AutoDDL是基于OneFlow中的SBP框架提出的自动分布式并行框架。SBP定义了分布式张量的三种状态：

S (Split)：张量在某个维度上被切分。
B (Broadcast)：张量在所有进程上复制。
P (Partial Sum)：张量是部分和，需要经过一次All-Reduce操作才能得到完整结果。

P状态是相对于其他框架新增的，它代表了中间结果。由于我们定义了这种中间状态，可以更灵活地决定何时调用All-Reduce操作，从而为设计更高效的并行算法（如3D分布式矩阵乘法）提供了灵活性。

实现3D分布式矩阵乘法

了解了SBP模型后，我们来看看如何利用它实现3D分布式矩阵乘法。

我们以矩阵乘法 C = A × B 在8张卡上为例。

矩阵A的分布模式为 S(0,2) S(1,2) B(2)。这表示在A的第0维和第1维各切分成2份（共4份），然后将这4份数据复制（Broadcast）到2组进程上（共8个进程）。
矩阵B采用与A相同的分布方式。
进行本地矩阵乘法计算后，得到一个中间结果矩阵，其分布模式为 S(0,2) S(1,2) P(2)。P(2)表示这个结果是分布在2组进程上的部分和。
最后，调用一次Reduce-Scatter操作，得到最终的结果矩阵C，它也分布在8张卡上。

这种3D分布式矩阵乘法相比常见的1D或2D方法，通信开销更低。

AutoDDL框架工作流程

接下来，我们深入了解一下AutoDDL框架的整体工作流程。

以下是AutoDDL生成并行策略的主要步骤：

构建搜索空间：对于给定的神经网络，枚举每个操作符所有可能的SBP配置，从而构建端到端的并行策略搜索空间。
通信性能建模：主要考虑同构和多机多卡异构两种网络架构，使用简单的延迟-带宽模型对通信开销进行建模。
启发式策略搜索：由于搜索空间随操作符数量指数级增长，我们采用一种定制化的坐标下降启发式搜索算法。它可以并行搜索多个区域，有效避免陷入局部最优，更快地找到全局最优或*似最优策略。
插入数据重分布：搜索到的最优策略可能需要在不相邻的操作符之间插入数据重分布操作（在OneFlow中称为Boxing），以满足输入输出数据间的依赖关系。
生成最终代码：利用OneFlow框架，自动生成最终的并行执行代码。

AutoDDL搜索策略的优势：以注意力机制为例

现在，我们通过一个具体例子来看看AutoDDL能搜索出哪些不同的并行策略。

我们以多头注意力（Multi-Head Attention）算子为例。

左图是Megatron-LM中常见的操作符并行实现方式。如果加上必不可少的数据并行维度，它可以被视为一种2D分布式矩阵乘法。
右图是AutoDDL搜索得到的一种并行策略。它与Megatron-LM最大的不同在于：输入数据是在多个进程上进行划分的，而非完全复制。在划分后的张量上进行本地计算，中间穿插两次All-Gather和两次Reduce-Scatter操作，最终得到结果向量。

与Megatron-LM相比，AutoDDL的策略虽然增加了通信次数，但总通信量显著降低（从 O(N² / P^(1/2)) 降至 O(N² / P^(2/3))），同时输入输出数据的内存占用量也同比例降低。因此，AutoDDL搜索到的策略具有更好的并行可扩展性。

混合序列并行策略

长序列处理是大模型训练和推理中的重要问题。本节我们来看看针对长序列的并行策略。

我们仍以多头注意力为例，展示其在AutoDDL中的实现。对于一个完整的长序列，我们将其划分到多个进程（卡）上，在进行自注意力计算时就需要序列并行。

当前主流的序列并行实现主要有两种：

基于Ring-AllGather的实现：将完整的K矩阵和V矩阵通过环形通信收集到本地，与本地的Q矩阵进行计算。这种方法通信量高（与总数据量成正比，不随进程数增加而降低），但能较好地实现计算与通信的重叠隐藏。
DeepSpeed Ulysses中的All-to-All实现：对Q、K、V三个矩阵分别调用一次All-to-All通信，使每个进程获得完整的输入序列，然后在本地执行类似FlashAttention的计算。这种方法通信量较低（与本地数据量成正比，随进程数增加而下降），但不易实现计算通信隐藏，且并行度受注意力头数限制。

AutoDDL将两种方法融合，提出一种混合序列并行策略：在一个维度上进行All-to-All通信，在另一个维度上进行Ring-AllGather，从而获得完整序列。初步测试表明，在Llama 2 7B模型上，对于32K、64K、128K等不同序列长度，混合策略相比单独使用Ring-AllGather或Ulysses都获得了明显的吞吐率提升。

灵活的通信拓扑变换

除了序列并行，AutoDDL还支持更灵活的通信拓扑变换，以进一步降低通信开销。

在深度神经网络中，经常会遇到矩形形状的矩阵运算。已有工作证明，对于矩形矩阵乘法，在矩阵更大的维度上分布更多的进程，才能得到全局最优的划分策略。

以注意力机制为例：

在第一个QKV线性映射层，其参数矩阵是 N x 3N 的矩形矩阵。AutoDDL在64张卡上搜索到的最优通信拓扑是 2 x 8 x 4，即在更大的 3N 维度上划分更多进程。
计算完成后，接下一个MLP层，其参数矩阵是 N x N 的方阵。对于方阵，最优通信拓扑是更均衡的 4 x 4 x 4。

AutoDDL通过在中间插入Reduce-Scatter和All-Gather操作，可以灵活地将通信拓扑从 2 x 8 x 4 转换为 4 x 4 x 4。这种灵活的通信拓扑变换能力，可以实现端到端更低的通信开销，这在现有并行框架中难以做到。

性能评估

我们通过实验来评估AutoDDL框架的性能。

首先，在四个不同的神经网络上测试了AutoDDL所采用的启发式搜索算法的效率。相比于随机搜索和FlexFlow中使用的MCMC搜索方法，我们的启发式搜索方法能在更短时间内找到最优并行策略。值得注意的是，整个搜索过程基于性能模型进行评估，无需在实际机器上验证，因此在普通笔记本或台式机上即可快速完成。

其次，在Piz Daint超级计算机上对比了不同神经网络的最终性能。结果显示，AutoDDL搜索到的最优并行策略，相比于手工实现的高度优化方案，仍能获得显著的性能提升。以Transformer为例，相比配置最优的Megatron-LM并行策略，AutoDDL能获得30%的吞吐率提升，并且随着进程数（卡数）增加，其性能优势更加明显，这证明了其更好的并行可扩展性。

融合二阶优化的流水线并行

流水线并行面临的主要问题是流水线空泡（Bubble）。虽然已有许多工作（如我们之前提出的双向流水线并行机制PipeDream）来缓解空泡，但都无法完全消除。

本节我们尝试另一条技术路线：在流水线空泡中填充有用的计算，以提升硬件利用率。具体来说，我们在空泡中填入二阶优化方法的计算负载，以加快模型收敛速度。

二阶优化方法（如自然梯度法）利用二阶导数信息更新模型，相比一阶方法（如SGD）拥有更多优化信息，能大幅提升收敛速率。其更新公式为：
参数更新量 = 曲率矩阵的逆 × 一阶梯度
然而，直接计算曲率矩阵及其逆的计算复杂度高达 O(P³)（P为参数量），对于大模型无法承受。

因此，我们采用*似的二阶优化方法K-FAC。K-FAC利用Kronecker因式分解，将大矩阵的求逆转化为两个小矩阵的求逆，大大降低了计算复杂度。我们将K-FAC的计算负载（计算曲率矩阵、求逆等）填充到流水线空泡中。填充原则是：只利用空泡时间，尽量不影响原有流水线的执行。这样，我们大约每1-2个训练迭代步就能更新一次曲率矩阵，显著提升了更新频率。

在BERT Large的预训练任务上，这种融合了二阶优化的流水线并行方案，相比使用传统一阶优化方法的方案，能将端到端的训练时间降低30%以上。

总结与展望

本节课我们一起学习了大模型高效可扩展并行策略的多个方面。

我们首先介绍了基于3D分布式矩阵乘法模型的AutoDDL框架，以及它如何自动搜索出更优的并行策略。接着，探讨了针对长序列的混合序列并行策略。最后，介绍了如何将二阶优化方法融入流水线并行，以利用空泡时间加速训练。

展望未来，大模型在互联网络拓扑和高性能推理方面仍面临一系列挑战。特别是在大模型推理阶段，自回归生成token的过程本质上是GEMV（矩阵-向量乘）运算，而非训练时的GEMM（矩阵-矩阵乘）运算，计算模式从计算密集型转变为访存密集型，这其中还有许多问题需要进一步研究和解决。

课程名称：AI系统软件栈建设 - 第8讲：RISC-V与AI算力系统软件栈 🚀

在本节课中，我们将学习RISC-V架构如何与AI算力结合，共同构建开放、繁荣的系统软件生态。我们将探讨当前AI芯片生态的挑战、RISC-V带来的机遇，以及构建统一软件栈的战略思路。

概述：AI算力生态的现状与挑战

当前，高性能AI算力芯片的获取面临困难，很大程度上需要依赖国产AI芯片的发展。国产芯片在性能等方面表现不错，但面临一个主要挑战是CUDA软件生态的壁垒。

CUDA生态由英伟达于2006年发起，在高校和产业界投入巨大。特别是*年来，CUDA开发者数量从2020年的180万激增到今年年初新闻报道的450万。

CUDA开发者指的是使用CUDA接口及CUDA C扩展语言来编写程序的开发者。在AI时代，AI算子就是用CUDA编写的。由于长期的生态建设，积累了如此庞大的开发者群体。

一个常见的想法是，让英伟达或其他AI芯片公司的软件工程师写出高度优化的算子实现，然后广大用户直接使用即可。但在当下的大模型时代，很难用一个通用的算子实现来支撑各种场景下的模型部署。

特别是在云端部署大模型时，即使是个位数的百分比算力优化，其带来的绝对成本节省体量也依然巨大。因此，业界有强烈的意愿进行进一步的极致算力优化。

这种优化难以“一劳永逸”，因为它是上下文敏感的。优化可能需要针对特定的芯片、甚至同一公司的特定代次芯片进行调整。另一个上下文是上层用户的输入和使用场景，这也会影响哪个算子实现能提供最佳的优化效果。这就是为什么需要450万CUDA开发者的原因。

CUDA生态的发展策略与局限

观察英伟达CUDA软件生态的发展，可以发现一个策略思路。首先，其根基是闭源的，且只服务于自家的英伟达芯片。其次，通过自2006年，特别是大模型时代以来的投入，极大地增加了CUDA开发者的数量，使得整个生态向其靠拢。

为了应对当前生态的燃眉之急，一个常见做法是兼容CUDA。但兼容CUDA也带来各种限制，例如被其牵着鼻子走。新一代CUDA接口的发布可能最有利于英伟达下一代芯片，从而将竞争对手甩开数年。

从云端到终端，云端算力优化有极大的极致优化需求，因此拥有庞大的CUDA开发者。这有点像“城市包围农村”的策略，先攻克云端（城市）的高要求场景，再自然延伸到对算力优化要求相对较低的终端（农村）场景。

另一个策略是“人海战术”。由于英伟达CUDA底层越接*芯片越闭源，很难单纯依靠工具创新来覆盖所有长尾场景。因此，它采用了前期建设庞大开发者生态的策略。

国产AI芯片生态的挑战

反观国内，国产AI芯片公司中，有一部分选择兼容CUDA以解燃眉之急。除此之外，也有其他技术路线。但这导致了投入严重不足、碎片化且各自为政的局面，整体上难以形成强大的生态竞争力。

我们思考的问题是，除了兼容CUDA解决眼前问题，长远来看仍需发展。不仅是我们国家，全世界除英伟达外的公司都在思考如何不被单一厂商绑定。

纵观历史，当一家公司以闭源方式占据生态领导地位时，很难有第二家闭源生态能撼动它。但我们看到过用开源方式撼动闭源主导者的例子。例如早期的Linux撼动Windows操作系统，以及更*期由谷歌牵头的、对应多种硬件的安卓开放系统，挑战了只对应自家硬件的苹果iOS。

RISC-V带来的新机遇

在这个大背景下，*年出现了一个具体的机会，那就是RISC-V。RISC-V是一个开放的指令集架构，由全球社区共同建设。

在大模型时代，AI算力需求也呈现出碎片化的特点，极度需要定制化来满足各种场景的需求，特别是在AIoT场景。因此，不仅是谷歌、Meta、特斯拉等巨头，一系列初创公司也在这个方向上投入并产出有竞争力的AI芯片产品。

我国利用RISC-V做AI芯片的企业也开始兴起。但同样面临机遇与挑战：生态碎片化问题自然继承了此前非CUDA路线国产芯片的困境；资源投入依然严重不足；缺乏统一组织统筹；产学研协同不够紧密。

我们看到很多产业联盟将公司聚集起来，希望形成标准让大家遵循。这个团结大家的出发点很好，但在执行上很难。因为联盟成员是友商也是竞品，制定标准时容易出现各家都加入有利于自己产品、不利于友商的条款，最终形成的可能是一个大杂烩式的“共识”，没有一家公司会真正遵循。另一种情况是“出工不出力”，联盟流于形式，无法凝聚真正的力量。

RISC-V+AI的破局思路

那么，RISC-V加AI为什么有可能解决前面提到的、团结大家时实操上的困难呢？

首先，我们团结的目标不只是国内的一批企业或产学研机构，而是瞄准国际。目标是推动形成国内共识的RISC-V AI指令集扩展，并将其作为候选提案推向RISC-V国际基金会，最终成为国际标准。

成为国际标准的好处在于，整个国际开源社区（如LLVM）以及AI框架社区，自然会进行“上游”支持。这意味着开源软件系统的每次换代更新，都会自然地支持好你的指令集。这是一个巨大的福利，即我们不仅是自己团结产出，更是借力国际生态。

这是一个自下而上的思路。之前提到的“只利己、不利他”的方案不可能成为国际标准。为什么不真心合作，创造一个多赢的局面呢？这是一个重要的出发点和抓手。

我们以开源的RISC-V指令集为根，各家公司都可以基于此指令集进行定制。当然，如果你偏离了指令集标准，就需要自己投入软件工程师做适配。但比起原先各家都需要投入大量软件工程师（通常占芯片公司工程师的2/3）来构建整个系统软件栈，采用RISC-V方式可以极大降低这方面的投入。

这个策略有点像“农村包围城市”。在AIoT时代，我们先在终端侧做好定制化的芯片设计、指令集扩展和系统软件栈研发，支撑好端侧算力。待生态成熟后，再“包围”对算力优化有极致需求的云端市场。

我们并非要凭空在短时间内孕育出数百万使用RISC-V AI软件栈的开发者。在大模型时代，软件工程领域本身也受到冲击，许多相对低级的编程任务可以被自动化工具取代，但对中高级人才的需求依然很大。恰恰，这些主力的工具创新能力来自于国际开源社区。国内系统软件高端人才相对缺乏，因此我们必须善于“借力”。

宏观上有两大借力：一是借力RISC-V国际标准，吸引国际系统软件栈的支持；二是直接参与并借力方兴未艾的国际开源社区，例如已有的Triton、Intel主导的SYCL等优秀工作。

同时，我们也会在中间层，针对RISC-V的AI指令集扩展（如矩阵、张量扩展），定义一个介于Triton和SYCL之间的、中等抽象程度的算子接口及实现。

具体工作与进展

第一部分工作是以指令集共识为标准，在国际上推动，使国际开源社区支持RISC-V AI指令集扩展。今年4月，RISC-V国际基金会技术指导委员会主席官宣，将人工智能与机器学习列为2024年三大顶级战略优先级方向之首，这为RISC-V赶超ARM和x86带来了巨大机会。

RISC-V在技术上并非与ARM和x86有根本不同，但其开源开放的机制降低了创新门槛。以前，涉及CPU与协处理器协同设计的AI芯片只能由Intel、ARM、英伟达等大厂完成。RISC-V+AI使得更多中小公司和团队能够参与创新。其高度的可定制性和模块化设计，允许大家根据需求搭积木式地组合指令集扩展。其生态发展也秉承了开源协作的“正义”理念，发展速度特别快。

第二部分是关于系统软件栈的构建。Triton提供了更高的抽象，支持快速敏捷开发和迭代，其性能随着编译优化等生态发展越来越好。SYCL由Intel主导，它比更接*硬件的OpenCL抽象程度更高，编程更友好，性能也更好，其目标是对标并替代CUDA的抽象层次。我们的系统软件栈也会对SYCL提供支持。

在此背景下，今年3月底，依托北京开源芯片研究院作为发起单位，联合了一批相关高校、科研院所和企业，成立了“RISC-V+AI算力生态委员会”。我们已经开展了数月的工作，与众多企业交流迭代，并成立了多个工作组，目标是指令集标准或架构扩展标准，包括矩阵、张量、GPGPU、存算一体以及其上的系统软件栈。

总结

本节课我们一起学习了构建开放AI算力生态的路径。

现有的国产AI算力芯片软件生态主要有两种选择：一是“打不过就加入”，即加入CUDA生态；二是“自己干”，走闭源独立路线。英伟达从2006年干到现在积累了450万开发者，如果各自为战，我们需要对竞争的长期性和周期性有充分思想准备。

我们现在要推动的，是利用RISC-V+AI全球生态高速发展的机遇，特别是大模型时代带来的机会，构建一个能够撼动CUDA生态的系统软件栈。我们以开源指令集为根，借力国际标准与社区，采取“农村包围城市”的策略，旨在最终形成一个开放、繁荣、多赢的新生态。

本节课中我们一起学习了：

当前AI算力生态对CUDA的依赖及其挑战。
闭源生态的局限性及开源生态的历史成功案例。
RISC-V开放指令集为AI芯片带来的创新机遇。
构建RISC-V+AI统一软件栈的战略思路与具体路径。
通过国际标准与开源社区“借力”的重要性。

课程名称：面向国产智能算力的核心基础软件 🧠💻

课程概述

在本节课中，我们将学习面向国产智能算力核心基础软件的关键挑战与解决方案。课程内容基于翟季冬教授在2024北京智源大会上的报告，将探讨如何构建和完善国产AI芯片的软件生态，以充分发挥其计算潜力。

背景与挑战

上一节我们概述了课程目标，本节中我们来看看当前智能算力发展的背景与核心挑战。

基于Transformer的大模型对算力产生了爆发式需求。这种需求贯穿模型研发、训练、微调到推理的整个流程。目前，算力开销是这波大模型产业的主要成本。在模型训练完成后，部署和推理的成本也主要由算力开销构成。

目前，在公开渠道仍难以获得国外的高端算力。中国正在大力发展国产算力，许多公司参与其中。然而，当我们实际使用国产算力时，仍存在一些需要改进的地方。其中一个核心挑战在于底层的软件生态。

一个有趣的现象是，尽管大模型企业需要大量算力，但许多已建成的计算中心其算力资源利用率并不充分。这中间存在一个巨大的鸿沟。其核心原因在于底层的算力软件生态尚不完善。

以下是国产算力软件生态面临的具体挑战：

与英伟达成熟的CUDA生态相比，国产芯片的软件栈在深度优化、兼容性和易用性上存在差距。
即使模型架构主流是Transformer，各家也会进行改进，架构本身也在不断变化。这使得在国产卡上高效运行各种模型变得更具挑战性。
非计算机专业的研究人员在选择算力*台时，由于软件生态的成熟度，往往更倾向于选择英伟达的硬件。

智能算力的关键软件栈

上一节我们讨论了国产算力面临的生态挑战，本节中我们来看看构成智能算力的十个关键软件层次。

智能算力的高效运行依赖于一个完整的软件栈。我们可以从下往上理解这十个关键层次。

以下是构成智能算力核心的十个软件层次：

调度器：负责在大型计算中心中，高效调度和管理成千上万的加速卡资源。
内存管理：为模型的训练和推理提供高效的内存分配与管理机制。
容错系统：确保在大规模模型训练过程中，系统能够从硬件或软件故障中快速恢复。
并行文件系统：支持训练和微调过程中高速读取海量数据。
编程语言：为芯片提供高效、易用的编程接口。例如，英伟达有CUDA。
编译器：将高级算子或计算图高效地编译并优化到底层硬件指令，是发挥硬件性能的关键一环。
算子库：提供针对常见计算操作（如矩阵乘法、卷积）的高度优化实现。算子库的实现通常需要编译器的强力支撑。
通信库：当计算任务扩展到多机多卡时，高效的节点间通信变得至关重要。
编程框架：整合以上组件，为用户提供友好的编程接口。例如PyTorch、TensorFlow。
并行策略：在大规模训练或推理场景下，设计高效的模型并行、数据并行等策略。

实验室的研究视角与工作

上一节我们梳理了智能算力的软件栈，本节中我们来看看从研究视角如何切入，并介绍相关实践工作。

我们的研究从两个核心层面入手：编译器和并行。编译器是连接上层应用与底层国产芯片、发挥硬件极致性能的关键。并行技术则是应对大模型（如MOE模型）在单机多卡、百卡千卡乃至万卡规模下训练与推理挑战的核心。

我们可以在PyTorch框架下对这两层进行改造，使用户无需修改业务代码，即可充分发挥底层算力性能。

以下是我们在几个关键方向上的具体工作：

1. 编程语言：FreeTensor

针对一类不规则的人工智能模型，我们开发了领域特定编程语言FreeTensor。这类模型包括图神经网络、处理长序列的算法等，其计算模式并非规整的矩阵运算。
我们在PyTorch中进行了扩展，实现了显著的性能优化。与PyTorch原生实现相比，在英伟达*台上获得了上百倍的性能提升。该项目已在GitHub开源。

2. 编译器：iNet

为了挖掘更深层次的编译优化潜力，我们提出了iNet系统。传统优化通常在计算图层或算子层单独进行。iNet的核心创新在于将这两层优化打通，进行联合优化，从而发掘出更多的优化机会。
在英伟达A100上测试表明，相较于TensorFlow、TensorRT等工具，iNet在经典卷积模型和Transformer类模型上能带来最高*两倍的性能提升。

3. 大模型推理优化：FastDecode

大语言模型推理是内存带宽密集型任务。模型参数和中间生成的KV Cache会占用大量显存。FastDecode系统的核心思想是将模型参数与KV Cache分离，并将KV Cache移至CPU内存。
通过流水线并行设计，系统能同时发挥CPU和GPU的计算能力。这样做的好处是，Batch Size不再受GPU显存限制，并且可以整合CPU与GPU的内存带宽来共同提升吞吐量。实验显示，与vLLM等系统相比，FastDecode能将Batch Size提升百倍，GPU吞吐量提升1.8到14倍。

4. 大模型训练与MOE并行：FastMoE / SmartMoE

我们开发并持续维护了FastMoE系统，用于支持混合专家模型的并行训练。用户在PyTorch中添加一行代码，系统即可自动处理各种并行策略。该系统支撑了北京智源“悟道”大模型的训练。
后续的优化工作如FastMoE-on-POP和SmartMoE，进一步提升了性能，相较于DeepSpeed的MoE系统，可获得高达十几倍的加速。

国产算力实践：八卦炉系统

上一节我们介绍了在通用*台上的优化工作，本节中我们来看看如何将这些技术应用于国产算力*台。

我们将上述编译、内存管理、通信等技术整合，移植到国产算力*台，构建了名为“八卦炉”的软件系统。该系统部署在青岛的一个纯国产超算*台上，该*台拥有约10万个国产加速卡节点，算力规模相当于1.8万块英伟达A100。
“八卦炉”系统从底层编译器、内存管理到多机通信进行了全栈优化，使得PyTorch代码能够在该国产系统上高效运行。我们利用该系统成功训练了百万亿参数规模的模型，并支持了百川、LLaMA等主流大模型在该*台上的训练与推理。
国产超算*台由国家投资建设，使用成本相对较低。在此类*台上进行大模型训练或推理，相比租赁英伟达A100/H100，可以显著降低成本。

课程总结

本节课中，我们一起学习了面向国产智能算力核心基础软件的重要性与构建路径。

我们探讨了当前国产算力在软件生态上面临的挑战，系统性地介绍了智能算力所需的十个关键软件层次。通过研究团队在编程语言、编译器、大模型推理与训练优化等方面的具体工作，我们看到了通过软件创新大幅提升算力效率的潜力。最后，通过“八卦炉”系统的实践案例，我们了解到将先进软件技术移植到国产算力*台，并支撑大规模AI应用的可行性。

构建完善的国产智能算力软件生态，对于降低大模型在不同AI芯片上的迁移成本、推动中国人工智能产业发展具有至关重要的意义。这需要产、学、研各界在底层基础软件领域持续投入和共同努力。

人工智能与数据新基建课程 - P1：领导致辞解读 🎤

在本节课中，我们将学习并梳理2024北京智源大会上，关于人工智能与数据新基建论坛的领导致辞核心内容。我们将重点关注数据作为关键生产要素的作用、当前的发展现状、面临的挑战以及未来的发展建议。

当前形势与数据的重要性 🌍

新一轮科技革命和产业变革正在加速演进，新质生产力正在加速形成。

以AIGC通用大模型为代表的人工智能技术，引发了第四次工业革命，成为全球关注的焦点和科技竞争的制高点。

作为人工智能的底层基础要素，高质量的数据已成为AI大模型研发的基础性、战略性资源。它是科学决策、精准治理和精细服务的基础。

公式：AI大模型效能 ≈ 高质量数据 × 先进算法

数据工程建设成为从“X+AI”到“AI+X”根本性变革的关键力量。

目前，高质量数据的生成速度远远低于AI模型训练数据的需求增长速度，数据短缺问题已现端倪。高质量数据资源对于AI大模型的战略价值，堪比石油对于工业发展。

我国数据新基建的发展现状 📈

上一节我们介绍了数据的基础性作用，本节中我们来看看我国在数据新基建方面取得的进展。*年来，我国在此领域发展势头良好，主要体现在以下三个方面：

以下是三个主要进展方向：

数据处理能力走向成熟
围绕大数据的采集、分析、处理，涌现出了一批具有代表性的数据公司和企业。
数据要素市场化改革不断深入
“数据二十条”提出了建立数据资源持有权、数据加工使用权和数据产品经营权的“三权分置”数据产权制度框架。
公共数据开放不断加快
2023年，我国公共数据开放量同比增长16%，省一级政府开放数据量同比增长18.5%。北京、浙江等15个省份的数据管理部门已开始探索公共数据授权运营机制。

面临的挑战与问题 ⚠️

在肯定成绩的同时，也必须清醒地认识到当前存在的问题。

国内开源数据集在数据规模和语料质量上，相比国外仍有较大差距。中文开源数据集仅占英文开源数据集的11%。此外，数据来源比较单一，更新频率较低，从而导致大模型训练效果受阻。

未来发展建议 🚀

认识到挑战后，如何破局是关键。以下是针对未来发展提出的四点建议：

加快高质量数据资源的开放共享
通过产、学、研、用多边合作，推动政府、企业、高校合建公开数据集，促进中文数据资源共建共享，尤其是公共数据、政府数据和科学数据。
积极跟进合成数据等技术发展
充分发挥合成数据获取成本低、质量高、避免侵犯隐私等优势，推动不同领域、不同模式合成数据的技术发展，繁荣AI产业。

代码示例（概念）：
```
# 合成数据生成的基本思路（伪代码）
真实数据 + 生成模型（如GANs） -> 合成数据
```
尽快构建数据交易机制
积极对接国家和地区的数据交易*台，制定适合大模型训练的数据标准体系，畅通数据确权、数据价值评估、数据定价等流程，加速数据市场成熟。
坚持数据治理与数据流通并重
构建数据安全保障体系，确保数据基础设施安全，保障数据流通过程（尤其是跨境数据流通）的安全。加快隐私计算、数据隔离等技术发展。

总结与展望 ✨

本节课中，我们一起学习了领导致辞的核心内容。

通用人工智能时代是人类文明和历史发展的必然趋势，也是我国推动人工智能与实体经济深度融合、加快形成新质生产力的历史性机遇。

构建坚实的“人工智能+数据新基建”，需要汇聚行业力量，共同把握机遇，应对挑战，共创我国人工智能时代的新飞跃。

字幕由 Amara.org 社区提供

课程名称：大模型助力数据要素价值变现 🚀

课程编号：P10

在本节课中，我们将学习大模型如何作为智能引擎，解决数据要素价值变现过程中的核心挑战。我们将探讨数据要素的新特征、当前面临的痛点，以及大模型如何凭借其认知与操控能力，为数据价值释放提供全新的、高效的路径。

数据要素时代的新特征与挑战

上一节我们介绍了课程的主题，本节中我们来看看数据要素在新时代下呈现出哪些新特征，以及这些特征带来了哪些挑战。

数据已成为新型生产要素，并对土地、劳动力、资本等其他要素起到越来越重要的支配作用。随着数字经济的增长，数据要素价值变现的需求日益迫切，进程也在加速。

然而，当前的理论与方法在实践过程中存在诸多堵点和痛点。从数据开放时的合规担忧，到数据融合与治理的复杂与高成本，再到数据应用多停留在表层分析，整个价值变现链条仍不顺畅。

究其根本，数据要素价值变现仍主要依赖人力，而数据本身日益复杂，人力已难以应对。这背后有几个重要原因：

以下是数据价值变现面临的核心挑战：

系统与数据日益复杂：现代社会是人、机、物多元融合的复杂系统。制造业系统动辄涉及上万张关联表单，其复杂的“中国式表头”对传统方法构成巨大挑战，几乎没有人类专家能全盘理解。
数据内涵与特性发生显著变化：数据从“符号化记录”变为“资源”，再变为“生产要素、产品、资产”。这带来了新的特性：
- 持续流动性：数据需在生产、分配、流通、消费各环节流动才能释放价值，这对全链条自动化、智能化处理技术提出了高要求。
- 权属与安全可控性难题：数据在流动中与多个主体交互，其权属确定和安全保障变得异常复杂。
- 开放的复杂生态环境：数据需在异构、多变的系统中交互，对统一、标准化、可互操作的数据管理技术提出了要求。
- 动态增值过程：数据价值在汇聚、分析、质量提升、关联融合等动态处理中持续创造，但现有方法很少为此设计。

当前数据科学的理论和方法远不足以支撑数据要素的价值变现。除了制度与基建，技术供给的不足同样是关键堵点。企业常因技术能力有限或成本过高而却步。

大模型：数据价值变现的智能新引擎

上一节我们分析了数据价值变现的困境，本节中我们来看看为何大模型有望成为破局的关键。

当数据要素价值变现变得日益困难时，人工智能的最新进展——大模型，可能正是解决问题的答案。大模型本质上利用人类已积累的数据，习得了对复杂世界的建模能力，成为了一个海量的知识容器。

更重要的是，大模型正在成为模拟人类认知能力的新引擎。它不仅能理解语言和常识，还在概念理解、问题求解、规划、价值判断等方面展现出强大能力。随着大模型成为各类智能体（Agent）的“大脑”，它有望实现与复杂世界的自主、自适应交互。

正因为具备了上述能力，大模型为数据要素带来了全面的认知与操控能力：

以下是具体表现：

认知数据的能力：大模型能理解数据库元数据（Schema）中的概念及关系，并能发现数据实例中的逻辑错误，其能力不亚于甚至超过普通人类。
自主操控数据的能力：通过强大的规划与工具使用能力，大模型可以自主完成复杂的数据查询、分析与可视化任务。例如，通过自然语言指令“对比上海和北京每年8月的*均温度”，大模型能自动规划并执行数据查找、统计、制表等一系列步骤。

原本由人类专家承担的“理解数据”和“操控数据”的工作，未来可以交给机器。因此，大模型必将成为驱动数据要素价值变现的核心智能引擎。

大模型应用的实践、挑战与未来展望

上一节我们肯定了大模型的潜力，本节中我们来看看其具体应用实践、面临的挑战以及未来的发展方向。

尽管前景广阔，但大模型在推动数据要素价值变现中仍面临巨大挑战。行业数据用于支撑严肃决策，这要求模型具备丰富的领域知识、复杂决策逻辑、宏观态势研判、精密规划、约束取舍及不确定性推断等能力，而当前大模型在这些方面仍有欠缺。此外，幻觉问题、领域忠实度、可控性、可解释性以及高昂的成本都是现实障碍。大模型对行业私域数据中专业、私有化表达的理解也存在鸿沟。

尽管如此，大模型已在诸多实践中展现出巨大价值。它提供了一种端到端的价值变现路径：将数据用于炼制行业大模型，再通过插件式组件释放价值，这极大简化了流程。同时，Transformer等架构为实现统一的多模态数据价值变现提供了可能。

以下是当前大模型在数据领域的一些关键应用方向：

智能数据治理：数据治理代价高昂，且数据错误具有开放性（难以预设）。大模型凭借强大的开放理解能力，能有效清洗和规范不规范数据（如地址信息），并处理语料治理中的困难案例（Hard Case）。
知识验证与构建：利用大模型验证知识库的正确性，并驱动知识图谱的自动化构建。例如，从教材中抽取实体关系，可将原本耗时数月的工作大幅缩短。
自然语言数据访问与分析：用户可以直接用自然语言查询关系数据库，或驱动智能体（Agent）进行自动化的数据分析与可视化，降低了使用门槛。
数据智能运维：实现数据库系统的智能运维，无需依赖传统的专业查询语言。
释放文档价值：处理和理解千行百业的非结构化文档，提取其中蕴含的知识与信息。

最后，我们可以用一个简单的公式来总结未来的发展方向：

数据要素价值 = 大模型 × (治理好的数据 + 行业知识)

未来，我们需要一方面治理好数据、建设高质量数据集，另一方面利用数据炼好行业大模型。随后，大模型的能力又能反哺，让数据变得更好。二者深度融合，在千行百业的应用中不断反馈、验证与迭代，形成协同发展的正向循环。

课程总结

本节课中，我们一起学习了数据要素价值变现的现状与挑战，探讨了大模型如何凭借其世界建模、知识容器和认知引擎的能力，为这一难题提供智能化的解决方案。我们看到了大模型在数据治理、知识工程、智能分析等方面的具体应用实践，同时也认识到其在领域适应性、可控性和成本方面面临的挑战。最终，我们展望了“大模型+数据要素”深度融合、协同发展的未来路径。

人工智能与数据新基建课程（P2）：大模型需要大数据流转模式创新 🧠💡

在本节课中，我们将学习大模型时代下，数据作为智能源头的重要性、数据加工方式的变革，以及如何构建良性的数据流通模式以促进人工智能生态的健康发展。

智能的源头是数据 📊

上一节我们介绍了人工智能发展的宏观背景，本节中我们来看看智能的根本来源。所有智能，包括人类智能，其源头都是数据。人工智能发展初期，人们曾试图将人类的思维过程转化为算法和规则，或构建知识库，但这并未真正解决智能问题。

第三次人工智能浪潮的核心革命在于“从数据中学习”。经过多年探索，我们认识到真正的智能需要通过人工神经网络对数据进行处理才能产生。智能是主体（如人类或机器）为了适应环境而发展出的能力，而数据正是环境的一种表达。因此，智能本质上是环境和数据的高度凝练与投射。

大模型（如基于Transformer架构的模型）的成功印证了这一点。它们通过海量数据训练，学习数据单元（Token）之间的关系，并将这些关系映射为神经网络的参数。这个过程可以用一个简单的思想来理解：一个个体（或一个数据单元）的含义，是由它与其他个体之间的关系所定义的。大模型正是通过计算海量语料中Token的共现关系，从而“理解”了语言及其他模态背后的含义。

核心公式/概念：

智能的涌现：智能能力 ∝ 数据规模 × 模型规模 × 算力规模
关系学习：大模型通过Transformer等架构，学习序列中Token之间的关联权重，公式化表示为注意力机制：Attention(Q, K, V) = softmax(QK^T/√d_k)V

所以，人工智能的能力并非由研究者设计出来，而是从数据中“提炼”出来的自然规律的体现。随着数据规模、模型规模和算力的持续增长，这种能力还会不断增强。

数据加工：从人力主导到智能主导 🏭

既然智能源于数据，那么高质量的数据就至关重要。错误或低质的数据会导致模型产生偏见或错误，且后续纠正代价高昂。因此，数据需要经过清洗、去噪、格式标准化、内容筛选等多道加工工序。

过去，这些工作主要依赖人力，成本高、效率低，且对人员专业能力要求日益提升。然而，在大模型时代，数据加工的模式正在发生根本性变革。

以下是当前数据加工面临的核心挑战与转变：

挑战：数据量巨大，质量要求高，涉及价值观与安全审核，单纯依靠人力难以为继。
转变：利用人工智能，特别是大模型智能体（Agent），来替代大部分人工数据处理工作。
模式：构建由智能体（Agent）主导的自动化数据产线。用当前的AI处理当前的数据，训练出更优的模型，进而催生更高效的数据处理Agent，形成迭代升级的良性循环。
展望：预计未来90%以上的通用数据处理工作可由AI完成，人类则专注于更高层的审核、价值观对齐与流程设计。

这种智能数据产线模式，将是未来数据基础设施的核心组成部分，能极大提升数据处理的效率与规模。

构建数据与智能的正反馈循环 🔄

数据滋养智能，智能反哺数据加工，二者若能形成正反馈，将极大加速人工智能的发展。然而，当前数据流通领域存在一个关键障碍：将数据视为需预先高价购买的“物理资产”的交易模式。

这种“先付费，后使用”的模式，给尚未盈利的研发机构和企业带来了沉重的初始成本压力，抑制了创新活力，阻碍了生态形成。数据作为数字资产，具有可复制、可多次使用的特性，其流通模式应区别于物理商品。

因此，我们需要创新数据流转的体制机制。一个更合理的思路是建立“先使用，后付费”的收益分享模式。

以下是实现这一模式的关键步骤构想：

数据确权：明确数据集的加工者与所有者，这是流通的基础。
使用记录：模型训练方需清晰记录所使用的数据来源与数量。
收益挂钩：在模型未产生商业收益时，数据方不收取费用；当模型获得商业成功时，再根据事先约定的规则，按数据使用比例向数据方分享收益。
技术保障：需要配套的监管*台与技术（如区块链、智能合约）来确保确权、计量、计费和分成的公*、透明与可信。

通过构建这样的数据流通新模式，可以降低创新门槛，激励数据开放与共享，最终驱动“数据飞轮”高速旋转，让智能时代真正加速到来。

总结 📝

本节课中我们一起学习了三个核心观点：

智能的源头是数据：大模型的能力是从海量数据中学习并提炼出来的，其智能水*随数据与模型规模增长而涌现。
数据加工迈向智能化：未来数据产线将由AI智能体主导，自动化处理大部分工作，人类进行关键监督与设计。
需要创新的数据流通模式：建立“先使用，后付费”的收益分享机制，打破数据流通壁垒，构建数据与智能相互促进的正反馈循环，是建设国家“智力基础设施”的关键。

最终，我们的目标是进入一个由“智力”驱动社会发展的新时代，如同电力解放了体力劳动，人工智能将解放并增强人类的智力劳动。

人工智能数据新基建课程 - P3：北京人工智能数据运营*台介绍 🚀

在本节课中，我们将学习北京人工智能数据运营*台的重要性、其旨在解决的核心问题，以及*台提供的具体数据集、工具和使用模式。我们将了解高质量数据对于人工智能，特别是大模型发展的关键作用。

概述：数据是人工智能的基石

在过去的十几年人工智能发展中，三个数据集尤为重要。2007年开始筹建、2012年发布的ImageNet，直接推动了AlexNet、ResNet等影响后续所有计算机视觉深度学习模型的诞生。2007年开始构建的全球最大网页数据集Common Crawl，为语言模型的快速迭代奠定了基础。2021年启动的LAION数据集（包含数十亿图文对），催生了CLIP等跨模态图文模型，并推动了如今蓬勃发展的多模态研究。

这些由国外非营利机构长期积累的数据集，是过去十几年人工智能，尤其是当前大模型快速迭代不可或缺的基础。然而，仅有这些数据集是远远不够的。

人工智能数据面临的三大难题

在构建和使用人工智能训练数据时，我们主要面临三大难题：数据量、数据质量和数据使用。

以下是关于数据量问题的具体分析：

中文数据占比低：虽然Common Crawl数据集每月新增数十亿网页，但中文互联网用户全球占比接*20%，而国内中文网站的全球占比却非常低。
数据孤岛问题：用户日常使用的APP（如微信、抖音）中存在大量数据，但这些数据彼此隔离，形成了数据孤岛。
多模态与行业数据稀缺：在新兴的视频、3D等多模态数据领域，以及各垂直行业内部，高质量数据更是十分欠缺。

除了数据量，数据质量也存在诸多问题。此外，数据使用始终绕不开数据版权和数据安全的挑战。

面对这三大问题，我们不能等待所有问题都解决后才启动人工智能大模型的发展。因此，智源研究院在过去几年持续积累和探索，试图通过汇聚数据集来帮助产业积累数据量，通过打造数据处理工具来提升数据质量，并通过发布数据*台来帮助解决数据使用问题。

北京人工智能数据运营*台

北京人工智能数据运营*台由北京市科委、海淀区政府、中国网络空间安全协会共同推动，由智源研究院和金融数产共同建设。数据问题至关重要且复杂，需要借助广泛的社会力量共同推动解决。

该*台涵盖了*台、数据集和工具三大部分。*台支持三种核心使用方式，以应对不同的数据需求和安全考量。

以下是*台支持的三种数据使用模式：

开源开放：*台提供一批数据集，用户无需任何条件即可下载使用。这被视为一种社会责任，也是推动科研创新的重要方式。
合作共享：针对高质量数据，*台构建联盟范围内的合作共享模式。参与方根据贡献数据的多少，换取相应的数据使用权，以此鼓励企业间互换高质量数据。
数算一体：对于具有高价值、受版权保护且不能带离的数据，*台提供“数算一体”模式。数据存储在安全域内，所有数据加工和模型训练流程均在安全域内完成，最终用户带走的是训练好的模型，而非原始数据，以此保障数据安全。

基于以上三种模式，*台支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。*台的目标之一是利用AI技术解决数据标注问题。同时，为支撑“数算一体”模式，*台实现了数据与算力的深度融合。

*台数据集资源

目前，*台上已汇聚两大板块的数据资源。

以下是*台现有数据集的分类介绍：

通用数据集：适用于通用模型训练，已积累超过700TB的数据。
行业垂类数据集：针对日益重要的行业垂直领域，*台设立了专业板块来存放相关数据集。

这些数据来源于智源研究院多年的积累、相关部门的支持以及全国超过30家合作企业的贡献，并通过上述三种方式提供使用。

随着*台发布，有两个重要的数据集同步推出。

以下是本次重点发布的两个数据集详情：

全球最大多行业中英文双语数据集：涵盖18个行业，包含开源数据和需定向申请的非开源数据，总量达4.3TB。该数据集还包括医疗和教育行业的微调数据及人类反馈对齐数据。实验表明，使用该数据集的医疗行业数据对基础模型进行全流程训练后，能在医疗行业评测上提升20%的性能。
千万级指令微调数据集：针对当前开源社区缺乏真实SFT（指令微调）数据集的现状，智源重构并验证了此数据集。目前已完成300万条数据的验证并开源，在多个评测中表现优异，甚至优于一些知名模型。用户可下载该数据集用于下游聊天模型的指令微调。

这些数据集的构建依赖于多项技术，如多标签数据分析、高质量数据筛选和数据合成等。

数据处理工具升级

工具是提升数据质量的重要武器。智源研究院将过去几年迭代的数据处理工具进行了全面升级，形成了FlagData工具集3.0版本。用户可通过提供的开源网址下载使用这些工具，用统一的高标准处理数据。

总结与展望

本节课中，我们一起学习了数据对于人工智能发展的基石作用，认识了当前面临的数据量、数据质量、数据使用三大挑战。北京人工智能数据运营*台通过开源开放、合作共享、数算一体三种模式，并辅以庞大的通用与垂类数据集以及FlagData工具集，旨在系统性地应对这些挑战。

正如行业共识所示，在目标函数和模型架构相对固定的当下，不断攀登数据集的高峰对模型性能至关重要。大模型领域的数据研究仍处于初步阶段，需要学术界和产业界投入更多力量，共同推进数据汇聚与数据研究的发展。

人工智能+数据新基建课程04：行业数据集-场景应用创新计划介绍 🏗️💡

在本节课中，我们将要学习由中国互联网协会与智源研究院联合发起的“行业数据集-场景应用创新计划”。我们将了解该计划推出的背景、核心内容以及具体的时间安排。

计划背景与重要性

在通用大模型技术快速发展的今天，更多企业关注的是人工智能在具体行业内的应用。核心问题在于行业应用模型或行业大模型如何实现落地。

由于数据是界定大模型智能边界的关键因素，而行业大模型所需的数据具有专业性、稀缺性和不流通性，导致其严重匮乏。这直接制约了行业大模型的落地进程。

因此，行业数据集是行业大模型落地的重要基石。正是基于行业数据集对行业应用落地的重要性，中国互联网协会联合智源研究院，在国家“AI+”战略的指引下，为切实解决行业痛点，共同发起了此项“行业数据集-场景应用创新计划”。

计划的现有基础

上一节我们介绍了该计划的必要性，本节中我们来看看该计划所依托的坚实基础。该基础即智源研究院已构建的行业数据*台。

该*台目前已覆盖18个主要行业，积累了高达 4.33TB 的数据。未来，计划将覆盖范围拓展至30个主要行业。

计划的核心内容

基于上述基础，本计划将分为三个主要部分推进。以下是具体的工作内容：

行业数据集的发布与应用案例征集
我们将系统性地发布行业数据集，并同步征集基于这些数据集的应用创新案例。
行业数据需求与合作方案征集
我们将广泛搜集各行业对数据的特定需求，并征集有意愿、有能力的合作伙伴及其解决方案。
应用创新案例的评选与推广
我们将对征集到的优秀应用创新案例进行评选，并予以重点推广，以形成示范效应。

计划的时间安排

在明确了计划内容后，我们来看看具体的时间推进表。以下是初步的时间安排：

计划于今日正式发布。
目标在今年10月之前，完成第一轮的数据集发布、应用案例征集、需求收集及评选推广工作。
目标在明年1月之前，完成第二轮的相关工作。

我们诚挚欢迎广大企业及所有有意愿的机构积极参与本计划。

参与方式

为便于高效征集行业数据需求，我们提供了专门的报名通道。您可以通过扫描现场或资料中提供的二维码，提交您的“行业数据愿望清单”，与我们取得联系。

本节课中，我们一起学习了“行业数据集-场景应用创新计划”。我们了解到，该计划旨在通过系统化构建与开放行业数据集，并联动征集创新应用与解决方案，来破解行业大模型落地的数据瓶颈，从而推动人工智能与实体经济的深度融合。

课程名称：人工智能数据*台发布与创新计划启动 🚀

概述

在本节课中，我们将学习“北京人工智能数据运营*台”的发布流程以及“行业数据集-场景应用创新计划”的启动仪式。我们将通过整理官方活动记录，了解其核心环节与参与方。

发布仪式流程 📜

上一节我们介绍了课程的整体内容，本节中我们来看看发布仪式的具体流程。

活动首先邀请相关领导和嘉宾上台，共同见证*台的发布与计划的启动。

以下是上台参与仪式的领导与嘉宾名单：

北京市科委副主任董其超
北京市海淀区副区长董超
中国互联网协会副秘书长代委
智源研究院副院长林永华
北京能源集团副总经理张凤阳
中国移动研究院人工智能与智慧研究中心常务副总经理邓超
中国互联网协会人工智能工作委员会秘书长邓凯

启动仪式环节 ✨

了解了参与人员后，我们进入最核心的启动仪式环节。

仪式要求各位领导嘉宾将手放在屏幕上的指定手印位置。

随后，活动进入集体倒计时阶段。倒计时公式可表示为：
启动时刻 = 当前时刻 - 3秒

在倒计时“3、2、1”结束后，*台发布与计划启动正式完成，现场致以祝贺。

总结

本节课中，我们一起学习了“北京人工智能数据运营*台”发布暨“行业数据集-场景应用创新计划”启动仪式的完整过程。我们梳理了从嘉宾邀请、名单确认到最终倒计时启动的核心步骤，明确了该活动的主要参与方与关键环节。

课程名称：基于数联网的大模型智能体数据供应链 🧠➡️🔗

概述

在本节课中，我们将学习如何从数据的视角，理解并解决当前大模型发展所面临的“数据危机”。我们将探讨“数联网”这一新型数据基础设施的概念，并了解如何通过构建数据供应链，重塑数据价值流转的“飞轮效应”，从而为大模型智能体提供持续、高质量的数据供给。

一、大模型时代的数据危机与机遇

上一节我们概述了课程目标，本节中我们来看看大模型发展面临的核心挑战——数据。

所谓的大数据与大模型，可以被视为“第四范式”从科学领域向全域的扩展。第三范式是业务驱动、计算密集的模式，其核心是CPU、单机操作系统和应用。而第四范式则是模型驱动、数据密集的模式，其核心是GPU、大模型和智能体。

当前大模型面临的“高质量数据危机”在于：万维网上能以开源方式轻易获取的公共数据已经不够用了。真正高质量的数据，大多隐藏在需要登录或封装在独立应用（APP）中的“私域”里。

这既是挑战（危），也是机遇（机）。以ChatGPT为例，它主要是用约4%的开放网络数据，加上GitHub代码库和百科全书等“深网”数据训练而成，其效果已震惊世界。试想，谁能有效利用那剩余的96%的私域数据，谁的大模型就可能在现有技术路线上占据主导地位。

二、第四范式的理想与现实：为何需要数据互联

上一节我们分析了数据危机的本质，本节中我们来看看解决这一问题的理论基石——“第四范式”及其理想状态。

第四范式的目标是让所有科学文献和数据都能在线且可互操作。其核心价值在于基于数据复用，实现科学研究的复现与探索加速。一个典型案例是谷歌的BERT模型：论文公开后，其数据和算法被迅速复用，百度在两个月内推出了ERNIE模型，Meta也基于自身数据推出了RoBERTa模型。

在理想状态下，如果所有论文、数据、代码都能畅通无阻地连接，研究者就能一键复现论文中的算法并进行新的探索。然而现实是，论文、数据、代码之间存在着复杂的关联网络，这个由数据构成的巨网在当前的万维网架构下是“看不见、摸不着、用不起来”的，因此无法形成网络效应。

有趣的是，在2006年“第四范式”概念被提出的同一年，互联网（TCP/IP）发明人罗伯特·卡恩和万维网（WWW）发明人蒂姆·伯纳斯-李分别提出，互联网和万维网应向“数联网”演进。他们的核心思想是：不仅机器（IP地址）和网页（URL）需要互联，数据本身也需要拥有独立标识并能直接互联。

罗伯特·卡恩提出了“数字对象架构”（DOA），为数据赋予类似DOI（数字对象标识符）的唯一标识，并建立了一套独立于DNS的全球域名系统来管理这些数据实体。这为数据直接互联奠定了理论基础。

由此可见，从概念上，业界早已认识到需要一套全新的、支持数据直接分享与连接的基础设施。然而，基础设施的演进是缓慢的。在“数联网”完全建成之前，出现了数据仓库、数据湖、数据网格、隐私计算等局部性、临时性的解决方案。

因此，当前的数据基础设施不是“适度超前”，而是严重滞后于大数据、大模型发展对数据互联的规模和效率需求。

三、数联网：面向数据空间的新一代基础设施

上一节我们探讨了数据互联的理论需求，本节中我们来看看面向未来的解决方案——“数联网”与“数据空间”。

网络空间的演进可分为三个阶段：

网络空间1.0（计算空间）：机器与机器互联（始于1969年美国ARPANET）。
网络空间2.0（信息空间）：人机交互成为主流，网页信息互联（始于1993年美国NII计划）。
网络空间3.0（数据空间）：人、机、物三元融合，通过数据进行连接。

中国在2017年便提出了网络强国战略，早于欧美2020年的相关数据战略。这为中国在数据空间时代争取领先地位提供了战略窗口。

“数联网”正是支撑“数据空间”的基础设施。其核心目标是解决数据的互通（发现与定位）、互换（安全交换）与互操作（正确使用）。它与万维网有本质不同：万维网连接的是网页（信息），而数联网连接的是数据本身（数字对象）。

以下是数联网的基本工作原理：

核心对象：将分散的私域、公益数据封装成具有唯一标识的“数字对象”。
连接方式：数字对象之间通过语义关系进行连接。
网络形态：形成一张软件定义的、覆盖在互联网之上的数据交换网络。

基于此理念，研发了“数联网一体机”等产品，以软硬件结合的方式推动基础设施落地。整个体系遵循开放标准与开源软件的原则。

数联网的建设分为三个层次：

行业数联网：解决行业内部的数据流通问题。
公共数联网：类似互联网的公网，解决跨行业数据的发现、定位与调度，应由国家主导统建。
跨境数联网：在数据重要性日益凸显的背景下，采用“数据海关”模式，在技术上已实现与国际主流数据空间方案（如欧盟IDS）的互联互通。

实践案例如下：

行业应用：在医疗领域，连接1000家医院与700家药企，支持临床实验数据的分布式安全流通，避免了建设中心化汇聚*台的难题。
公共应用：支撑工业数据要素登记，促进工业领域数据流通。
跨境应用：支撑上海国际数据港建设，并与巴西、智利等国合作，推动中国技术方案走向世界。

四、构建大模型智能体的数据供应链飞轮

上一节我们介绍了数联网这一基础设施，本节中我们来看如何利用它具体解决大模型的数据供给问题。

我们的核心理念是：不能仅从大模型训练的角度看数据问题。大模型真正产生价值在于智能体（Agent），而智能体的核心操作是对业务数据的读和写。因此，必须先解决智能体对业务数据的读写问题，才能进而将业务文档数据用于训练大模型，并解决“先使用后付费”等激励问题。

解决方案的原理是：将大模型从训练、微调、增强到推理的完整链条拆解，把其中所有与数据相关的环节都转化为“数字对象”，并接入全国的数联网。在此基础上，构建一条完整的数据供应链。

以下是该系统的运作流程：

第一步：处理私域数据
私域数据所有者将数据导入本地的“数字对象仓库”。大模型会自动将这些数据分类处理成语料、向量、数据库表、接口等。用户只需关心如何用大模型处理自己的私域数据即可。

第二步：收集需求与能力信号
在用户与智能体（基于RAG等技术）的每一次交互中，系统能隐式地收集到两类关键信号：

数据能力信号：用户拥有哪些高质量数据（可用于分享）。
数据需求信号：用户反复追问或修改提示时，表明智能体缺乏相关的语料或向量数据。

第三步：全网数据自动撮合与价值流转
系统通过数联网（仅交换元数据，不暴露数据本体）将需求与能力信号进行全网自动撮合。

对于智能体（向量数据）：当用户A的提问命中了用户B提供的向量数据并生成满意结果后，用户A付费。该收益会通过智能合约自动分配给用户B。这解决了智能体场景下数据“先用后付”的激励问题。
对于基础大模型（语料数据）：私域数据所有者在智能体使用中已获得心理认同和经济收益后，更可能同意将脱敏后的语料数据提供给基础大模型用于训练。基础大模型也可以通过提供服务来“交换”这些语料，甚至实现“贡献token，兑换服务”的闭环。

最终，这条供应链形成了数据价值流转的飞轮：
智能体的使用驱动了向量数据的交易与流通 → 私域数据所有者获得收益 → 更愿意提供语料数据给基础大模型 → 基础大模型能力提升 → 吸引更多用户使用智能体 → 产生更多数据交互与交易。

目前，该系统已在50多所高校进行内测，并在园区、钢铁等场景开始推广，目标是将大模型智能体的数据使用门槛降到最低。

五、未来展望：从数据空间到智能体环境

上一节我们讲解了数据供应链的具体构建，本节我们展望一下更远的未来。

我们此前的工作已证明，将人、机、物的一切状态与行为都封装成“数字对象”，并在网络中进行低代码编程和实时数字孪生监控，是构建“数据空间”的有效路径。这恰恰也是未来“智能体环境”或“空间智能”所需的基础。

我们的下一步工作，就是将本节所阐述的“大模型智能体数据供应链”系统，与上述“数据空间”基础相融合。届时，智能体将能在一个由数据充分互联、价值顺畅流转的环境中自主运行与进化，为实现更高级别的智能奠定基础。

总结

本节课中我们一起学习了：

问题根源：大模型的“数据危机”本质是高质量私域数据未被有效利用。
理论方向：“第四范式”和“数联网”概念指明了数据直接互联互通是必然趋势。
基础设施：“数联网”是支撑数据流通的新一代基础设施，分为行业、公共、跨境三层建设。
解决方案：通过构建连接大模型全链条的数据供应链，利用数联网实现数据自动撮合与价值分配，重塑数据飞轮。
未来愿景：最终目标是构建一个数据与智能体充分融合、价值自由流动的智能环境。

通过数据基础设施的革新与供应链模式的重塑，我们有望破解大模型的数据瓶颈，推动人工智能向更深、更广的领域发展。

课程名称：面向大模型的数据工程 🚀

概述

在本节课中，我们将学习面向大模型的数据工程。课程内容基于中国信息通信研究院李荪的分享，将探讨人工智能数据发展的现状与挑战，并系统性地介绍如何构建高效、高质量的数据工程体系以支撑大模型的训练与应用。

人工智能数据的现状与挑战

随着人工智能的发展，算法、算力和数据构成了其核心三要素。进入大模型时代，算法能力在理解和推理方面实现了质的飞跃。算力方面，国家推动的算力一体化也为人工智能基础设施提供了保障。

然而，数据的要求发生了根本性变化。大模型需要非常大规模且类型多样化的数据，尤其是多模态数据的对齐。这与上一代专注于NLP、CV等单点任务的小模型截然不同。

在大模型时代，数据之所以受到极高关注，是因为其对质量的要求极高。大模型预训练阶段投入成本巨大，涉及算力、人力和时间。如果数据质量不高，可能导致训练宕机或需要版本追溯，这些都与数据密切相关。

从2021年到2022年，人工智能顶尖学者提出了 “以数据为中心的人工智能” 理念。这标志着人工智能的发展重点正从以模型为中心转向以数据为核心，大模型的兴起印证了这一观点。

我们可以将数据比作第二次工业革命中的汽油。发动机和汽车如同算法和算力，而高质量的汽油（数据）的炼制、运输和加油站建设，则如同保证人工智能模型快速发展和应用落地的全产业链条。

国家政策层面也在不断推动高质量数据要素的供给，包括先行先试的数据制度、标准制定、市场交易和资源建设。2023年5月，国家提出建设国家级数据标注基地，旨在通过融入人类和专家知识，加工出高质量数据集，持续为人工智能提供“燃料”。

人工智能工程化落地是当前的重点方向，意味着技术从实验室走向产业。在此过程中，数据是连接底层算力基础设施与上层场景应用的关键环节。一个核心矛盾在于：数据通常由模型应用方拥有，而技术提供方缺乏数据。如何弥合“拥有什么数据”和“需要什么数据”之间的鸿沟，是工程化落地的关键挑战，这也引出了今天“面向大模型的数据工程”这一主题。

大模型时代对数据工程的新要求

进入大模型时代，数据在数量和质量上提出了“双高”要求。主流大模型的训练数据量（Token数）非常庞大，但目前用于训练的数据质量缺乏统一的评价标准，导致在训练和落地过程中需要投入大量时间进行数据处理。

大模型的训练和应用涉及多个环节，每个环节对数据的要求各不相同。因此，我们需要一个高效、自动化的数据工程体系。这套体系需要包含：

统一的方法论：管理不同阶段、不同类型的数据需求与制作。
提升效率的工具：大规模数据不能仅依赖人工标注，需要发展智能化标注技术，甚至利用大模型进行数据标注。
持续更新的机制：大模型是持续学习的，需要像人一样不断“喂食”新数据，因此需要建立数据更新机制。

此外，数据在整个大模型生命周期中持续与模型交互，因此需要建立可信的全流程数据治理体系，涵盖安全和治理机制设计。

贯穿大模型全生命周期的数据工程

接下来，我们拆解大模型从预训练到行业应用的全周期，看看每个阶段的数据需求。

大模型的训练周期通常包括：预训练 -> 微调 -> 通用大模型 -> 行业大模型。每个阶段涉及不同的数据集：

预训练数据集：规模巨大，类型多样。
微调数据集：包括指令数据、偏好数据等。
提示工程数据：用于引导模型执行特定任务。
人类反馈强化学习数据：用于对齐模型与人类价值观。

针对不同数据，有相应的处理方法和训练策略：

预训练阶段：核心是数据的获取、过滤和清洗，但因其规模巨大，数据质量评估变得至关重要，直接影响训练成本和效果。
后续阶段：涉及数据标注、提示工程等，需要引入跨领域、复合型的专业人才进行专家级标注。
测试与反馈：数据与模型效果相互呼应。需要通过构建评测数据集，测试模型效果，从而明确模型需要学习什么样的数据，缺什么样的数据。

纵观整个流程，模型与数据相生相息，密不可分。因此，大模型的数据工程必须是贯穿其全生命周期的。

大模型数据工程的五大核心要素

我们将面向大模型的数据工程核心梳理为五大要素，融合了传统数据管理成熟度模型和模型开发对数据的要求，旨在提升数据供给效率、管理运营效率及数据质量。

以下是五大核心要素：

管理体系
- 项目管理：针对大模型数据工程全周期，进行资源分配、机制建立、进度控制、质量保证和风险管理，确保各类数据能按时、保质、保量、成本可控地交付。
- 组织建设：需要有效融合大数据团队与人工智能团队，解决数据资源供给与模型开发需求之间的协同问题。
- 标准应用：推动人工智能数据领域的标准制定与应用，例如定义“高质量数据集”，建立数据加工、开发、质量评估等操作规范。
- 人才管理：培养既懂数据又懂模型的复合型人才，以及具备多学科背景（如医学、金融）的交叉领域人才。

开发维护
- 数据采集与汇聚：针对无监督数据，来源包括通用、行业及合成数据。方式有手工、自动化和合成。
- 数据预处理：核心是清洗、增强、转换、调度、去重、脱敏等，使数据达到“可用”状态，避免模型偏差。
- 数据标注：将数据变得“好用”，需要多背景人才。当前数据标注产业处于起步阶段，未来需要通过产业化升级提供更优质的数据集。
质量控制
- 数据质量维度：需从三个维度审视：数据本身的质量（涉及多个指标）、评估方法与工具、全流程质量控制。
- 质量映射：需将模型效果与数据质量形成强映射关系，通过实时交互（如人类反馈）调整数据策略。
资源运营
- 人工智能数据集本身也是数据产品，具有资产属性。
- 运营管理：包括资源目录管理、分级分类。
- 开放共享：涉及对内（部门间）和对外（公共）的开放，需明确内容、要求和协议。
- 流通交易：数据集可在数据交易所进行交易，未来市场空间广阔。
合规可信
- 数据质量直接影响模型输出的可信度。
- 安全性要求：需保障数据的公*性、非歧视性、可解释性。
- 融合要求：需同时遵守大数据领域的安全、隐私、审计、合规要求，以及人工智能领域对模型效果的要求。

总结

本节课我们一起学习了面向大模型的数据工程。我们认识到，在大模型时代，数据已成为驱动人工智能发展的核心燃料。一个完整的数据工程体系需要贯穿模型全生命周期，并围绕管理体系、开发维护、质量控制、资源运营和合规可信五大要素进行构建。通过推动相关标准、产业升级和技术创新，我们才能持续为人工智能提供高质量的数据供给，释放数据要素价值，并保障人工智能安全、可信地发展。

课程名称：全国性数据流通交易体系的探索实践 🚀

概述

在本节课中，我们将学习数据要素市场化配置改革的背景、全国性数据流通交易体系的构建实践，以及以数据为中心的智能计算探索。课程内容基于中国电子云在数据领域的实践经验，旨在为初学者清晰地梳理相关概念与实践路径。

第一部分：数据要素市场化配置改革的背景 📈

上一节我们介绍了课程的整体框架，本节中我们来看看数据要素市场化配置改革的背景与核心框架。

数据要素市场化配置改革的核心目标是推动高效的市场资源配置。其总体框架可以理解为自上而下的多层次体系。

以下是该框架的核心组成部分：

市场目标：推动高效市场配置。
市场主体：围绕多样化的数据市场主体展开工作，通过价值驱动和聚焦场景（即“数据要素×行动”）将其聚合。
市场环境：包括内部的数据资源环境（汇好、治好数据）、一级数据要素市场（完成数据资源开发利用权的流通）和二级数据要素市场（完成数据产品经营权的流通）。
市场支撑：通过登记界定权属，并针对数据设施、数据主体进行统一授权。
资源与*台：以不同类型的数据资源为核心，构建以数据为主要核心的各类数字化*台。
算力调度：实现算力的统一调度，包括算力网与数联网。
制度规则：配套数据制度规则体系，包括“四梁八柱”及从数据登记到产权相关的细化规则。
组织体系：配套相应的组织体系以保障运行。

第二部分：全国性数据流通交易体系的探索实践 🔗

理解了市场化改革的背景后，本节我们将深入探讨在此背景下，构建全国性数据流通交易体系的具体实践。

“数据要素×行动”旨在激活和推动数据要素二级市场，完善联动协同的系统化运营服务体系。要落地此行动，必须解决数据高质量流通的挑战。

影响数据高质量流通的主要挑战包括：

确权难、合规成本高。
供需撮合难。
数据定价难。
数据流通难。

为应对这些挑战，需要从制度、规则、技术、运营多个维度进行探索。我们提出了一体化数据流通交易体系的思路，并与深圳数据交易所共创打造全国性数据交易*台。

该*台抽象出五大中心，串联数据资产化业务流：

登记中心
合规中心
交易中心
数据交付流通中心
资产中心

在此*台基础上，面向全国赋能数据资产化能力，推动工作站成立，并与区域型数据交易中心互联互通，最终形成全国性数据流通交易网络。

在战略上，深圳数据交易所致力于打造覆盖全国的“数据交易网”，而中国电子云则利用其全国布局优势，推动公共数据授权运营，形成“数据运营网”。两网将逐步对接联通，目标是成为全国数据资源汇聚地、数据产品开发地和数据流通调度中心。

为实现这一愿景，需从四个技术维度进行统筹：

算力：实现多云算力的纳管与调度。
数据流通：通过可信计算构建数联网络。
交易流程：实现全程数字化、一切线上化。
供需撮合：实现动态智能撮合，利用数据-场景、数据-数商图谱加速匹配。

在运营上，体系从四个维度构建能力：

内部建设：
1. 打造高效的供需衔接机制。
2. 守住数据合规底线，打造地方标准。
外部聚合：
3. 通过生态方式聚合大模型等领域的上下游数商主体。
4. 接入更多隐私计算或可信数据空间主体，链接数据供给侧。

目前，深圳数据交易所已取得一定成果，包括场内交易额超80亿元、上市数据标的超2000个、市场主体超2000家。

以下是四个运营领域的具体实践方法：

1. 供需衔接
在数据交易*台上重点上架不同主题的专区，整合数据方与需求方，加速撮合效率。同时，着眼全球，完善数据跨境流通机制，包括完善基础规则制度、建立协同监管机制、推进分类分级白名单机制、创新金融工具及推动技术体系建设。目前已实现跨境数据交易超1亿元（55笔），并完成了场内数据跨境交易及境外数据商入驻。

案例示意：

境内科技公司数据产品 -> 风险评估与流通交易体系 -> 境外买家
境外数据商电商数据产品 -> 上架至交易所 -> 境内买家

此外，通过社区和联盟力量，链接人工智能产业上下游主体（算力、数据、*台、模型、应用），并将其导流至人工智能训练场。例如，通过可信数据空间，完成了哈尔滨工业大学与某智慧公司之间的语料跨域可信交付。

2. 合规保障
提出“动态合规”品牌，从数据标的、交易主体、流通环节三个维度，依据合法、诚信、安全、权益保障四项原则，拆解出100多项合规规则。

*台提供分环节动态审核、信用分级动态监管、流通分阶段动态合规的模式。并建立标准防线与增强防线：

标准防线：数商提供材料 -> *台初审 -> *台终审 -> 合规委员会复审（如有严苛条款）。
增强防线：合规联盟成员参与复审，分歧由合规委员会统一拉通裁决。

同时，基于合规构建信用体系，刻画市场主体信用画像。并探索大模型与合规审查结合，为数据商、律师、*台及监管侧提供智能合规能力支撑。

3. 流通支撑
整合可信数据空间技术，搭建可信数据空间实验室。探索在工业制造等领域的应用，例如，帮助长虹实现其产线数据与代工客户的库存、计划数据在保护持有权的前提下安全融合，促进产业链协同。

公式示意可信数据空间的核心价值：
数据融合价值 = 多方数据 * 可信流通技术 - 权属泄露风险

4. 生态发展
主要模式包括：

开放群岛开源社区：涵盖从可信技术到流通，再到不同垂直领域与区域的专项小组，已发布隐私计算开源框架及系列案例。
数据要素服务工作站：面向全国拓展，解决大模型产业“最后一公里”问题，提供安全合规、产品服务化、数据资产化等专业服务能力。
人才发展计划与产业园区。

从技术回归角度看，数据交易所需支持多种形态数据产品的交付流转，包括数据集、数据文件、API、多方安全计算、联邦学习等。通过统一的交付管理、产品交付、纳管及接入体系，确保数据可信高效流转。

第三部分：以数据为中心的智能计算探索 🤖

在构建了数据流通体系之后，本节我们来看看如何利用这些数据赋能人工智能，即“智能+”的探索。

人工智能离不开数据，而数据需要经过“炼化”才能产生高质量的数据集。模型在不同训练阶段对数据集的需求也不同。为解决“数据荒”问题，从四个维度进行探索：

开放算料联盟：通过联盟汇聚算料、算力及大模型上下游主体，倡导多模态训练数据的共建共享。已绘制大模型产业地图并提供开放数据集。
上架高质量数据集：目前覆盖多个领域，包含七大类共700多个数据集，并提供了部分清单。
构建可信流通路径：路径为：绘制数据资源地图 -> 数据集入驻交易所 -> 联合进行可信AI质量评估 -> 上市合规审查 -> 完成流通交易闭环。同时配套数据资产化服务（入表、融资、抵押等）。
参与AI训练场：利用生态优势，将数据集及大模型厂商引入训练场。中国电子云参与了北京人工智能训练场的规划设计，并承建智算中心，旨在打造“数据集-算力-交易”的流通闭环。

中国电子云在人工智能领域采用“1+N+M”策略：

1：一套可信智算*台产品。
N：投资建设N个可信计算中心（如武汉、石家庄、北京）。
M：打造M个行业模型（如在公安领域面向缉毒等场景孵化大模型）。

总结

本节课我们一起学习了数据要素市场化配置改革的整体框架，深入探讨了构建全国性数据流通交易体系以解决数据流通挑战的实践路径，包括*台构建、技术统筹与运营模式。最后，我们了解了如何以此为基础，通过开放联盟、高质量数据集、可信流通和训练场参与，推动以数据为中心的智能计算发展。希望产业链各方能在此数据流通交易网络中共享、共建、共推大模型事业发展。

人工智能+数据新基建：圆桌讨论核心观点与启示 🧠

在本节课中，我们将学习2024北京智源大会“人工智能+数据新基建”圆桌讨论的核心内容。多位来自学术界和产业界的专家，围绕大模型在企业落地、高质量数据供给、数据流通与安全等关键挑战，分享了深刻的见解与实践经验。我们将对这些观点进行系统梳理，形成一份面向初学者的简明教程。

数据供给：企业应用大模型的核心挑战 📊

上一节我们介绍了课程概述，本节中我们来看看企业应用大模型时，在数据层面遇到的核心挑战。来自南方电网的陈明总分享了其作为大模型使用方的几点深刻体会。

以下是企业面临的主要数据挑战：

数据量不足：企业通过数字化转型积累的业务数据，对于大模型的训练和推理而言，其数量远远不够。
数据质量要求高：大模型需要“喂养”准确的数据才能表现良好。传统数据管理标准（如DCMM五级）所关注的数据质量，与人工智能大模型的需求在维度和方向上存在差异，仍有较大瓶颈。
跨域数据流通困难：大模型需要跨领域、跨界的数据融合以激发创新。例如，电网企业需要气象、经济、人口等外部数据来辅助电力规划与新能源消纳，但获取和整合这些跨域数据是巨大痛点。
合规与互信流通机制不成熟：在合规基础上促进数据的互信互用是关键。虽然存在隐私计算、可信空间等技术，但要真正落地仍需努力。

此外，陈明总指出，本次讨论较少涉及人工智能伦理的话题。数据本身对大模型发展的导向（是好的还是不好的）存在伦理问题，这需要业界未来更多的研究和探索。

行业实践：特定领域的数据安全与精准性需求 🔒

上一节我们探讨了通用性的数据挑战，本节中我们来看看特定行业（如民航业）在应用大模型时的特殊关切。来自中国航信的赵玉霞总分享了民航业的实践经验。

民航业是数据密集型行业，且涉及大量敏感数据（如旅客身份、行程、核心设备运行数据），因此在应用大模型时格外关注：

数据安全与隐私保护：大模型的训练语料、向量数据及接口可能包含敏感信息，存在泄露风险。通过反逆向工程也可能反向获取训练数据，因此数据脱敏至关重要。
多模态数据脱敏难题：对于海量的客服语音、远程监控视频、图片记录等多模态历史数据，如何进行快速、安全的脱敏，目前尚无成熟方案。
去幻觉化与精准对齐：业务系统要求大模型提供精准答案以直接驱动业务。目前大模型在精准性上距离实时驱动核心业务系统还有“最后一公里”需要攻克。

落地困境：从技术到场景的鸿沟 🏭

上一节我们了解了行业的具体痛点，本节中我们来看看技术提供商视角下，大模型在产业场景落地遇到的普遍困境。来自国双科技的彭总分享了其实践观察。

大模型在产业场景真正落地面临多重困难：

结果似是而非，难解实际问题：大模型是预训练模型，基于过去的数据，缺乏实时性和特定场景的向量数据，因此其输出往往难以直接解决企业现场的具体问题。
企业内部数据孤岛难打通：企业历史遗留的信息系统数据标准不一、变化复杂，企业内部数据的统、通、融是实现垂类行业模型的基础，但本身就是一个巨大难题。
应用成本高昂：大模型的算力、数据采集与治理成本很高。大型企业或可承担，但面向广大中小企业，如何解决成本问题尚无良策。

破局之道：构建高质量数据集的路径思考 💡

上一节我们分析了落地困境，本节中我们来看看如何从根本上推动高质量数据集的构建。针对“为何国内缺乏像Common Crawl那样的高质量开源数据集”这一难题，李院长和肖老师给出了深刻见解。

李院长介绍了智源社区在数据共建方面的三种实践路径：

开源引导：鼓励企业贡献部分非敏感数据至开源社区。
共建共享与积分交换：建立联盟，企业贡献数据可获得积分，用以兑换联盟内其他数据，形成内部流通闭环。公式可简化为：可兑换数据量 = 贡献数据量 × 数据质量系数。
隐私保护下的使用：对于高价值版权数据（如影音），在确保数据不离开本地的前提下，通过技术手段保障安全使用。

肖老师则从更宏观的机制层面进行了补充：

发展市场机制：完善数据要素市场制度，让数据贡献者能通过市场机制获益，是激励数据共享的关键动力。
反思“数据越多越好”的误区：应尽快建立高质量训练数据集的标准，避免盲目收集数据。并非所有数据都需进入大模型，事务型数据应仍由数据库和小模型处理。
降低对大模型的过度期望：大模型主要用于再现人的智力能力，应摆正其定位，与其他技术（规则、小模型）结合使用。

行动建议：推动AI真正形成新质生产力 🚀

上一节我们探讨了数据层面的破局思路，本节中我们聚焦于行动层面，看看专家们对推动“AI+”形成新质生产力的具体建议。

以下是各位专家给出的核心建议：

彭总（国双科技）：以场景驱动。企业应选择最能带来效益的具体场景，推动其数字化与智能化。技术选择上应是大模型、小模型与传统技术结合，而非唯大模型论。
赵总（中国航信）：“大模型 + 行业知识库 + 智能化应用”相结合。在具体场景（如机票销售、出行规划）中，利用大模型深度理解客户需求，结合业务系统提升行业效率和客户满意度。
陈总（南方电网）：兼顾产业升级与生态普惠。企业在利用AI实现自身升级的同时，应承担社会责任，带动产业链上下游，让更广泛的民众受益于人工智能。
肖老师（学界代表）：先用起来，再学起来。企业应强制或鼓励员工在工作中使用大模型工具，哪怕从辅助角色开始，以实际应用催生生产力。同时，需要开展广泛的教育，教会人们如何使用和驾驭大模型。
李院长（学界代表）：攻克“最后一公里”的质量问题。AI（包括大模型）要广泛应用于核心业务，必须将其准确率从80%-90%提升至更高水*，这需要持续的技术攻坚。

最后，主持人刘长补充了“真诚以待”的态度建议：无论是技术供给方、使用方还是监管设计方，都应怀着赤子之心，理性、真诚地推动智能化进程，避免“雁过拔毛”式的短期热点追逐。

总结 📝

本节课中我们一起学习了“人工智能+数据新基建”圆桌讨论的核心内容。我们回顾了企业应用大模型在数据量、质、流通方面面临的挑战，了解了民航业对数据安全与精准性的特殊要求，并探讨了大模型在产业场景落地的普遍困境。针对高质量数据集构建的难题，我们分析了开源引导、共建共享、市场机制等多条路径。最后，我们汇集了专家们关于推动“AI+”形成新质生产力的行动建议，核心在于场景驱动、生态共建、积极应用与质量攻坚。希望本教程能帮助你理解当前AI与数据融合发展的关键议题与未来方向。

课程一：多模态模型论坛背景与嘉宾介绍 🎤

在本节课中，我们将了解2024年北京智源大会多模态模型专题论坛的背景信息，并认识本次论坛的主持人与首位分享嘉宾。

论坛背景

让大模型具备多模态能力，是当前整个大模型社区非常重要的一个研究方向。特别是GPT-4O发布时，其自然流畅的语音、视觉以及文字的多模态交互能力，令人印象深刻。因此，本次专题论坛显得非常有价值。

论坛流程

论坛邀请到了该领域多位有代表性的专家学者，为大家做主题分享。在主题分享结束后，也会有一场圆桌讨论，为大家提供一个思想碰撞的机会。希望本次论坛能让观众朋友们收获满满。

主持人介绍

本次活动的主持人是机器之心主编李亚洲。他将引导论坛的进行。

首位分享嘉宾

论坛活动正式开始。第一位分享嘉宾是智源研究院视觉模型研究中心负责人王新龙老师。他的分享主题是“生成式多模态模型”。

本节课中，我们一起学习了本次多模态模型论坛的背景、目标与流程，并认识了主持人李亚洲以及首位分享嘉宾王新龙老师。接下来，我们将进入具体的主题分享环节。

课程：生成式多模态模型 🧠 - P2

在本节课中，我们将学习生成式多模态模型的核心概念、发展动机以及关键技术挑战。我们将从文本领域的成功经验出发，探讨如何将其复制到视觉和多模态领域，并深入了解上下文学习、数据构建和视觉编码器等关键问题。

背景与动机 🌍

我们生活在一个由语言、视觉等多种模态信息构成的动态上下文中，并在此环境中完成各种任务。人类的上下文理解能力非常强大，这启发了我们思考：能否让机器模型也具备类似的动态上下文理解与生成能力？

与传统的判别式模型（如1000类的图像分类模型）不同，生成式模型（如GPT系列）通过无监督的生成式预训练，成为了一个“通才”。GPT的成功在于，它在文本上通过预测下一个词进行训练，最终获得了强大的上下文学习能力。

一个核心的动机是：这种在文本领域的成功，能否复制到包括视觉和动态视频的领域？

从文本到视觉的上下文学习 🔄

上一节我们介绍了生成式模型在文本上的成功。本节中，我们来看看如何将这种上下文学习的能力迁移到视觉领域。

GPT-3展现的上下文学习能力，是指模型在推理时，通过给定的几个任务示例，就能学会并执行一个全新的、训练中未见过的任务。其核心是通过预测未来会发生什么来完成任务。

我们早期的一个工作动机是“图像的语言是图像”，希望将图像本身作为通用接口来统一各种视觉任务，实现视觉的上下文学习。模型将RGB图像本身作为输入、输出和提示，从而统一处理多种任务。

后来，我们将这个想法聚焦到分割任务上，希望模型能在上下文中分割任意目标物体。例如，在测试时给模型提供少量分割样例，它就能学会分割类似的新物体。这在视频分割中同样有效。

然而，纯图像的上下文学习目前仍有局限，主要原因有二：

面向视觉任务的数据集多样性不足，难以覆盖理想中视觉任务的巨大差异。
图像本身的上下文关联性较弱，不像文本中一个词能对远处的词产生很大影响。

迈向多模态的上下文学习 🚀

从纯视觉领域再向前一步，我们思考能否在包含图像、视频、文本的多模态数据中，实现类似GPT-3的上下文学习能力。

Flamingo模型是这一方向的早期探索者。它展示了在多模态上下文中的学习能力，例如，给模型提供图文交错的算术示例后，它能根据新图片解答类似的算术问题。

受此启发，我们探索了生成式的多模态训练。其核心思想是：在多模态序列（如图文交错、视频文本交错的数据）中，预测下一个元素。对于图像，预测下一个图像块；对于视频，预测下一帧；对于文本，预测下一个词元。

通过这种统一的生成式预训练，我们关心模型能学到什么新能力。

生成式多模态模型的新能力 ✨

以下是生成式多模态模型展现出的一些代表性新能力。

复杂的上下文理解能力

模型在图像描述任务上展现了强大的上下文学习能力。例如，我们可以定义一个训练中未见过的复杂格式任务（如“（类别：数量）”），在测试时仅提供三个示例，模型就能根据新图片完成包含物体分类和计数的组合任务。

更进一步，模型还能理解视觉提示。例如，在测试时提供几个“在图片上画圈并描述圈内物体”的示例，模型就能学会根据新图片上的红圈，描述指定区域的物体。

上下文条件下的生成能力

在统一的上下文学习框架下，模型不仅能理解，还能进行生成。例如，提供几个“文本-对应风格图片”的示例后，再给一句新文本，模型能参照上下文生成相应风格的图片。

模型也展现出初步的“主体驱动”图像生成能力。虽然作为预训练模型，其图像质量并非最优，但能力已经显现：提供不同主体（如“subject A”）的图文示例后，在测试时给出新指令（如“subject A戴着一顶帽子”），模型能参考上下文完成视觉生成任务。

性能对比与应用前景

在定量比较上，我们的模型在多项少样本理解任务上，效果优于Flamingo等先前模型。

在应用场景上，多模态上下文为生成提供了更通用的接口。传统的文本到图像生成只依赖一句话，而我们可以将多张图片与文字交错组合，作为更丰富的提示，从而生成更符合需求的图像或视频。对于视频生成，你可以上传宠物的照片，让模型参考生成包含该角色的视频。

关键技术挑战：数据与编码器 ⚙️

构建下一代生成式多模态模型，我们认为有三个关键问题：预训练方法、数据以及编码器。

数据的探索

数据需要满足下一代模型的需求，主要体现在形式和内容质量上。

数据形式：传统图文对数据可能不足。我们探索了交错式视频-文本数据（如对齐时间戳的纪录片视频和字幕），这种形式提供了更强的上下文相关性，能显著提升模型的上下文学习能力。

数据质量：规模化训练多模态模型时，现有数据存在问题。原始网络数据（如LAION-2B）噪声大、性能差；合成数据（如人工标注的COCO）缺乏世界知识且难以扩展。一个有效的解决方案是提示融合：将原始描述与合成描述融合并精炼，从而构建大规模、高质量的数据集。

编码器的探索

视觉编码器（或称为分词器）是将图像/视频转化为模型可处理单元的关键。目前存在一个“不可能三角”的挑战：我们期望视觉分词同时具备紧凑性（用少量词元表示）、无损性（能完美重建）和上下文关联性（离散且富含语义）。目前的技术通常只能满足其中两点。

我们主要从三个方向对编码器进行了探索：

编码器的规模化：我们训练了目前开源最大的视觉编码器（EVA-CLIP，180亿参数）。规模化不仅在图像任务上带来提升，在视频的零样本分类任务上产生了更显著的性能飞跃。
稀疏且可按需提示的分词器：借鉴SAM的思路，我们探索了能按需对图像进行分词（同时输出分割、分类、描述）并重建目标信号的稀疏分词器。
抛弃编码器的可能性：直接使用图像块作为视觉单元输入模型（即“Patch-as-Token”）。早期尝试面临性能差和训练不稳定的问题。我们发现，引入视觉识别监督和设计更好的块嵌入初始化方法是解决这些问题的关键。

总结与展望 📚

本节课中，我们一起学习了生成式多模态模型的发展脉络。

我们从视觉上下文学习的探索出发，延伸到多模态上下文学习，并展示了生成式多模态预训练所带来的新能力，包括复杂的上下文理解和条件生成。

同时，我们深入探讨了构建下一代模型所面临的关键技术挑战：数据的形式与质量，以及视觉编码器在“不可能三角”下的各种探索路径，包括规模化、稀疏化和尝试抛弃编码器。

这些工作大多已经或即将开源，期待与社区共同推进视觉与多模态大模型的发展。

课程名称：AI是否需要更强的视觉基础来实现理解和意义 🧠👁️

课程编号：P3

在本节课中，我们将要探讨一个核心问题：人工智能，特别是语言模型，是否需要更强的视觉基础（或更广泛的感知基础）来实现真正的理解和意义。我们将从哲学讨论出发，分析现有技术的局限性，并介绍相关的前沿研究工作。

哲学背景与问题提出

长久以来，关于智能是否需要感知基础来实现理解，一直存在哲学辩论。

早在13世纪，哲学家阿奎纳就提出：“心智中没有任何东西不是首先存在于感官之中。” 这强调了感知对于认知的先决性。

后来，感觉主义学派也提出了“没有感觉就没有认知”的观点，再次强调了感觉的重要性。

当然，哲学界也存在反方观点。例如，阿维森纳曾提出“漂浮的心灵”思维实验：想象一个悬浮在空中、没有任何感官基础的人，他依然可以思考数学、逻辑、哲学等丰富内容，这些思考并不需要外部现实。

不过，对于今天的AI研究而言，我们更关心一个不那么哲学化的问题。以ChatGPT为代表的纯语言模型非常有用，是一场革命，但它只有文本输入和输出，缺乏人类式的感知能力。

一个关键问题是：如果我们赋予语言模型更好的感知能力，能否将语言模型的“思考”提升到一个新的水*？ 我们能否借此更好地提升语言理解和意义构建的能力？这不仅对人类语言成立，对通用智能的创造也同样重要。

感知与智能进化的启示

关于感知对智能的重要性，我们可以从自然进化中获得启示。

在寒武纪生命大爆发时期，有一种理论认为，早期海洋生物很弱小，最初也没有视觉。直到一些初级生物开始发展出视觉信号，它们才能更好地躲避天敌、获取食物。这引发了一场“军备竞赛”：为了生存，生物必须发展出越来越好的视觉，从而变得越来越智能。这至少是一个解释寒武纪生物大爆发的假说。

许多关于AI的观点也受到类似思想的影响。例如，Yann LeCun曾多次讨论语言模型与感知基础之间的关系。他有两个观点令人深思：

大部分人类知识以及几乎全部动物知识，都来源于我们在物理世界中的感知经验。
语言是蛋糕上的糖霜，我们需要蛋糕来支撑糖霜。这里他指的是，我们需要更好的感知经验建模作为基础，才能在其之上讨论语言建模问题。

另一个值得认同的观点是：如果过早或过强地引入语言信号，会存在一个风险。我们的视觉表征学习可能做得很差，但由于强大的语言先验，模型可以走捷径，让我们误以为它很有智能。然而，当我们需要AI在鲁棒性、可靠性或问题难度上有本质提升时，这些薄弱的视觉系统可能会成为瓶颈。

因此，目前的纯语言模型虽然知识渊博，但同时也像一个被蒙住眼睛的盲人系统。

多模态模型的现状与视觉编码器的局限

当然，今天的讨论是在多模态论坛的背景下进行的。最*几年，对于多模态或通用视觉研究来说也是一个新时代。

自从GPT-4V出现后，大家开始讨论大型多模态模型。在传统视觉研究者看来不知该如何处理的问题设置上，多模态系统通过LMMs的辅助都能取得很好的效果。

目前，大型多模态模型有不同的流派和技术路线。在开源社区中，最经典、使用最广泛的系统之一是LLaVA架构的系统。

这类系统的构造非常简单。它会利用几个预训练好的系统：

一个语言模型
一个视觉编码器
一个非常简单的连接模块，将两者连在一起

接下来要做的事情，就是把视觉编码器得到的视觉标记投影到语言空间，然后丢给大语言模型进行处理。训练可能分为两个阶段：预训练阶段和指令微调阶段。这样就可以利用不同的模型（视觉模型和语言模型）来实现多模态能力。

然而，在过去很长一段时间里，我们可以看到，在视觉编码器部分，大家不约而同地使用同一个模型：CLIP模型，并且就是OpenAI发布的那个VIT-Large检查点。

CLIP模型通过对比学习的方法对齐文本和图像输入，其编码器可以被拿出来迁移到其他任务中。

我们现在想问的一个核心问题是：如果我们想构建一个多模态系统，是否只用一个CLIP模型就够了？或者说，我们现有的视觉表征学习系统，对于语言理解任务来说是否足够好？

研究一：探索多模态大模型的视觉短板 (MMVP)

接下来介绍的第一篇论文（即将在CVPR呈现）名为 “MMVP: Exploring Visual Shortcomings of Multimodal Large-Language Models”。

首先看一些例子，这些都是GPT-4V-Turbo的测试快照。

我们发现了一些比较简单基础的问题，例如：

从相机视角看，狗是朝左还是朝右？
能否在图中看到一个窗户？（图中后方有一个小窗）
图中的人是面朝前还是面朝后？
这只鹰能看到一只眼睛还是两只眼睛？
这辆车能看到一个轮子还是多个轮子？

令人惊讶的是，在所有这些问题上，GPT-4V都回答错误。当然，现在的GPT-4o模型可能在这些问题上已有进步，但至少在GPT-4V时期，我们发现了许多这类琐碎但模型却做不好的问题。

我们的目标是开发一个新的基准测试，称为 MMVP基准。我们设计了一种方法来构建这个基准，以找到那些“CLIP盲点对”。

方法其实很简单：

寻找图像对：从现有数据集（如ImageNet）中获取图像对。
使用两套嵌入系统：
- 一套是CLIP模型。
- 另一套是纯视觉的自监督学习模型（如DINO）。
测量距离：在它们的嵌入空间下测量图像对之间的距离。
筛选目标对：我们希望找到这样的图像对——在CLIP的嵌入空间下，它们的相似度得分非常高（即CLIP分不清区别）；但在纯视觉自监督学习模型的嵌入空间下，它们的相似度得分相对较低（即模型能发现很大差别）。

找到这样的图像对后，我们可以交给人类标注员，让他们尝试找出在这些图像对中，到底有哪些视觉差异。因为我们已经通过上述方式过滤出了在CLIP空间接*、在DINO空间远离的样本，所以这对标注员来说相对容易。

例如，标注员看到两张图时，可以较容易地提出问题：“这只黄色动物的头是躺在地板上还是地毯上？” 然后将其表述为一个选择题（A.地板 B.地毯）。

构建好这个基准后，我们就可以用它来评估各种开源和闭源的多模态模型。判断标准是：对于同一问题的两张图，多模态模型必须同时回答正确才能得分。

这个基准的结果在当时看来令人惊讶。对人类来说这些问题都不是问题，只需看到图就能找到即使非常细微的视觉差异并回答清楚。但大量现有的多模态系统在这件事上做得非常差。

例如，Gemini的准确率约为40.7%，GPT-4V更差，约为38.7%。其他所有模型，包括LLaVA、Mini-GPT4等，甚至比随机猜测还要差。而人类可以达到几乎完美的性能。

在完成这个基准测试后，我们希望更深入地了解到底发生了什么。因此，我们事后重新审视了收集的基准，总结人类标注员提出了哪些问题。

通过分析，我们归纳出现有多模态系统经常出错的九种视觉模式：

方向与朝向
状态方向
数量
计数
颜色
外观
文本
视点
透视

接下来，我们将基准重新组织成一个图像-文本匹配问题。我们有一个假设：虽然不知道GPT-4V具体用了什么模型，但大多数情况下，CLIP模型仍然是非常主流的视觉编码器。因此我们猜测，如果多模态系统中存在这些视觉短板，那很可能CLIP本身就有问题。

通过这种方式评估CLIP，我们发现CLIP模型在这九种视觉模式的匹配任务上表现也非常差。虽然不同的模型性能有好坏，但总体趋势是：在CLIP做不好的地方，后续的多模态系统也做不好；在CLIP做得相对好的地方（如颜色问题），多模态系统也相对较好。这表明CLIP模型与后续多模态系统的性能存在明显的相关性。

发现这一点后，一个比较显然的尝试是：弥补CLIP模型的短板。既然我们是通过这种方式发现CLIP盲点对的，那么一个直接的做法就是在CLIP编码器部分，加入一些纯视觉的自监督学习模型的特征。

我们设计了不同的策略，例如直接将它们加到一起，或者将自监督学习特征与CLIP特征在空间上交错拼接。在后一种情况下，我们可以在MMVP基准上有很大提升，并且在其他视觉问答基准上不掉点。

当然，有人可能会问这是否是自说自话，因为我们在发现CLIP盲点对时已经用了DINO特征。但我们的设置并非如此。我们看到的现象是：对于其他视觉自监督学习骨干网络，这个结论也成立。一个普遍的行为是：视觉自监督学习能够补充像CLIP这样过早引入语言部分的模型。

本节的要点总结：

CLIP在领域内存在时间太久，急需一个根本上不同的替代方案。
视觉自监督学习仍然有意义，但我们需要以根本不同的方式去探索这个问题。
像过去那样在ImageNet上训练，然后通过线性探测或微调在ImageNet、COCO、ADE20K上测试的评估流程，已不再是一个好的或合适的方式。
更好的视觉理解对于语言理解和意义构建来说仍然非常重要。

研究二：视觉搜索作为多模态模型的核心机制 (V-STAR)

接下来我想介绍另一篇CVPR工作，它提供了另一套思路，但旨在揭示相通的问题。这篇论文叫做 “V-STAR: Guided Visual Search as a Core Mechanism in Multimodal Language Models”。

首先讨论一下什么是“视觉搜索”。这在心理学或认知科学中有明确定义，即：主动从干扰物和背景中搜索目标。

我们拥有中央凹视觉系统。虽然每天可以处理大量视觉信息，但我们的注意力并非照单全收。我们会有自己关注的焦点。在生物学上，中央凹部分只占视网膜面积的不到1%，但却能激活超过50%的视觉皮层，这是一个非常惊人的现象。

我们什么时候会进行这种视觉搜索呢？可以说是所有时候。例如在日常任务中，办公桌上有很多杂物，我们要找一支笔或一本书，就需要进行这种视觉搜索行为。或者处理一些复杂任务时，例如识别一个图表，我们需要进行视觉搜索才能定位目标并回答问题。

一个更具体的例子是：给定一张非常高分辨率的图片，问题是“塑料吸管是什么颜色的？”。对于现有的视觉系统，它是这样处理的：从左上角开始（可能不按顺序）逐行扫描，将图中所有信息全部编码进去，然后再进行处理和理解。但这对人来说是不可思议的。

如果是一个人来做这件事，他可能会想：吸管更可能出现在咖啡店的桌子上。先看这张桌子，没有；再看另一张桌子，发现有个杯子，杯子里有吸管，然后回答吸管是黑色的。这是一个非常自然的过程，并且对人来说非常必要。如果我们每天都需要逐行扫描所有信息才能回答问题，认知负荷和效率会非常差。

那么，我们是如何进行视觉搜索的呢？认知科学家和心理学家对此有很多讨论。其中有很多不同的线索：

自下而上的显著性引导：例如，图中哪些物品会“凸显”出来。
自上而下的特征引导：我们知道想要寻找的物体具有某些属性。
语义引导：我们利用对世界的知识或语义信息来帮助搜索。例如，从桌子上找杯子，从杯子里找吸管，这是因为我们大脑中已有这样的常识。
搜索历史：我们不断执行搜索任务，大脑会维持搜索历史，可能今天找过，明天就会回到同样地方再找。
感知价值：我们倾向于寻找价值更高的东西。

在机器学习中，也有古早的工作讨论人类的视觉搜索认知能力在机器学习中的意义。但这些与主流的计算机视觉或AI研究不太相关，大家更关心如何更好地跟随人类的注视轨迹，处理的图像分辨率有限，且学习成分不多，更多依赖于统计相关性。

我们该如何设计一个更好的视觉搜索模型呢？我们仍然可以借鉴常识性的讨论，例如依赖于自下而上、自上而下的特征引导以及语义引导。但这里有一个关键的观察，这在几年前或十几年前是不成立的：我们现在确实有一个更好的系统，即大语言模型，它能够编码一些比较丰富且可靠的世界知识。

对于一个盲眼的大语言模型来说，虽然它看不见且不可靠，但它是一个很好的向导。它可以告诉我们应该去哪里找东西，一个东西可能会出现在哪里。

基于此，我们提出了一个框架，称为 SIL，旨在将视觉搜索能力整合到多模态大语言模型中。SIL代表 Show, Search, and Tell。

现在多模态大语言模型的问题不仅仅在于CLIP。例如，视觉编码器通常是预训练模型并保持冻结；因为它没有视觉搜索能力，所以无法聚焦在关键的视觉信息上；现有系统很多时候如果看不见一个东西，它不会承认看不见，而是会编造一个答案；它也没有像人一样的主动搜索请求机制，使得在看不见时能够去寻找这些物体。

我们的视觉搜索模型受到人类认知科学研究启发，是一个由大语言模型引导的多轮系统。核心是：我们有一个视觉骨干网络和一个多模态大语言模型来协助进行视觉搜索。这个多模态大语言模型会接着两个不同的解码器：一个是搜索线索解码器，另一个是目标定位解码器。

一个具体例子：在图中问“橙色行李箱最可能出现在哪里？”对于现有系统来说，可能因为太小或分辨率问题无法直接回答。我们的模型会告诉我们：“橙色行李箱最可能出现在人旁边。”这部分就是世界知识。接着，系统会自动找到人在哪里（可能更靠*城墙），从而得到一个搜索线索（以热图形式存在）。我们可以通过这个搜索图找到概率最大的地方，然后进行下一轮搜索。这时我们可以放大，去寻找更可能出现目标物体的区域，从而找到橙色行李箱，并最终输出其具体坐标。

具体的视觉搜索操作是：给定一张图像，我们不断对图像进行切分，这是一个递归系统。我们先将一张大图切成小图（例如四份），在每一份上进行视觉搜索，依靠大语言模型的世界知识，一步一步递归到更深的层次和更高的分辨率，以找到我们想要的物体。

SIL其实是一个元架构。我们做这个工作不是为了声称达到最先进水*，或希望它在一两个月内成为一个很好的多模态图像模型系统。我们的目标是：这样的架构，即使现在不需要（或许可以通过暴力增加分辨率的方式回答问题），但从长远看，这一定是需要的。

将其抽象出来后，我们的架构包含几个部分：

一个直接针对视觉问答的大语言模型。
一个视觉工作记忆（类似于人的记忆系统）。
当看不到东西需要寻找时，可以激活一个视觉搜索模型。这个模型会帮助我们寻找相关信息，并将其填充到视觉工作记忆中。
视觉问答大语言模型会从视觉工作记忆中获取相关信息，再次回答问题。

因此，这变成了一个具有系统2推理能力的系统，而不再是将视觉特征标记化后直接丢给大语言模型的原始方式。我们的视觉工作记忆可以包含各种信息，例如原始问题、全局上下文，最重要的是视觉搜索模型给我们的搜索目标及其位置信息。

通过加入这种视觉搜索能力，我们可以在一些基准测试上取得更好的结果。例如，在某些高分辨率图像基准上，我们可以达到75%左右的准确率，而GPT-4V等系统可能只有50%左右。

需要强调的是，像视觉搜索这种行为，在互联网图像场景下可能并非必需，甚至可能带来额外开销。我们不如直接将所有视觉信息通过一个视觉编码器接收并处理。但是，请想一想，如果以后我们要处理视频，面对一个两小时长的视频提问时，我们是否需要从头看到尾？我们是否会跳着看，向前或向后拖动？在3D环境或具身智能体环境中，视觉搜索能力也是成立的。在这些任务中，我们对视觉编码器的设计，以及是否需要这种系统2的视觉搜索能力才能让多模态系统达到更好效果的观点，可能会更有意义。

更基础的思考：视觉表征学习的未来方向

最后，我想讨论一些更基础的东西。我们一开始说监督学习做得不好，一个原因是：如果我们只是将非常多样化的输入强行映射到最后的一个标签上（例如所有椅子都叫“椅子”），神经网络做不了太多事情。它要么依赖于虚假关联，要么就只能死记硬背。这导致监督学习的泛化能力很差。

之后我们讨论自监督学习。为什么要做自监督学习？是因为我们想要在AI系统中建立背景知识和*似形式的常识。

但我想提出的一个观点是：CLIP其实是一个强监督学习模型。很多时候存在误解，人们认为CLIP是弱监督学习，但它真的不是。因为语言能提供的监督，远远强于仅仅几个分类标签。

我们现在面临的问题，也是我们想要继续在视觉自监督学习领域发展的原因。至少我个人倾向于认为，自监督学习能给我们一些不同的行为，让我们真正能够学到某种常识和背景知识。

但我也要承认，在自监督学习领域工作这么长时间后，我发现这个领域现在有点陷入停滞，大家不知道该做什么，下一步该怎么做。

或许我们可以回顾一下视觉自监督学习的历史：

2015-2016年：对标的是ImageNet预训练性能。那是表征学习的终极方法。那时有各种自监督学习模型（如上下文编码器），但领域比较宽容，与监督学习相比通常会差10-20个百分点，大家也不在意。我们开发了各种各样的前置任务。
2019年左右：何恺明的MoCo等工作出现后，大家发现自监督学习也能工作，并且可以超过ImageNet预训练，在各种视觉任务上表现出色。之后又出现了MAE、DINO等。

我现在想说的一件事是：带有强语言监督的CLIP，在当前时代就是新的ImageNet监督学习的对应物。

那么，我们现在为什么还要做视觉自监督学习呢？也是因为CLIP可能也会有各种各样自己的问题。这些问题很多时候与监督式ImageNet预训练的问题也是相关的。

但是，就像我一开始说的那样，我们进行视觉自监督学习的方式可能需要发生一些变化。

因此，可能在下周，我们会发布一篇新论文，称之为 Cambrian-1。它是一个完全开放的、以视觉为中心的多模态大语言模型探索。

我们做了一个类比：

过去：我们会开发各种视觉模型（如MoCO, MAE），并有一个评估协议（如线性探测、端到端微调），在ImageNet分类、COCO检测或分割等任务上衡量视觉表征学习的好坏。
现阶段：一个比较可行的研究视觉自监督学习的方式是，将像LLaVA这样的多模态系统，作为研究视觉表征学习的一个流程。我们仍然会有预训练的视觉模型，会设计连接器。只不过之前我们用线性探测，现在我们用视觉指令微调；之前我们有比较受限的基准，现在我们有更多样化的、以视觉问答形式构建的基准。

这两件事有一些类比之处。因此，我们从头搭建了一些基础设施，所有的实验在Google TPU上进行，并会发布一系列教程。我们会重新整合现有的指令微调数据集，创建一个新的、较大的指令微调数据集。

当然，最重要的是，因为我们希望有这样一个新的评估视觉表征学习的流程

课程名称：多模态基础模型研究 🧠👁️🗨️

课程编号：P4

在本节课中，我们将要学习多模态基础模型的核心技术、面临的挑战以及创新的解决方案。我们将从大模型带来的变革讲起，探讨如何将这种能力拓展到视觉等多模态领域，并详细介绍从数据构建、预训练算法到模型架构设计的一系列关键技术。

概述：大模型的变革与多模态的机遇

大语言模型带来了巨大的改变。这种改变主要源于两个方面。
第一方面是它在具体语言相关任务上的性能非常好。
第二方面是它的通用性，它降低了应对新的开放式任务的边际成本。

上一代的AI技术，例如为特定任务（如安防）部署系统，应对新需求（如检测乱扔垃圾）时，边际成本很高。需要重新采集数据、投入算力和研究员时间。
而以ChatGPT为代表的大模型，具有很强的应对开放式任务的能力。它响应上亿用户的请求时，并未为每个任务单独训练模型。

这种强大的具体任务能力和低边际成本的泛化能力，带来了巨大的生产力变革。
我们希望将这种新的生产力能力带到更多的多模态领域。因为世界并非仅由结构化语言构成，获取更多信息需要通过视觉，并主动与现实环境交互。
如果多模态模型也具有很强的任务能力和开放式泛化能力，将带来巨大的生产力变革。
因此，我们开启了多模态基础模型的技术研究。

挑战一：预训练与训练数据规模

我们首先关注的第一个问题是预训练以及训练数据规模。

已有的图像编码器预训练，通常使用CLIP等方法在图文成对的数据上进行训练。
但当我们要构建一个非常大规模的多模态基础模型时，会发现互联网上的图文成对数据数量已经告急。它无法再支撑更大规模的多模态大模型的预训练。

图文成对数据还存在一个重要问题。
例如，在一个复杂的新闻或文档中，图文严格配对的部分只是其中非常少的一部分。其语言部分也非常薄弱，整篇新闻的标题或图注可能只有一点点文字。很多对图像的阐释和逻辑都在正文中。
如果纯粹只在图文成对数据上训练多模态模型，语言模型部分会训练得很差。

因此，我们希望从原生的图文交错数据出发进行探索和训练。图文成对部分只是数据中非常少的一部分，我们希望利用更广阔的数据和知识来训练模型。
为此，我们构建了目前开源的最大图文交错数据集。

以下是该数据集与以前数据集的比较：

纯文本数据集：有大量文本，但没有图像。
图文成对数据集（如LAION-2B）：有图像（如20亿张），但语言部分非常薄弱。
我们的数据集（OmniCorpus）：以中英文为主，包含海量图像和文本，是目前国际规模最大的图文交错数据集。

我们通过兼容并蓄地收集更多互联网素材，构建了这个数据集。

解决方案：多模态信息压缩学习

上一节我们介绍了数据瓶颈，本节中我们来看看如何有效利用互联网尺度的图文交错数据进行预训练。

基于CLIP的方法设计用于利用图文成对数据，能在其上很好地工作。
而像Flamingo这样的方法，尝试利用图文交错数据，但其出发点并非如何从头训练好视觉编码器。它通常使用预训练好的CLIP视觉编码器和预训练好的语言模型，拼接后用图文交错数据微调，得到一个效果不错的模型。它并不能从头利用图文交错数据预训练视觉编码器，因为从头训练会损害性能。

我们的方法，称为多模态信息压缩学习，首次支持了互联网尺度图文交错数据的端到端预训练算法。它可以直接利用图文交错数据，从零开始训练出优秀的视觉编码器。该算法支持了我们当前最强的视觉语言基础模型InternVL V1.5版本的训练。

多模态信息压缩学习算法源于语言领域的“压缩即智能”概念。该观点尝试解释为何像GPT这样的语言模型能具有AGI般的能力。将全世界的语料知识压缩到一个参数量有限的大模型中，在这个信息压缩过程中自产生了智能。

我们非常认同这种想法，因此在做图文交错预训练时，也基于多模态信息压缩学习的理念来构造算法。
但在图文交错数据中，与纯语言模型有一个很大的不同：语言是结构化的数据，是人类知识的结晶，它过滤掉了现实世界的很多噪音。
而在全世界的图文交错数据上预训练时，图像中包含很多无关信息。对于训练图像编码器或多模态大模型来说，这些信息是无关或无效的。

我们的压缩学习是在图像层面、在隐变量特征上进行的。图像先通过一个编码器获得隐变量表示，然后在这个隐变量上进行压缩学习。这样可以在学习过程中自动丢弃与现实世界图像中与学习目标不相关的部分，获得更好的学习效果。

根据这种基于隐变量的压缩学习方式，最终导出的训练目标由对比损失（contrastive loss）和自回归文本生成损失（autoregressive text generation loss）两部分组成。
实现起来也非常高效，因为我们要在全世界尺度的图文交错数据上训练，必须确保算法在准确性和效率上都非常出色。

模型架构：为多模态大模型设计的视觉编码器

我们用上述数据和预训练算法，来预训练视觉和图文的特征表征。我们做出了目前最好的开源视觉语言基础模型，称为InternVL。

我们思考的出发点是：现行构造图文多模态基础模型通常包括图和文两部分。但视觉编码器部分，我们觉得它已落后于时代。
最早的视觉编码器是为ImageNet等任务设计的。后来迁移到以CLIP为代表的图文成对对比预训练方式。
最终得到的视觉编码器，与后面连接一个具有高阶逻辑和认知能力的大语言模型（作为推理和智能中枢）的架构，并不是一开始就为这种架构设计的。

因此，我们设计的InternVL模型，从一开始就是为整个图文多模态大模型的应用和架构进行设计的。我们一开始就想清楚，视觉作为一个强大的编码器，语言作为一个高阶智能中枢的解码器，为这样的架构进行设计。

我们采用隐变量压缩学习的方法来训练视觉编码器，训练了一个非常大规模、目前最强的开源视觉编码器。
在中间，我们使用了一种渐进式对齐的方案进行学习。因为一开始如果连接一个特别大的语言模型，从头开始训练视觉编码器，计算代价会非常高。

我们的策略是：

在训练视觉编码器初期，使用一个相对小规模的语言模型，在图文交错数据上进行视觉编码器预训练。
当视觉编码器训练得差不多后，再换上一个特别强大的大语言模型，进行进一步的续训。

通过这种模型从小到大、数据从粗到精的渐进式训练策略，大幅降低了大模型的训练成本，在有限资源下展现了卓越的能力。

拆解来看：

视觉编码器部分：一个60亿参数的视觉编码器模型，是目前最好的开源视觉编码器，能力比肩谷歌闭源的ViT-22B。
整体模型：视觉编码器加语言解码器，是世界上最强的开源多模态通用模型，性能媲美基于GPT-4V、Gemini、Grok等头部商用模型。该模型于2023年12月发布，在Hugging Face趋势榜连续多月排行第一，在视觉语言基础模型总下载榜排名前十。在北京智源研究院和浦江实验室的评测中，也表现优异。

我们的模型展示了强大的视觉内容理解等能力。

迈向通用：低边际成本的开放任务泛化

虽然语言交互方式已经能够实现很多开放的多模态任务，但仍有非常多的任务在当下并不适合用语言来刻画。未来也可能有很多视觉任务不适用于语言模态。

因此，我们开发了一个通用的任务解码器，更早的版本称为VisionLLM。我们这一系列工作的核心想法，是希望打造一个开放的、以视觉为核心的多模态任务开放解码器，能够低边际成本地泛化到各种各样以视觉为核心的多模态任务上。

在这个版本中，我们做了一项称为向量链接的技术。以下是不同方法的对比：

方法A（以Visual ChatGPT为代表）：以大语言模型为核心Agent，调用不同工具（如检测、分割、姿态估计、图像生成等）。它们之间通过语言指令和文字结果进行松耦合交互，无法端到端训练，也不能传递特征，性能上限较低。
方法B（紧耦合扩展）：多模态大模型与某个特定工具（如目标检测）进行特征层面的紧耦合，端到端训练。但问题是不通用，一个大模型绑定一个特定工具，不具备开放式任务泛化能力。
我们的方法（向量链接）：一个多模态大模型作为中枢，可以向外扩展调用上百个视觉或多模态工具。它们之间通过路由机制连接，模型根据指令决定调用哪个工具，并且连接是在特征层面进行的。这使得模型与工具间传输带宽很宽，且可以端到端训练，兼具了前两种方法的优点。

我们的模型能够覆盖多种多样的多模态任务，应用在不同场景中。例如：

调用目标检测工具处理复杂场景。
根据指令定位图片中所有人，并返回特定关键点（如右肘）的位置。
调用图像编辑或生成工具进行图像操作。

拓展：与世界的交互

最后，是我们向与世界交互方向的一些尝试。我们很早就意识到大模型的威力会拓展到与虚拟及现实环境的交互中。纯粹基于强化学习的方法有太多缺点，而大模型能很好弥补。

因此，我们开启了在《我的世界》（Minecraft）游戏中的探索项目。我们与英伟达的Voyager工作同期，最早在《我的世界》中证明了基于大模型的智能体，相较于以前的强化学习智能体，具有非常强的泛化和智能化能力。

总结

本节课中我们一起学习了多模态基础模型的研究。我们从大模型带来的生产力变革出发，探讨了将其能力拓展到多模态领域的必要性。我们深入分析了训练数据规模带来的挑战，并介绍了通过构建大规模图文交错数据集和创新的多模态信息压缩学习算法来应对。我们了解了为多模态架构从头设计的视觉编码器InternVL，及其卓越的性能。最后，我们探索了如何通过向量链接等技术，实现低边际成本的开放任务泛化，并展望了多模态模型在与世界交互方面的潜力。

课程名称：多模态模型 - 从“语言优先”到“现实世界优先”的智能构建方法 🧠

概述

在本节课中，我们将学习一种构建人工智能的新范式。当前主流方法依赖从互联网文本中学习，我们称之为“语言优先”方法。本节课将介绍一种替代方案——“现实世界优先”方法，探讨如何让AI像人类一样，通过观察和互动来理解世界。我们将通过几个具体的研究项目来阐述这一理念。

从“语言优先”到“现实世界优先” 🌉

上一节我们概述了两种不同的学习范式。本节中，我们来看看这两种范式的具体区别。

当前人工智能的主流学习模式是通过阅读维基百科等互联网文本来记忆事实。例如，一个模型可以记住旧金山的人口是88万，或者它的历史。这被称为“语言优先”的方法。

然而，人类了解世界的方式并非如此。人类通过亲身经历来学习：亲眼见过金门大桥、观看过篮球比赛、在城市中生活过、甚至学会唱关于这座城市的歌。这才是真正的、现实世界优先的方法。

如果我们能接受这个想法，或许就能找到替代当前范式的新路径。现实世界的学习包含两个紧密交织的部分：观察（感知） 和 行动（交互）。

第一部分：观察 - 通用图像分割模型 (Segment Anything) 👁️

上一节我们提到了观察是现实世界学习的第一步。本节中，我们来看看如何构建一个更强大的视觉感知模型。

在“Segment Anything”项目之前，图像分割模型的现状是使用预定义的类别列表进行训练。例如，数据集中定义了“汽车”、“椅子”等类别，模型的任务是为图像中的每个像素预测其所属类别。

但这种方法存在局限。不同的人可能关心图像中不同的部分。例如，对于一张沙发，有人可能想区分沙发本身和沙发上的枕头。因此，我们提出了“快速分割”的新任务，其核心动机是摆脱预定义词汇表的限制。

以下是“Segment Anything”模型系统的几个关键应用：

交互式分割：用户可以通过在图像上点击（点）或框选来提示模型。系统能根据这些输入实时生成分割掩码。例如，在青蛙上点一下，再在蜗牛上点一个“负点”，模型就能精确分割出青蛙。
处理模糊性：一个点可能对应多个潜在目标（例如，点在一个人的夹克上，可能指夹克、人或上半身）。该系统能够生成多个可能的分割掩码供用户选择。
自动分割一切：由于没有预定义类别，模型可以自动为图像中的所有物体和区域生成分割掩码。

该模型架构简单高效。图像通过一个图像编码器（如Vision Transformer）提取特征。对于不同的提示（点、框、文本），模型使用一个轻量级的提示编码器和掩码解码器来生成结果。这种设计允许对同一张图像预先计算特征，然后快速响应各种提示。

训练这样一个通用模型需要海量数据。我们采用了一个数据引擎循环：先用现有数据预训练模型 -> 用模型收集更多数据（掩码）-> 用新数据训练更好的模型 -> 循环往复。最终，我们构建了包含10亿个掩码的分割数据集，规模是之前最大数据集的约400倍。

第二部分：行动基石 - 通用的视觉表征学习 🤖

拥有了强大的感知能力后，我们需要为智能体（如机器人）开发能在现实世界中行动的视觉系统。本节我们探讨如何学习一个通用的视觉表征。

在机器人领域，传统做法是“一个任务，一个模型”。例如，让机器人拿红色积木需要训练一个专门的视觉编码器，让它开冰箱门又需要训练另一个。这显然不是高效或智能的方式。

我们的目标是训练一个单一的、预训练的视觉编码器，能够适用于多种不同的机器人任务。我们是如何做到的呢？

我们收集了多种现实世界的数据源进行预训练，包括图像分类数据、人机交互数据、互联网视频（如烹饪视频）等。核心的预训练方法是掩码自动编码器。其动机是：如果模型能很好地重建这些包含人类活动的复杂数据，那么它学到的视觉表征就应该对下游任务（包括机器人交互）有益。

使用这个预训练的视觉表征，我们在多个机器人任务上进行了微调，例如拾取积木、关闭冰箱门等。实验表明，这种视觉嵌入的性能优于当时所有标准的视觉模型。

我们还发现了一个有趣的现象：当我们在小数据集上增大模型规模时，性能会下降；但在更大的数据集上训练时，性能随模型规模增大而提升。这强调了同时扩展模型规模和训练数据的重要性。我们当时训练的最大视觉模型（ViT-L）参数规模是ResNet-50的14-15倍，展示了在机器人学习中应用更强大模型的潜力。

第三部分：行动与具身 - 人形机器人的运动学习 🚶

有了通用的视觉表征，智能体还需要能在现实世界中行动的“身体”。本节我们来看看如何为人形机器人学习复杂的运动技能。

人形机器人很有前景，因为我们的世界本就是为人类身体设计的。让机器人学会像人一样行走是首要挑战。

我们与加州大学伯克利分校和敏捷机器人公司的团队合作，在Digit机器人上研究行走控制。我们使用因果Transformer模型，输入机器人的关节状态、速度等感知信息，预测未来的关节运动轨迹。

我们无法在现实世界中让成千上万的机器人学习摔倒，因此转向模拟器进行训练。在模拟中，我们随机化物理参数（如摩擦力、机器人负载、地形），并使用强化学习进行训练。为了提升样本效率，我们采用了两阶段方法：

训练一个拥有“特权信息”（如真实的地面摩擦系数）的教师模型。
让学生模型通过模仿学习，向教师模型学习，而不直接使用特权信息。

训练完成后，我们将策略零样本部署到真实机器人上，无需微调。机器人成功实现了在校园中行走、全向移动（前进、后退、转弯），并能适应斜坡等不同地形。分析显示，模型内部形成了不同的“隐藏状态”来对应不同的地形模式。

更进一步，我们可以将人形运动视为“下一个标记预测”任务。通过收集多种运动数据（机器人控制数据、动作捕捉数据、视频重建数据），并用掩码进行训练，可以构建一个更通用的运动基础模型。这种模型在运动质量和指令跟随方面，可能比基于强化学习的控制器表现更好。

现实世界AI的应用前景 🔮

前面我们一起学习了从感知到行动的具体技术。最后，我们来展望一下这些“现实世界优先”AI技术的应用前景。

自然与环境监测：例如，使用SAM模型追踪野生动物，研究其行为模式。
科学发现自动化：利用计算机视觉和机器人技术，自动化生物学等领域的实验流程，加速科研。
增强现实：提供对现实世界的深度理解和实时交互反馈，超越基于互联网信息的模型。
智能家庭：通过环境感知系统理解家庭空间和用户习惯，未来可能实现机器人协助烹饪、清洁等任务。

总结

本节课中，我们一起学习了构建人工智能的“现实世界优先”方法。我们探讨了如何通过Segment Anything项目实现开放世界的视觉感知，如何通过掩码自编码器预训练获得通用的视觉表征以支持机器人行动，以及如何通过模拟强化学习与模仿学习让人形机器人掌握复杂的运动技能。这些工作共同指向一个未来：人工智能将通过更接*人类的方式——观察并与真实世界互动——来学习和成长，从而解锁更广泛、更实用的应用场景。

课程名称：多模态感知与生成圆桌讨论 🧠🎨

课程编号：P6

概述

在本节课中，我们将一起探讨多模态模型在感知与生成任务中的核心问题。通过几位资深学者的讨论，我们将了解视觉在通用人工智能（AGI）中的重要性、生成与感知任务的关系、不同模态的统一方式，以及当前技术面临的挑战与未来发展方向。

视觉是否是AGI的核心部分？

上一节我们介绍了多模态模型的背景，本节中我们来看看视觉在AGI中的角色。

谢老师观点：
视觉是通往AGI的关键路径之一。人类智能与视觉紧密相连，视觉作为重要的感知媒介，在多模态学习中不可或缺。

戴老师观点：
视觉是AGI必不可少的部分。人类的认知包括显性记忆和隐性记忆，而视觉在隐性记忆（如过程记忆）中扮演重要角色，这些记忆难以用语言精确描述。

特特老师观点：
从进化角度看，视觉帮助生物体在真实世界中学习与交互，是智能形成过程中必不可少的组成部分。

佳辉老师观点：
多模态是AGI的核心部分。AGI需要完成人类能完成的任务，而视觉在这些任务中具有重要作用。如果AGI的目标是服务人类，那么感知和多模态能力是必需的。

沈老师观点：
视觉的重要性毋庸置疑，但其是否为AGI的核心部分取决于AGI的定义。

生成与感知任务的关系

上一节我们讨论了视觉在AGI中的重要性，本节中我们来看看生成与感知任务的关系。

佳辉老师观点：
生成与感知应该尽可能统一。但从工程角度看，目前尚未有足够证据表明必须完全统一。研究应保持多样性，而非仅关注统一方向。

特特老师观点：
生成与感知的统一是值得研究的问题，但当前存在工程上的挑战。这可能与现有范式的局限性有关。

谢老师观点：
生成与感知一定会统一。从概率建模的角度看，生成任务需要对内容有更深入的理解，这对感知任务也有促进作用。

沈老师观点：
生成模型能够更好地利用大数据，学习数据的分布信息。理论上，生成模型可以自然解决许多感知问题。

不同模态的统一方式

上一节我们探讨了生成与感知任务的关系，本节中我们来看看不同模态的统一方式。

以下是关于模态统一的几种观点：

特特老师观点：所有模态应该统一学习，因为人类的学习过程涉及多种模态的交互。
佳辉老师观点：多模态的本质是在同一时间点融合不同信号，因此模态之间需要统一。
沈老师观点：从研究角度看，所有模态都可以通过Transformer框架统一处理。
戴老师观点：原生多模态训练面临数据采集和算法效率的挑战，需要进一步研究。

多模态的“ChatGPT时刻”

上一节我们讨论了模态统一的方式，本节中我们来看看多模态的突破性时刻。

戴老师观点：
多模态的“ChatGPT时刻”需要满足两个条件：在重要任务上性能足够好，且能低成本泛化到开放任务。

佳辉老师观点：
每个领域都有其里程碑时刻，多模态的发展也在持续推动技术进步。

谢老师观点：
多模态模型面临更高的期望和更严格的可靠性要求，需要进一步提升性能。

生成模型的技术路线

上一节我们探讨了多模态的突破性时刻，本节中我们来看看生成模型的技术路线。

佳辉老师观点：
自回归模型和扩散模型都是将复杂问题分解为多步处理的方法。自回归模型在语言处理上表现优异，扩散模型在图像生成上更具优势。

沈老师观点：
从表征学习的角度看，不同生成方式都能学习到有效的表征，但目前尚无定论哪种方式更优。

特特老师观点：
技术路线的选择可能取决于归纳偏置。自回归模型对语言更自然，扩散模型对视觉数据更自然。

视觉数据的编码问题

上一节我们讨论了生成模型的技术路线，本节中我们来看看视觉数据的编码问题。

佳辉老师观点：
视觉编码的“不可能三角”（紧凑、无损、离散）可能无法完全实现。需要针对具体任务找到*衡点。

特特老师观点：
视觉编码需要根据下游任务的需求进行优化，无损编码可能不是必需的。

谢老师观点：
视觉编码的本质是学习更紧凑、更语义对齐的表征，这是自监督学习的重要目标。

多模态的扩展规律

上一节我们探讨了视觉数据的编码问题，本节中我们来看看多模态的扩展规律。

谢老师观点：
视觉领域尚未出现类似语言的扩展规律。需要依托可靠的评估基准来观察扩展现象。

佳辉老师观点：
生成任务可能更容易观察到扩展规律，而感知任务则可能受到语言模态的影响。

戴老师观点：
盲目扩展模型规模并非最佳选择，需要明确扩展的目标和意义。

数据的重要性与未来形式

上一节我们讨论了多模态的扩展规律，本节中我们来看看数据的重要性与未来形式。

特特老师观点：
真实世界数据对多模态模型至关重要。互联网数据存在局限性，真实数据能更好地反映现实分布。

戴老师观点：
多模态模型未来需要与真实世界主动交互，这对数据采集和学习算法提出了更高要求。

谢老师观点：
视频数据可能是中间状态，但需要结合生成模型和三维表征学习技术来弥合真实与合成环境的差距。

沈老师观点：
自监督学习在多模态中的应用仍需突破，否则数据标注成本将非常高。

佳辉老师观点：
数据量不是问题，关键在于如何有效利用数据。生成模型可能为数据提供新的来源。

总结

在本节课中，我们一起学习了多模态模型在感知与生成任务中的核心问题。我们探讨了视觉在AGI中的重要性、生成与感知任务的关系、不同模态的统一方式，以及当前技术面临的挑战。通过多位学者的深入讨论，我们对多模态模型的未来发展方向有了更清晰的认识。希望这些内容能帮助你更好地理解这一领域的前沿动态！ 🚀

大模型产业技术论坛（全）：论坛及嘉宾介绍 🎤

在本节课中，我们将要学习2024北京智源大会“大模型产业技术论坛”的开幕内容，了解论坛设立的背景、目的以及首位主讲嘉宾的详细介绍。

下午好。感谢大家来参加我们的大模型产业技术论坛。正如今天开幕式上所说，大模型在过去这一年，已经从实验室的研究成果，开始进入到产业界。我们在过去一年看到产业界各家公司，在陆续发布各种模型，包括语言模型，也包括文生图、文生视频的模型。

因此，在今年的智源大会上，我们也增设了这样一个产业技术论坛。我们希望邀请产业界的朋友，来介绍在大模型训练以及推理中，所解决的一些实际的技术问题。

今天我们有幸邀请到了基本上代表了国内最先进水*的各家公司的大模型团队。他们包括爱诗科技创始人兼CEO王长虎，01万物的联合创始人王文浩与算法负责人康战辉，快手视觉生成与互动中心负责人万鹏飞。还有一些专家朋友待会会陆陆续续过来。

我们首先有请爱诗科技的创始人兼CEO王长虎来做主旨演讲。

王长虎博士深耕计算机视觉、人工智能领域20余年。他曾担任字节跳动视觉技术负责人，从0到1支撑了抖音、TikTok等国民级视频产品的建设和发展。他曾任微软亚洲研究院的主管研究员，发表了*百篇国际顶级会议和期刊的文章，拥有数百项专利。

他今天的演讲题目是“AI视频生成的过去、现在和未来”。作为通用人工智能的重要一环，视觉生成大模型快速发展，推动了通用人工智能的发展。本报告将回顾视频生成的历史发展，进而呈现当下视频生成领域最新技术的进展和应用，以及未来发展的趋势和将要面临的挑战。

本节课中我们一起学习了本次大模型产业技术论坛的开幕致辞与背景介绍，并详细了解了首位演讲嘉宾王长虎博士的履历及其演讲主题。接下来，论坛将进入具体的主题分享环节。

课程名称：AI视频生成的过去、现在与未来 🎬

课程编号：P2

在本节课中，我们将跟随王长虎先生的分享，系统性地了解AI视频生成技术的发展历程、核心技术原理、当前主流产品以及未来的挑战与方向。课程内容将涵盖从早期萌芽到SORA横空出世的整个演进过程，并深入探讨技术背后的关键概念。

概述：AI内容生成的浪潮 🌊

上一节我们介绍了课程的整体框架。本节中，我们来看看驱动本次分享的核心背景——AIGC（人工智能生成内容）浪潮的到来。

这一浪潮并非一蹴而就。它经历了漫长的技术积累。AIGC的萌芽最早可追溯至上世纪50年代。1957年，科学家们利用计算机创作出了第一首曲子。受限于当时的技术，所有尝试都停留在实验室阶段。

从上世纪90年代到本世纪10年代，是AI技术的沉淀累积阶段。此期间诞生了许多著名工作，例如第一部由AI创作的小说和全自动同声传译系统。但由于算法限制，这些工作仍难以真正面向普通用户。

2010年之后，随着生成式对抗网络（GAN）的出现，一系列生成式工作才真正开始面向用户。技术发展从图像生成到大语言模型，从文生图、文生视频，架构也从GAN演进到Transformer和Diffusion。从我们耳熟能详的ChatGPT、Midjourney到SORA，开启了一个新的篇章。

AIGC其实包含多种不同内容形式，包括语言、视觉、音频等。在ChatGPT出现后，大语言模型成为焦点。在SORA出现之前，视频生成赛道尚未如此火热。视觉大模型与大语言模型的主要区别在于，语言是人类文明对世界信息的抽象产物，而视觉在人类出现之前就已存在，是原生的。因此，人们对大语言模型的期望是模拟人脑、构建统一心智；而对视觉大模型的期望，则更侧重于模拟世界、构建世界。

影像呈现：从记录到生成 📽️

上一节我们探讨了AIGC浪潮的兴起。本节中，我们来看看视频生成的核心——影像呈现技术的演变过程。

视频生成本质上是通过对世界的理解来做影像呈现。影像呈现经历了从记录到生成的演变过程。

以下是图像呈现历史上的三个重要节点：

史前壁画：在3万多年前，人类已在岩壁上绘制、创作自己看到的世界，例如栩栩如生的狮群。
摄影术诞生：1826年，法国摄影先驱创作出第一张可以永久固定成像的图片。
动态影像开端：人类历史上第一个视频，使用了24台照相机拍摄马匹奔跑的画面，其缘起是关于马匹奔跑时四蹄是否同时腾空的辩论。

影像生成看似遥远，实则离我们很*。例如，传统的走马灯利用蜡烛热气驱动轮轴转动，轮轴上的剪纸光影投射在屏上形成动态画面。又如连环画，通过快速翻页即可呈现动态画面。

随着抖音、TikTok等短视频*台的普及和发展，视频生成真正走到了每个人手中。

视频生成的三种模式 🎞️

上一节我们回顾了影像呈现的历史。本节中，我们来具体看看AI视频生成的几种实现模式。

早期的视频生成主要基于检索完成。视频中的每一个素材都来自已有数据库，通过自动方式找到合适素材并进行拼接。现在依然能看到此类视频。

第二种是部分生成。这通常需要一个输入视频，然后通过AI技术进行局部生成。这种技术广泛应用于各种特效中，例如美颜、动漫风格转换、添加猫耳或狗头等元素。

第三种是我们现在常说的通用生成。它通过输入一段文本描述（Prompt）或一张图片，凭空生成视频。过去一年，这方面的进展飞速。

核心技术演进：GAN与Diffusion 🤖

上一节我们了解了视频生成的几种模式。本节中，我们来深入探讨支撑这些模式的两大核心技术：生成对抗网络和扩散模型。

自2014年起，视频生成技术已发展十年。随着GAN的出现，生成式技术才真正开始实用化。早期的GAN技术应用于前面提到的部分生成特效上，但对于通用视频生成，效果依然差强人意。

直到2020年Diffusion模型出现并击败了GAN，成为图片和视频生成的主流。从2023年开始，许多视频生成技术和产品逐渐出现，例如NVIDIA的VideoLDM、Google的VideoPoet，以及面向用户的产品Runway、Pika。今年春节，SORA横空出世，开启了一个新纪元。

生成对抗网络（GAN） 于2014年由Goodfellow提出。它源于博弈论中的零和博弈思想，通过生成网络和判别网络不断博弈，从而学习数据分布以生成高质量内容。

其优缺点明显：

优点：能够生成可控的、在特定目标下效果较好的内容。
缺点：训练难度大，需同时优化两个网络；多样性有限，难以进行通用生成。

GAN提出后，出现了许多变种，如CycleGAN、DCGAN、InfoGAN等，广泛应用于多种场景。也有研究人员希望将GAN技术应用于视频生成，例如2019年提出的DVD-GAN。它引入了3D卷积和RNN进行建模，并采用空间与时间双判别器，但生成的视频质量依然有限。

扩散模型（Diffusion Model） 于2015年提出，在2020年正式击败GAN后开始流行。它的主要思想是通过不断给图片加噪声来破坏数据分布，然后逆向地不断去噪以还原数据，在此过程中逼*数据分布，从而生成高质量内容。

早期Diffusion模型主要使用U-Net架构进行去噪，这是过去几年的主流模式。而Diffusion Transformer（DiT）的出现，验证了Transformer结构可以更好地进行缩放，生成更高质量的内容。因此，随着SORA的出现，Diffusion加Transformer的架构逐渐成为主流。

在Diffusion加U-Net架构下，一个经典的视频生成方法是NVIDIA提出的VideoLDM。它首次提出了一个有效且后来成为主流的工作流：生成关键帧、进行插帧、最后进行超分辨率。该方法使用Latent Diffusion加3D U-Net架构，能支撑多个任务，视频生成能力相比原有技术有很大提升。

除了GAN和Diffusion，也有研究人员希望用大语言模型技术解决视频生成问题。一个代表性工作是Google在去年底提出的VideoPoet。它采用Decoder-Only的自回归Transformer来端到端生成视频，允许多种模态输入，并用专有的Tokenizer将内容Token化。该工作效果出色，但与VideoLDM一样，并未产品化或开源。

SORA的突破与影响 🚀

上一节我们介绍了GAN和Diffusion两大核心技术。本节中，我们聚焦于引发行业震动的SORA模型。

今年年初，SORA横空出世，进一步推动了行业发展。SORA采用的架构正是前面提到的Diffusion加Transformer，用Transformer模块替代了Diffusion架构中的去噪模块U-Net。同时，它也利用大语言模型进行Prompt增强和训练数据精细化打标，并在编码器和解码器方面做了创新。

关于SORA的解读非常丰富。在我看来，SORA最重要的贡献是验证了DiT（Diffusion Transformer）在视频生成中的缩放定律：模型越大、时空块（Patch）越小、可用高质量数据越多，生成效果就越好。

例如，在基础计算量一定时，生成的视频可能存在较多变形；但当计算量增加4倍到32倍时，生成质量变得非常好。SORA展示的例子中，当镜头*移或旋转时，物体和场景在三维空间中能保持更好的一致性，说明模型已具备一定的世界建模能力。在其发布的20秒、60秒长视频中，也展示了一致性能力，例如人物出画再入画时衣着保持一致。此外，例子中还呈现了物体间的互动建模能力，如咖啡杯中的小船行驶会带动咖啡波动，人咬汉堡后会留下牙印。

尽管SORA并未公开可测，披着神秘面纱，但它已极大地推动了行业发展，使得众多视频生成技术演进到GPT时刻，视频生成能力也进一步提升。

SORA出现后，许多优秀模型纷纷出现，大家都希望成为“中国的SORA”或“全球的SORA”。这里有一些开源模型（如Open-Sora），也有未开源但已产品化并可公测的模型。最*几天发展很快，例如快手发布的“可灵”视频生成能力、字节跳动的“即梦”图生视频能力都非常惊艳。

过去一年，无论数据量、计算量还是参数量都有了极大提升。例如，上海AI Lab在23年7月发布的ModelScope、Google在23年底的VideoPoet以及24年2月OpenAI的SORA，这些指标都有几十倍的增加。

今年5月，智源研究院携手中国传媒大学对全球上百个大模型进行了专业评测，其中包括一些视频模型。评测结果显示，PixVerse（我们公司的产品）排名在前三名。由于SORA无法公开测试仅作参考，前三名分别是Runway、PixVerse和Pika。可以看到，技术侧逐渐趋同，但视频生成能力最终需要面向用户。

主流产品分析：Runway, Pika, PixVerse 🏆

上一节我们看到了SORA带来的技术飞跃。本节中，我们来看看这些技术是如何通过具体产品服务用户的。

以下是三个主流产品Runway、Pika和PixVerse的简要分析：

Runway 是视频生成产品化的先行者。在它出现之前，生成能力更多体现在论文中。Runway公司成立于2018年，早期做机器学习模型*台，后来开发了许多AI视频编辑能力。去年3月，它发布了Gen-2文生视频能力，这是第一个产品化的文生视频能力，吸引了大量用户。其UI体现了丰富的AI编辑工具，超过20种，针对不同应用场景。它也是最早推出“运动笔刷”（Motion Brush）功能的，用户可以通过笔刷精准控制视频局部内容的变化与运动。

Pika 大家也非常熟悉。该公司成立于去年年初，从社区做起，承接了部分Midjourney用户将图变成视频的需求，社区用户成长很快。早期它重点发力图生视频。其特点是重视声音与口型，今年年初与ElevenLabs合作推出了AI口型和配音功能，也推出了AI音效生成功能，用户可通过Prompt控制或让AI自动匹配音效。

PixVerse 在评测中结果超过Pika，在用户侧每日访问量也已与Pika比肩。我们于今年1月正式上线，提供文生视频、图生视频等基础功能，但也有自己的特色功能，如固定角色生视频（Character-to-Video）。我们特别关注用户的可控生成，因为用户在创作时，有需求确保不同镜头中的人物保持一致，并希望更精确控制视频局部内容和背景的变化。

固定角色功能之所以重要，是因为现有视频生成时长较短，多为单镜头。但用户真正使用时，往往需要生成更长的视频（如广告片、剧情片），这需要集成多个镜头，且镜头间主角需保持一致。我们开发的这个功能允许用户上传一张图片创作角色形象，并基于此角色连续生成不同的视频。

我们也开发了“魔法笔刷”（Magic Brush）功能，其易用性和效果超过Runway。用户可以用笔刷涂抹区域选择物体，并勾画轨迹，该物体便会按轨迹运动。

过去一年，我们也经历了从Diffusion加U-Net到Diffusion Transformer的架构升级。创业早期资源有限，我们用最短时间达到了全球第一梯队的效果。当前，我们和许多同行一样，采用DiT架构，希望做出中国的、全球的SORA。未来也会探索更多可能性。

可控生成技术原理浅析 🔧

上一节我们对比了主流产品。本节中，我们深入一步，简单看看这些产品背后可控生成技术的原理。

首先是固定角色生视频（Character-to-Video）功能。要实现角色固定并融合到视频中，现有不同方法。

以下是两种典型方法的对比：

LoRA：每个角色ID都需要重新训练，训练成本大，但天花板高，保真度和美学性都很好。
IP-Adapter：只需训练一次，使用大量ID训练一个嵌入模块，然后插入生成模块。用户输入新ID时无需重新训练。优点是成本低、速度快，但问题是上限不够高，保真度和美学质量偏低。

针对这两种方法的问题，我们设计了一个新结构。基于IP-Adapter架构，我们增添了两个模块：为解决保真度问题，增加了一个判别模块，确保生成内容符合用户意图；为解决美学度问题，增加了一个强化学习模块以提升美学度。无论是主观对比还是客观指标，我们的方法都优于这两种方法。

其次是魔法笔刷（Magic Brush）功能。这里对比了学界一些典型工作。

左边的“DragNUWA”工作，其主要方法是将用户涂抹区域标签化得到语义信息，再将语义信息和区域信息转化为高斯热图，然后通过ControlNet注入到生成模型中。这个过程较复杂，且对局部控制不够精准，容易导致背景不稳定。对比可见，我们的方法能更精准地按意图运动。

另一个工作是“MagicVideo”。它的思路是先将用户输入转化为稠密光流，用SToD处理，最后将结果通过ControlNet注入到SVD中。这增加了一个新模块，导致训练难度更大、模型更臃肿，且对物体精准控制不够。

针对这些问题，我们开发了新算法。一方面在交互层面创新，让用户更方便控制物体运动；另一方面在模型层面大大简化了架构，无需基于ControlNet注入到SVD。用户输入经预处理后，通过一个编码器再经过预先训练好的适配器，即可注入到生成模型中。这样整个框架大大简化，效果好且高效。

当前应用与未来挑战 💡

上一节我们探讨了技术原理。本节中，我们来看看AI视频生成当前的实际应用和未来需要突破的技术挑战。

虽然生成的视频时长有限且多为单镜头，视频生成远未到ChatGPT时刻，但现阶段已有许多创作者利用AI视频产品创作有价值、好玩甚至能带来商业化收入的内容。

例如，有海外动漫粉丝根据1988年的日本动画《阿基拉》，用PixVerse重新生成了一个AI版预告片。也有国内创作者受央视电影频道邀请，以荆楚文化中的“凤”为主题，创作了关于楚庄王“一鸣惊人，问鼎中原”的故事片，其中的镜头均由PixVerse完成。当然，AI目前还代替不了导演，这些元素由专业的AI导演拼接成完整片子。

AI视频可用于叙事、讲故事、制作宣传片和广告。例如，一位海外导演因故无法现场拍摄，资金断裂，转而使用PixVerse创作了AI广告片。第一个广告片虽未直接赚钱，但带来了流量，随后便有人付费请他创作商业广告片，如啤酒广告。

接下来聊聊未来视频生成需要突破的技术方向。虽然DiT架构和SORA的出现极大提升了视频生成的稳定性和质量，但依然存在不足。

以下是未来需要努力的方向：

更好的运动与世界建模：当前生成的视频常出现违反物理或自然规律的违和感（如杯子突然违反重力跳起，液体莫名洒出；狗的数量时刻变化）。这导致用户需要频繁“抽卡”，尝试多次才能得到一次可用的结果。未来需通过更好的建模提升生成成功率。
生成长视频：虽然很多模型声称能做长视频，但产品化可用的往往只有几秒钟。这是因为生成长视频意味着误差累积，导致“抽卡”概率更低。如何生成长视频是重要挑战。
多镜头场景生成：现有能力多生成单镜头内容，但真实使用往往是多镜头组合。如何表达镜头语言并将其合理融入模型，生成电影级多镜头内容，是未来要解决的问题。
实时生成：当前生成一个几秒视频可能需要几十秒甚至几分钟。等待时间长意味着只有专业用户能用，且推理成本高。实现实时生成既能提升用户体验，又能极大降低推理成本。将模型部署在手机端，还能提供更好的隐私保护和交互体验。
隐私与伦理挑战：视频生成大模型同样面临深度伪造等挑战。如何确保技术不作恶、阻止恶意用户，需要技术与监管共同打磨、持续升级。

视频生成虽未达到ChatGPT时刻，但已在快速重塑视频创作工作流。当前，AI视频生成技术正逐渐替代演员、背景和摄像头。未来，它必将影响千行百业，包括游戏、影视、动漫、教育、广告等。我们不仅希望服务好专业创作者，更希望进一步降低使用门槛，实现技术普惠，让每天玩抖音、快手、TikTok的普通用户也能用起来、玩起来，能够“言出法随”地生成高美观度、高创意的视频。

总结

本节课中，我们一起学习了AI视频生成技术的发展全景。我们从AIGC浪潮的兴起谈起，回顾了影像技术从记录到生成的演变，分析了视频生成的三种模式。我们深入探讨了GAN和Diffusion两大核心技术原理，以及SORA模型的突破性贡献。接着，我们对比了Runway、Pika、PixVerse等主流产品的特点，并浅析了可控生成背后的技术逻辑。最后，我们看到了AI视频生成当前的实际应用案例，并展望了其在更好的世界建模、长视频生成、多镜头控制、实时化以及伦理安全等方面面临的未来挑战。整个领域正在快速发展，并逐步重塑内容创作的工作流，其未来影响值得期待。

大模型产业技术课程 P3：百川大模型技术与应用实践 🚀

在本节课中，我们将学习百川智能在大模型技术演进与应用探索方面的核心实践。课程内容将分为技术探索与应用实践两大部分，涵盖从模型预训练、对齐优化到智能体（Agent）系统构建，以及原生应用的设计理念。

第一部分：百川大模型技术演进 🧠

百川智能是一家成立于2023年4月的年轻公司，但发展迅速。公司自成立起，以每月发布一个模型的节奏，推动了国内中文大模型的开源生态。从最初的7B、13B模型，到后续的53B模型，直至*期发布的旗舰模型百川4，公司在技术上进行了一系列探索。

上一节我们介绍了百川的发展历程，本节中我们来看看百川4模型在技术上的具体创新。

1. 预训练数据优化 📊

预训练中，数据质量至关重要。行业趋势正从依赖人类标准筛选数据，转向利用模型自身进行数据筛选与合成。

以下是我们在数据优化方面的主要工作：

模型筛选数据：我们使用百川3模型，通过特定指标来筛选高质量的训练数据。这与Meta在Llama 3中公布的工作类似。
数据合成：利用大模型自身生成知识密度高的合成数据。这包括对现有数据的改写，以及高质量数据的全新生成。

2. 位置编码的科学化探索 🔬

在扩展模型上下文窗口的训练中，如果使用RoPE位置编码，通常会有一个经验性的做法：基底（base）需要随窗口增大而增大，但具体关系并不明确。

我们的预训练团队对此进行了科学化研究。实验表明，要将上下文长度扩展到一定程度，其所需的RoPE基底存在一个理论下界（lower bound）。这项研究已形成论文公开发表，使得窗口扩展能力的设定更加科学。

3. 模型对齐的深入理解与创新 🎯

模型对齐（Alignment）是让模型行为符合人类期望的关键步骤。我们在此领域进行了原理探究与方法创新。

探究对齐原理

我们试图理解预训练中获得的知识与通过对齐训练激发出来的知识之间的关系。

认知能力（Cognitive Capability）：我们将Transformer网络在最终逻辑层（logits）之前的嵌入（embedding）取出并进行聚类，以区分“好”与“坏”的表示。实验发现，这种能力随着预训练token数量的增加而持续提升。
表达能力（Expressive Capability）：即模型最终通过文字输出判断好坏的显性能力。研究发现，通过SFT或RLHF等对齐方法，这项能力确实在提升，但其上限并未超过模型内在的“认知能力”。

这项研究印证了一个重要观点：预训练模型已经学习了大量知识，对齐训练更多是在有效地激发（illicit）这些知识。相关论文已在今年的ICML上发表。

创新对齐方法

在对齐方法上，我们也进行了多项创新：

SFT阶段的模型融合：我们探索了如何将不同模型的参数进行融合，以*衡效果而不显著增加计算量，这类似于传统机器学习中的集成（Ensemble）方法。
强化学习的阶段化与迭代优化：
1. 序列偏好优化：针对不同维度的价值观对齐要求，我们将其区分并分步进行微调，避免了多目标难以*衡的问题。
2. 迭代式RLHF与RLAIF融合：我们不仅使用人类反馈（RLHF），也融合了模型自身的AI反馈（RLAIF）。同时，采用迭代式（iterative）的强化学习，让模型能力像爬坡一样逐步提升。

4. 推理效率优化 ⚡

除了算法效果，推理成本与效率同样关键。我们与北京大学合作，在投机采样（Speculative Sampling）技术上进行了创新。

传统投机采样通过并行预测后续多个token来加速，但命中率有待提高。我们的工作将序列知识与并行解码结合，显著提升了投机采样的命中率，从而降低了推理成本。

5. 智能体（Agent）技术探索 🤖

我们认为，当前模型多处于“快思考”（System 1）模式，而要解决人类复杂任务，需要“慢思考”（System 2）能力，即进行规划、使用工具和长序列推理。

百川在智能体技术上进行了探索，并在GAIA基准测试中取得了全球第一的成绩。GAIA是一个评估模型处理复杂、多步骤现实任务能力的基准，题目对人类简单但对现有AI系统挑战巨大。

我们的系统在以下几个方面进行了重要探索：

全局记忆管理：为处理长序列规划，引入了全局记忆（Global Memory）管理机制。
多智能体协作：采用“心智社会”（Social of Mind）理念，让多个智能体通过对话与相互修正来提升任务解决能力。
网页智能体：将搜索增强从简单的网页摘要，进化为能够像人类一样操作网页（如点击、翻页）的“网页智能体”（Web Agent）。

相关技术报告和代码即将公开。

第二部分：百川原生应用探索 💡

在强大的大模型技术基础上，我们认为一个真正有用的AI助手应具备两个核心能力：懂搜索、会交互。基于此，我们开发了原生应用“白小印”。

以下是“白小印”应用的核心特点：

懂搜索：
- 定向搜索：能根据问题类型（如找论文、查医疗信息）自动选择最合适的专业网站进行搜索。
- 多轮搜索：将复杂问题（如“对比中美大模型行业差距”）拆解为多个搜索步骤，最终给出结构化解析。
- 结果嵌入：将多轮搜索与分析的结果，有机整合到最终答案中。
会交互：
- 结构化呈现：对于对比类问题（如“对比绍兴与宁波GDP”），能以表格等清晰形式呈现信息。
- 主动提问：在用户需求不明确时（如“帮我写篇作文”），通过多轮互动引导用户澄清需求，从而提供更精准的结果。

“白小印”寓意“一呼百应，有求必应”，其形象融合了百川入海的理念。我们期待它能从工具进化为有温度的伙伴，践行“创造健康与快乐”的价值观。

第三部分：未来技术展望 🔭

最后，分享我个人对大型模型未来技术发展趋势的几点展望：

大（Scale Up）：模型参数与数据规模将持续扩大，追求能力数量级的提升。
多（Multimodal）：模态将从任意到任意（Any to Any）发展，并更加注重实时、自然的拟人化交互。
普惠（Affordable）：在能力不变的前提下，推理成本将以超越摩尔定律的速度快速下降，推动技术普及。
长序列复杂任务（Long-horizon Tasks）：突破当前“快思考”模式，使AI能像人类一样进行“慢思考”，完成需要长时间规划和多步骤执行的复杂任务，这是迈向AGI的关键。
自学习与进化（Self-learning & Evolution）：探索不依赖人类监督数据，通过自我博弈、自我提升实现能力突破的路径，这将是未来的巨大挑战与机遇。

现场问答环节 💬

提问：在构建复杂推理网络时，除了外部智能体（Agent），在模型内部结合树搜索（Tree Search）等方式，这两条技术路径有何不同？

回答：我认为解决复杂任务最终需要双管齐下。外部智能体的规划、反思、调用工具，与模型内部通过树搜索（如结合MCTS）进行多路径推理探索，本质是同一类事情，都会增加计算成本。另一方面，必须将通过这些外部方法积累的数据和经验，重新训练回模型本身，以提升模型内在的复杂任务解决能力。因此，外部系统增强与模型内部能力提升这两条路径必须协同并进。

本节课中我们一起学习了百川大模型在预训练数据优化、科学化位置编码、对齐原理与方法创新、推理加速以及智能体系统构建等方面的技术实践，也了解了其“懂搜索、会交互”的原生应用设计理念，并对大模型未来的技术发展趋势进行了展望。

大模型训练方法论及Yi-Large的实践 🧠

课程概述

在本节课中，我们将学习大模型训练的核心方法论，并结合零一万物发布的 Yi-Large 模型实践案例，深入探讨 Scaling Law（缩放定律）、高质量数据工程、系统工程与人才观等关键议题。课程内容源自黄文灏在2024北京智源大会的分享。

模型发布与评测

首先介绍我们上个月发布的 Yi-Large 模型。这是一个参数量超过千亿的稠密模型。发布时，该模型在多项评测指标上已接*或超过 GPT-4、Claude、Gemini 等海外第一梯队模型。我们还有一个更大的 MoE 架构 Yi-XLarge 模型正在训练中。

评测分数自发布后经过进一步训练，仍有小幅提升。在评测过程中，我们发现公开评测数据存在较大偏差。例如，使用各种评测框架均无法复现 LLaMA 3 报告的成绩。最终我们选择采用各模型官方自行报告的成绩作为参考。GPT-4 和 Claude 的 API 评测也存在类似问题。

同时，许多评测题目是静态的，可能导致模型通过针对该领域构造数据进行定向增强。因此，在发布模型时，我们提出了“模用一体”（模型与应用一体化）的概念，希望寻找更贴*实际应用场景的评测数据集。

我们发现 OpenAI、Google 和 Anthropic 都认可一个名为 LMSYS Chatbot Arena 的评测集。该评测集的工作流程是：用户随机提出问题，不存在题目泄漏问题。后台随机选择两个模型生成答案，用户进行盲测选择。这种评测方式更接*实际产品中的 A/B 测试，题目分布也更贴*真实用户使用聊天机器人的场景，因此更加公*客观。

国际第一梯队厂商也将 LMSYS 作为重要的评测榜单。我们在发布约一周后获得了评测成绩。结果显示，我们的模型处于世界第一梯队，排名在我们之前的只有 OpenAI、Anthropic 和 Google 的模型。图中显示排名第七，是因为 OpenAI 提交了四个模型。

在中文能力排行榜上，我们与 GPT-4 并列第一。LMSYS 还有一个“困难提示词”排行榜，针对用户提出的复杂问题进行评测。在该榜单上，我们基本处于全球第二的水*。这些结果让我们对自己的模型充满信心。

我们在海外的产品中也进行了 A/B 测试。使用我们的模型与 GPT-3.5 比较时，用户留存和付费均有较大提升。与 GPT-4 比较时，数据基本持*。这进一步证明我们的模型训练效果不错。

除了闭源模型，零一万物也做了许多开源模型工作。去年11月发布的 34B 模型，曾在 Hugging Face 的 LLM Leaderboard 上排名全球第一。今年上个月，我们对开源模型进行了一系列更新，发布了 1.5 系列模型，这些模型都是开源的。

我们选择 34B 这个尺寸，是因为它在量化后可以在一张 4090 显卡上部署，方便用户进行 SFT 和提示词工程。该模型受到了国外开发者的好评，许多人基于我们的模型创建了多种版本。例如，Nous Research 的 OpenHermes 模型以及许多多模态模型的后端语言模型，都采用了 Yi 模型作为基础。

核心训练方法论

接下来，我将分享我们在预训练过程中坚持的核心方法论，主要包括以下四点：

Scaling Law（缩放定律）
The Bitter Lesson（苦涩的教训）
高质量数据系统工程
对人才的判断

1. Scaling Law（缩放定律）📈

当前很多人都在讨论 Scaling Law，包括其能否通向 AGI。首先，我们需要对 Scaling Law 有一个基本定义。它表示模型性能与所用资源之间的关系。简单来说，资源越多，模型性能越好。从这个层面看，Scaling Law 是成立的。

我们好奇的是 Scaling Law 能否通向 AGI。回顾过去几年的发展，横轴代表训练模型所需的计算量（FLOPS），呈指数级增长。纵轴代表模型在不同阶段的能力，例如 GPT-2 被视为学前儿童，GPT-3 是小学生，GPT-4 是高中生，未来模型或许能自动进行 AI 研究和工程。

关键问题在于：模型能力的提升是线性的还是指数级的？如果认为是线性的，那就意味着随着资源的指数消耗，模型能力仅线性增长。如果是指数级提升，那么两者关系更接*线性。右侧图表展示了不同模型在评测集上的表现。随着训练算力增加，模型多数能力都有巨大飞跃。

以上是广义的 Scaling Law。还有一个更狭义的定义，主要来自 OpenAI 的论文《Scaling Laws for Neural Language Models》。这篇论文的一作是 Jared Kaplan，他具有物理学背景。Scaling Law 的公式与物理定律（如万有引力定律）非常相似。物理学家擅长对经验性或系统性的实验结果进行建模和提炼。

以下是该论文的几个重点：

它是一个经验性公式，而非严格的数学证明公式，是通过大量实验结果用简单方程拟合而来的。
该公式非常有效，其中一个作用是计算资源的最优分配。给定算力预算，我们可以决定如何分配数据和模型参数。

论文中包含大量数学公式，其中最重要的可能是公式 1.5：

L = (C / (N^α * D^β)) + L∞

公式解释：

L 代表模型的损失（Loss），损失越低，模型能力越强。
N 代表模型的参数量。
D 代表模型训练使用的数据量。
带角标的 C, α, β, L∞ 均为常数，通过训练小模型（如从百万到千万参数）进行大量实验后拟合得出。

拟合出这些常数后，根据目标模型的大小和参数，即可预测其训练损失。这个公式具有重要意义：

第一，它印证了广义的 Scaling Law。由于 N 和 D 都在分母，分母越大，损失越小，因此数据越多、参数越多，模型能力越强。

第二，在给定算力条件下，可以找到最优配置。算力 C 约等于 6ND。在此约束下，可以分析数据量和参数量的收益，找到使损失最低的最优参数与数据配比。

第三，它具有很强的可扩展性。通过在小模型上实验并拟合 Scaling Law 公式，可以预测大100倍模型的表现，节省大量算力。许多模型结构研究也可以基于此在小模型上进行。

关于最优配置，例如，选定算力为 10^18 FLOPS。横轴是模型参数量，根据 C=6ND 可确定数据量 D。由此可以得到一个曲面，显示不同配置下的模型效果，最优解即为曲面的最低点。这对选择模型参数量和训练数据量具有重要指导意义。

有人质疑 Scaling Law，例如 LLaMA 3 使用了 15T 的数据，远超公式预测的“最优值”，但模型效果依然很好。这需要澄清：公式给出的是给定算力下的最优配置。如果像 LLaMA 3 那样固定模型参数（如 8B），那么算力越多意味着数据越多，模型性能可以持续提升。当然，根据公式，随着 D 变得极大，其带来的损失下降收益会逐渐减小。因此，可以预估使用 10T 数据和 15T 数据带来的损失增益差异。

损失的可预测性在 GPT-4 技术报告中有所体现。他们用远小于最终模型的算力（横轴是指数增长），训练了一系列小模型，并在特定能力上记录损失。通过这些点可以拟合出曲线，并精确预测两个数量级（100倍）以上大模型的表现。这正是利用了前述的 Scaling Law 公式。

我们在训练大模型时，也花费了很长时间建立这套 Scaling Law 系统，使得所有大模型的训练过程能够*滑过渡。

衍生应用：这种方法还可用于比较不同模型结构。例如，最*很多人讨论 Transformer 结构是否会被 Mamba、Griffin 等结构替代。固定数据和参数量，训练很小的模型并拟合 Scaling Law 公式，得到系数。如果 α 或 β 系数更优（使得损失项更小），则证明该模型结构的可扩展性更好。这很容易比较出不同模型结构在何种配置下表现更佳。

同样，该方法也适用于对 Transformer 结构本身进行修改时的比较。例如：

比较 Pre-norm（层前归一化）和 Post-norm（层后归一化）在不同条件下的优劣。
比较不同的注意力机制，如 Multi-Head Attention、Multi-Query Attention、Grouped-Query Attention 以及 DeepSeek 提出的 MLA 等。通过比较给定算力下训练损失的变化，可以对模型结构改动提供重要指导。

2. The Bitter Lesson（苦涩的教训）🍋

“苦涩的教训”源自 Rich Sutton 的一篇博客。其核心思想是：能够有效利用计算能力的方法，最终往往能取得更好的结果。这与 Scaling Law 是相辅相成的，两者需要结合起来看。我们优化的核心正是对计算能力的使用效率，而计算能力也是 Scaling Law 中最重要的部分。

OpenAI 的研究员 Jason Wei 曾在推特上分享他的每日工作时间表，其中有两点很有意思：

他每天早上都会学习“苦涩的教训”（据其内部人员说，要“反复阅读并背诵”）。
他每天下午5点会与团队讨论算法改进，但5:05就结束讨论，认为算法改动风险太大，团队应该专注于计算和数据的 Scaling。

结合 Scaling Law 来看，这反映了研究范式的变化。我曾在 MSR 从事研究工作，深感研究范式已发生巨大改变。

过去，算力增长相对*缓（例如每年翻倍）。在这种情况下，我们通常针对某种基线方法（如图中红线）进行各种优化研究。这些优化提高了方法的起点，催生了许多新论文。在那个时代，这种做法是有效的。

然而，在当前时代，算力可能呈指数级增长（例如每年增长十倍）。此时，方法的起点已不那么重要，方法的斜率（即扩展性）变得更加关键。为了提高起点而加入的各种先验知识，实际上可能会损害方法的泛化能力，从而降低其斜率。

因此，回过头看，之前的许多研究工作可能是在“雕花”——在小的算力范围内不断优化模型能力的起点。但从更大尺度看，这些工作可能变得意义不大。

这引出了一个有趣的讨论。去年我们发布 Yi-34B 模型时，有人说我们借鉴了 LLaMA 的结构，甚至有人说我们“抄袭”。我想从几个角度讨论：

我们在开源时确实有做的不规范的地方（如变量命名），这是我们的问题。
但如果说“抄袭”LLaMA 结构，则是无稽之谈。关于“借鉴”，有一些值得探讨之处。

现在有种说法是“没有 LLaMA 就没有中国大模型”，我完全反对这个观点。LLaMA 论文中对其架构的描述是：基于 Transformer 结构，只做了三处改动：
* 将 Post-norm 改为 Pre-norm（实际上 GPT-3 已采用）。
* 使用 SwiGLU 激活函数替代 ReLU。
* 使用 RoPE 位置编码。
因此，很多人（如 Tae 在推特上指出）认为这些改进大多由 Google 提出，将其统称为“LLaMA 架构”是没有道理的。LLaMA 自己的技术报告也称其为“Norm Architecture”，Norm 是其中多项技术的发明人。

我想说的是，从 2017 年 Transformer 提出到去年 LLaMA 发布，模型结构并没有太大变化，主要就是这三处改动。因此，采用最简单的方法，专注于扩大计算规模（Scale up computation）即可。

此外，在我们自己的训练实践中发现，遵循 LLaMA 的这些改动并不总能很好地扩展。例如，在 70B 参数规模上可能还行，但在训练 200B、300B 参数模型时会遇到很多瓶颈。这些改动并非在所有算力条件下都有效。

我们分享一些实验发现：

当模型参数超过千亿后，使用 Post-norm 可能比 Pre-norm 效果更好，只是需要将其调整得更稳定。
SwiGLU 比 ReLU 收敛更快，但计算耗时更长。在使用海量算力时，需要权衡其带来的额外训练时间与快速收敛之间的利弊。
RoPE 目前可能占 Transformer 或 GPT 系列模型训练时间的 10% 左右。在极大算力条件下，是否不用 RoPE 可以节省 10% 的时间，并用这部分时间换回收敛速度，这需要大量实验验证。而这些实验验证，就可以利用前面提到的 Scaling Law 方法进行。

OpenAI 一位员工写的一篇博客也很有意思。他指出：

在相同数据集上训练足够长时间（假设算力无限），所有模型都会收敛到同一个点，无论它是 Transformer 还是 CNN。区别在于哪个模型能更快地收敛到那个点。因此，有价值的正是对算力的有效使用效率。
如果所有模型在相同数据上训练都会收敛到同一点，并且假设当前发布的模型都已收敛，那么决定模型能力的其实就是数据。每个模型不代表其架构或训练过程，只代表了其原始数据的质量。这就引出了下一个要讨论的重点。

3. 高质量数据系统工程 🗃️

高质量数据是模型训练中最重要的环节之一。下图展示了 Yi 技术报告中一个复杂的数据处理流程。目前业界普遍重视数据，也都有类似的数据处理流程。

我加入零一万物后，前三个月并未让团队训练大模型，而是主要训练极小的模型以建立 Scaling Law 系统，其余时间全部投入数据工作。直到9月份数据准备就绪后，我们才开始训练模型，过程非常顺利。我们的每个模型基本上都是一次训练成功，并且在同等参数规模下对比其他厂商的模型表现更好。这证明了数据质量工作的极端重要性。

关于数据，一个常见问题是：数据会用尽吗？ 根据之前一篇论文中的图表，如果数据线性增长，而当前我们对数据的消耗速度超过了这个增长率。对此，我分享一些个人观点：

第一，数据增长的速度比预期更快。特别是大语言模型出现后，网络上产生了大量由模型生成的数据。我们处理 Common Crawl 等数据源时，发现每年的数据量都有大幅增加。

第二，合成数据。目前有很多关于合成数据的研究，我们自己也在进行大量合成数据工作，并验证了其有效性。
下图来自 Falcon 团队对数据的分析，他们发现使用 2024 年的数据训练语言模型，效果优于使用 2023 年或更早的数据。原因是 2024 年的数据中已包含大量由 GPT-4 等模型生成的数据。这侧面验证了使用模型生成的数据来训练模型，可以持续提升模型性能。

第三，多模态数据能提升模型智能。这是我们在多模态预训练中的一个有趣发现。进行多模态训练不仅扩展了语言模型的能力，更能真正提升其智能水*。有一些非常理论的研究工作支持这一点，Ilya Sutskever 离开 OpenAI 后也曾点赞相关研究。

简单来说，其含义是：假设存在某个数据 Z，无论用语言描述还是用图像记录，在进行多模态模型训练后，这两种数据表征会越来越趋向于收敛到同一个表征空间。也就是说，它们在压缩时会压缩到同一个点。

基于这样的理论基础，我们可以认为多模态数据填补了语言模型数据的缺口。这样，我们未来就有海量数据可用。

4. 系统工程与人才观 👥

第四点，大模型是极致的系统工程。去年 ChatGPT 刚出现时，大家担心国内缺乏相关算法人才。实际上，在实践过程中我们发现，对系统能力的需求远大于对纯研究的需求。包括数据清洗、训练过程中的动力学调整等，都是非常细致的系统工程。我们需要做好每一环，抠好每一个细节，自然就能取得好成绩。

大规模机器学习是一种实验科学。很多人质疑深度学习缺乏数学解释。但 OpenAI 从一开始就认识到，大规模机器学习是实验科学，需要通过大量实验，用实验数据来得到*似的数学表示。这个过程与实验物理非常接*：通过大量实验消耗大量算力，获得大量结论，从而推动智能发展。

需要复合型人才。因为这是系统工程，所以我们需要既懂算法，又懂基础设施（Infra），又懂工程的复合型人才。过去国内人才可能在单一方面很强，但在处理复合型任务时会有些困难。因此，我们对团队的要求是：要懂算法，也要能写 CUDA 内核。

最后谈谈人才观。这是*期经常讨论的一点。我认为中美在人才方面的差距其实非常小。美国有一部分顶尖人才在 OpenAI、xAI 等机构，他们因拥有先发经验而领先。但国内聪明的人才一点也不少，而且现在大家非常重视大模型，投入了大量算力，因此涌现出许多能力很强的人才，我认为他们丝毫不比国外头部机构的人才差。其中有很多非常年轻的博士毕业生，展现出了巨大的潜力。

这些人才需要是算法、Infra、工程一体的复合型人才。过去那种算法很好但不太会写代码、不懂如何高效训练和调优的人才模式，在当前可能行不通。具备全面能力的复合型人才可以发挥巨大作用。

对我们自身的要求：我的团队一直只有十多人。我们要求人均拥有的 GPU 数量要超过一个阈值（例如1000张，这个数字可能有些随意，但核心思想是每个人需要有大量计算资源）。如果公司的总 GPU 数量没有相应增长，就不要盲目招人。否则，只会导致大家争抢计算资源。

我们坚持招聘非常年轻的博士毕业生，即所谓的“AI Native”一代。他们从开始做研究起就是“LLM Native”的，接触的第一个研究方向就是大语言模型。不像我们这一代，可能最初是从提升方法起点的视角看问题，而他们从一开始就重视方法的斜率和可扩展性（Scalability），这个视角非常重要。

课程总结

本节课我们一起学习了构建强大语言模型的核心方法论。我们从 Yi-Large 模型的评测实践出发，深入探讨了 Scaling Law 的理论与应用，理解了“苦涩的教训”所揭示的重视计算效率的研究范式转变。我们认识到高质量数据工程是模型能力的基石，而大模型训练本身是一项极致的系统工程，需要算法、工程与基础设施的深度融合。最后，我们讨论了在当下环境中，培养和吸引具备全面视角的复合型人才的重要性。这些原则共同构成了当前大模型训练与实践的关键路径。

课程名称：混元大模型的研发与业务应用之路 📚

概述

在本节课中，我们将学习腾讯混元大模型的技术研发历程、核心架构特点以及其在公司内外的广泛业务应用。课程内容基于康战辉在2024北京智源大会上的分享，旨在让初学者了解大模型发展的关键路径和实际落地场景。

大模型技术发展回顾 🔄

上一节我们概述了课程内容，本节中我们来看看大模型技术的发展脉络。

整个GPT的基础结构Transformer并非全新概念。标准的Transformer结构由Google在2017年提出，它是一个包含编码器（Encoder）和解码器（Decoder）的架构。

Transformer结构提出后，业界很快出现了三种不同的技术路径。

以下是三种主要的技术路径：

双向编码器路径：以2018年的BERT为代表，采用了双向编码器结构，代表了上一代预训练模型的跨越式发展。
编码器-解码器路径：以Google的T5为代表，这种结构一度成为当时最先进的模型。
仅解码器路径：以OpenAI的GPT系列为代表，专注于生成任务。

在GPT-3时期，仅解码器路径并未立即显现出压倒性优势，包括腾讯在内的许多团队早期也采用了类似T5的编码器-解码器结构进行预训练模型研发。

理查德·费曼曾言：“如果我不能创造，我就不能理解。”在大模型领域，这可以解读为：如果模型不能生成，它就不能真正理解。这正是生成式模型的目标，它通过生成来解决理解和创造的问题，也是OpenAI遵循的核心信条。

OpenAI的成功可归结为四个关键方向的坚持，这为行业发展提供了重要启示。

以下是OpenAI成功的四个关键方向：

寻找正确的生成模型架构：从早期的BP神经网络到2017年的Transformer，再到如今业界主流的仅解码器架构。
解决模型的扩展问题：模型参数规模的增长速度远超硬件算力提升速度（摩尔定律）。解决方案包括大规模批次训练和低精度计算（如从FP32到FP16、BF16，再到FP8）。
发展上下文学习能力：通过元学习（In-context Learning）技术，使预训练模型具备少样本甚至零样本学习能力，仅需任务描述和少量示例即可执行新任务。
实施对齐与强化学习：通过指令微调、基于人类反馈的强化学习等技术，像教导孩子一样让模型学会区分对错，提升模型表现的下限。未来可能向自博弈（Self-play）方向发展，类似AlphaGo到AlphaZero的演进。

混元大模型的研发挑战与体系 🏗️

上一节我们回顾了大模型的技术发展，本节中我们来看看腾讯混元大模型在研发中面临的挑战及其技术体系。

研发大模型在算法、工程和应用层面均存在挑战。工程上需要强大的算力、高性能训练框架和一站式业务*台。算法上涵盖了大语言模型、多模态大模型等多种生成式AI模型。

混元大模型系列支撑了腾讯内部众多业务，并对外通过腾讯云服务千行百业。

以下是混元大模型的核心组成部分：

算力基础：依托超大规模EGS算力集群，包括星海服务器、自研RDMA网络、GPU集群，并支持国产异构芯片。
训练框架：自研Angel机器学习框架，支持万卡规模训练，相比DeepSpeed等开源框架，训练速度提升2.6倍，GPU利用率（MFU）达62%，迁移成本降低50%。
推理优化：自研推理框架比主流开源方案快1.3倍。例如，可将Stable Diffusion文生图的推理速度从10秒优化到3-4秒生成三张图，单图生成可在一秒内完成。
模型家族：
- 大语言模型：覆盖从7B、13B的中小规模，到早期1760亿参数的稠密模型，再到最新的万亿参数混合专家模型。
- 领域模型：包括代码模型、可信模型、检索增强模型等。
- 多模态模型：混元VL视觉-语言模型，以及开源的文生图DiT模型。

混元的核心是万亿参数规模的混合专家模型。该模型经历了持续优化。

以下是混元大模型的演进与优化：

起点：2023年9月推出千亿参数稠密模型，训练了2万亿token。
升级：2023年底升级为万亿参数MoE架构，训练数据超过7万亿token。
优化：通过采用合成数据、多种训练策略优化、对齐与强化学习算法升级，整体效果累计提升超过50%。

MoE架构已成为行业共识，其优势在于相同计算成本下，效果优于稠密模型，且扩展性更好。

然而，训练超大规模MoE模型存在挑战，包括训练稳定性差、专家负载不均衡、专家功能趋同等。

以下是解决MoE训练挑战的关键技术：

高效路由机制：设计更智能的专家选择策略。
训练稳定性：设计专门的训练计划、损失函数和技巧，使训练过程更*滑稳定。
扩展律探索：针对自身模型结构，从零开始探索数据、模型参数等要素的扩展规律。

长上下文支持已成为行业标配。混元MoE模型支持高效的超长注意力机制。

以下是长上下文支持的技术演进：

全注意力：计算复杂度为序列长度的*方。
滑动窗口：关注局部上下文。
外推与优化：支持百万级上下文长度，并研究几乎无损的量化方案以支持更长上下文。混元Pro版API原生支持百万级上下文窗口。

数理能力是衡量大模型智能水*的关键。混元通过系统化方法提升数理能力。

以下是提升数理能力的方法：

数据合成：构建自动化的大规模数理数据合成与精炼流程，生成高质量的问答对。
训练策略：在预训练、有监督微调等不同阶段融入大量数理数据。
方法应用：采用思维链、程序辅助推理等技术解决高阶数学与推理问题。评测显示，混元在中文数理能力上整体接*GPT-4 Turbo，在小学和初中数学上超过GPT-4。

降低幻觉是提升大模型可靠性的核心。除了扩大模型规模、充分训练和对齐算法，还需解决模型对未知知识的处理问题。

混元引入了AI搜索能力来应对幻觉问题。

以下是混元AI搜索的架构与特点：

信源权威：整合微信搜一搜、搜狗网页搜索、自建垂类引擎及腾讯生态内容，确保信息权威性和时效性。
智能体架构：采用基于智能体的规划-执行机制，使大模型从“快思考”转向“慢思考”。
领域精调：在通用底座上，通过增量预训练和多任务精调，构建搜索领域的专属模型。

多模态模型与开源贡献 🎨

上一节我们深入探讨了混元大语言模型，本节中我们来看看其在多模态领域的进展。

混元VL多模态模型在中文场景下的整体能力与GPT-4V相当，能完成物体识别、场景理解、逻辑推理和内容生成等复杂任务。

混元文生图DiT模型是中文社区首个原生的开源DiT架构模型。

以下是混元文生图模型的关键优化：

多模态语言模型：支持多轮交互式编辑和聊天互动。
DiT架构优势：采用扩散Transformer架构，相比传统U-Net，具有更强的图像与文本信息捕获能力。该开源模型发布三周内获得了超过2300个Star，在业界处于领先地位。

综合评测显示，混元大模型在中文能力上与最新版GPT-4 Turbo总体相当，处于行业第一梯队。

混元大模型的业务应用落地 🚀

前面我们介绍了混元大模型的技术研发，本节中我们来看看其广泛的业务应用。

混元大模型已接入腾讯公司内部超过600个业务场景。

以下是几个典型的应用场景：

腾讯会议AI助手：支持会议中的实时问答、会后自动总结摘要和待办事项生成。
腾讯混元ChatBI：用自然语言进行数据查询、SQL代码生成、表格分析和数据洞察，降低数据分析门槛。
腾讯文档AI助手：支持文案创作、表格处理、文档格式转换（如转PPT、PDF）等。
腾讯广告妙思：高效生成广告素材，并利用AI加速素材审核流程，提升广告投放效率。
微信读书AI问书：支持在阅读过程中通过长按文本，直接针对书籍内容进行提问和获取相关知识。
AI内容创作：与新华社等机构合作，用于新闻写作、海报配图、创意宣传片生成等。
腾讯元宝APP：集成AI搜索、长文解析、AI写作、生图生视频等功能的AI助手，主打“轻松工作，多点生活”。

总结

本节课中我们一起学习了腾讯混元大模型的完整发展路径。我们从大模型的技术发展回顾开始，了解了Transformer架构演进的三种路径以及OpenAI的成功启示。接着，我们深入探讨了混元大模型在应对算法、工程挑战时构建的庞大技术体系，包括其万亿参数MoE架构、长上下文支持、数理能力提升和抗幻觉设计。此外，我们也了解了混元在多模态模型和开源方面的贡献。最后，我们看到了混元大模型在腾讯内外超过600个业务场景中的具体应用，从办公协作到广告营销，从内容创作到个人助手，展现了生成式AI技术强大的落地能力和产业价值。

课程名称：视频生成大模型技术解析 🎬

课程编号：P6

在本节课中，我们将要学习快手“可灵”（KLING）视频生成大模型的核心概念、技术亮点与设计思路。课程内容基于万鹏飞在2024北京智源大会上的分享整理而成。

概述：什么是视频生成？

视频生成是通过生成式AI技术，将用户的多模态输入转化为一个视频信号的过程。

用户的输入本质上是多模态的。它可以包括文本、图像、动作描述或其他控制信息。最终输出是一个视频信号，对计算机而言，这是一个在二维空间上叠加了时间维度的三维信号。

用到的技术基础是生成式AI。从数学上可以简略理解为：从某种随机的噪声或信号出发，经过一系列计算和处理，得到一个目标信号。这个目标信号可以被视为在目标分布下的一个采样。

视频的三种获取方式

上一节我们介绍了视频生成的定义，本节中我们来看看视频信号通常有哪些获取方式。主要有以下三种：

相机拍摄
这是最熟悉的方式，例如用手机录制视频。其本质是将物理世界的光信号转化为像素信号。
图形渲染
例如游戏、动画和电影特效。其本质是将预设好的三维模型及材质信息，通过模拟物理现象的计算，生成像素信号。这个过程主要在计算机内完成，计算大多是确定性的。
视频生成
这是我们本节课讨论的重点。其本质是一种从目标分布中采样样本的技术，样本解码后即成为大家看到的视频。

这三种方式各有优缺点。相机拍摄成本低，但内容自由度受限于现实世界。图形渲染效果精美，但创作门槛极高。视频生成的内容自由度非常高，可以呈现天马行空的想象，但过去其效果的*均水*一直是个挑战。*期的新技术和产品正在有效提升其效果下限。

视频生成的主流技术路线

了解了视频的不同来源后，我们来看看实现视频生成有哪些技术路径。以下是当前主要的技术路线：

扩散模型
这是目前最流行的方式。其核心思路是用一个神经网络去预测噪声。早期常用CNN，因其结构适合图像信号。现在更多转向使用Transformer，因为它被验证具有良好的扩展性。像Sora和快手的可灵都属于这个范畴。
自回归模型
视频信号可以看作带有序列关系的信号，因此用自回归方法建模在概念上也很直接。虽然当前效果可能不如扩散模型，但它也是一个合理的技术路线。

其他生成式AI方法
原则上，任何能够将随机信号转化为目标信号的生成式AI方法都可以用于视频生成，例如GAN等。

快手研发视频生成模型的优势

在探讨了技术路径之后，我们来看看快手公司在这一领域具备哪些独特优势。主要有以下几点：

天然的应用场景与需求
快手是一个拥有*4亿日活跃用户的短视频内容*台，视频创作是核心需求。这为技术研发提供了明确的方向和即时的用户反馈。
长期的技术积累
快手从诞生起就专注于帮助用户进行内容生产创作，在此领域有超过十年的技术积累和实战经验。
全面的大模型布局
快手在大模型领域布局全面，曾推出备受好评的“快意”大语言模型和“可图”文生图模型，为多模态生成奠定了坚实基础。

“可灵”模型效果亮点

接下来，我们正式介绍“可灵”模型。如果用一句话描述，它是一个可以实际体验、且效果呈现了许多Sora级别特性的视频生成模型。

目前，其生成视频在硬指标上分辨率可达1080P，时长可达数分钟。线上体验版本为720P分辨率、5秒时长。自发布以来，申请体验量非常巨大。

以下是其六个核心效果亮点：

大幅度的合理运动
视频生成与图像的核心区别在于时间维度。可灵通过3D时空联合注意力机制建模复杂运动，生成的视频中物体运动幅度大且合理，例如奔跑的马匹、弹吉他的熊猫。
分钟级的长视频生成
模型具备生成分钟级长视频的能力，并能保持场景、主体和风格的高度一致性，例如展现四季变换的骑行视频或长达2分钟的火车窗外景色更替。
模拟物理世界特性
生成的视频内容符合物理规律，例如流体倾倒、水面上升、用筷子夹取和咀嚼面条等复杂动态，体现了模型对真实世界的深刻理解。
丰富的概念组合与想象力
能够将现实中不存在的概念进行合理组合并可视化，例如“小猫开跑车”、“杯子里的火山爆发”，完美呈现天马行空的想法。
电影级的画面质感
生成的视频画质精美，细节丰富，动态自然，例如水中游动的鱼、花朵绽放的过程，画面品质达到较高水准。
支持自由的视频宽高比
模型可以指定任意宽高比进行输出，并自适应生成合适的内容，例如生成适合手机竖屏或电脑横屏观看的视频。

“可灵”模型的技术设计

看完了令人印象深刻的效果，本节我们来深入了解一下支撑这些效果背后的关键技术设计。主要包括以下几个方面：

隐空间的视频编码
直接在像素空间处理视频信号计算消耗巨大。可灵设计了一套3D VAE结构，能对视频进行高效压缩，在减少信息冗余的同时保持高画质和生成能力。
Transformer基础网络
采用Transformer结构进行扩散过程的噪声预测，并验证了其良好的可扩展性，这是大模型能力持续提升的关键。
时空信息联合建模
使用3D时空联合注意力机制，将时间和空间维度统一建模，扩大了模型的感受野，从而增强了其对复杂运动的建模能力。
文本编码扩展
利用大语言模型相关能力对输入文本进行编码，确保模型能够精准理解和响应复杂的文本指令。

高质量数据体系
构建了高度自动化的视频数据*台和精细的视频标签体系，用于筛选高质量训练数据。同时，研发了专门的视频描述生成模型，为视频数据生成对应的文本描述。
数据驱动的效果评估
建立了数据驱动的评估模型，能够高效、客观地评估新模型迭代的效果，大幅提升研发效率。
高效计算与训练策略
- 算法：采用流匹配等更先进的扩散模型求解方案，在效率和效果上具有优势。
- 训练：使用大规模分布式训练集群。训练策略上采用分辨率由低到高、结合数据量与品质的方案。
- 推理：模型具备良好的能力扩展性，支持不同宽高比输出、时序延展（延长视频、图生视频、插帧）以及多模态输入控制。

未来展望与总结

最后，让我们展望一下视频生成技术的未来发展趋势。

效果与生态层面：
视频生成的效果正在快速提升，部分案例已接*实拍或渲染质量。这将大幅降低视频创作门槛，提升创作效率，使得视频消费者与创作者的界限逐渐模糊，从而繁荣整个视频内容生态。

技术与产品层面：
技术仍在快速发展，不同模态以及理解与生成任务正在融合。需要认识到，拥有好的技术不等于拥有好的产品，两者之间存在巨大的鸿沟。将技术转化为成功的产品，需要在人机交互、工作流集成、满足细分需求等方面做大量工作。同时，生成式AI基础技术的持续创新仍是推动一切进步的根本。

课程总结

本节课中，我们一起学习了：

视频生成的定义及其作为第三种视频获取方式的潜力。
当前视频生成的主流技术路线，特别是基于Transformer的扩散模型。
快手研发“可灵”模型的优势，包括场景、数据和技术积累。
“可灵”模型在运动幅度、视频时长、物理模拟、概念组合、画质和格式等方面的六大效果亮点。
支撑这些效果的关键技术，如3D VAE编码、时空联合注意力、高质量数据体系及高效训练策略。
视频生成技术的未来展望，包括其对创作生态的影响以及技术产品化面临的挑战。

视频生成技术正在打开一扇新的大门，让每个人的创意都能更便捷地以动态视觉形式呈现。

大模型产业技术圆桌讨论全记录 📝

在本节课程中，我们将一起回顾2024北京智源大会“大模型产业技术”专题的一场精彩圆桌讨论。本次讨论由张一甲主持，嘉宾包括颜水成、谢剑、黄文灏、万鹏飞。我们将整理核心观点，探讨大模型技术发展、多模态路径、AGI定义、商业模式等前沿话题。

概述

本次圆桌讨论在轻松开放的氛围中进行，主持人张一甲引导四位来自学术界、产业界和创业公司的嘉宾，围绕大模型的技术进展、产业应用和未来挑战展开了深入交流。讨论涵盖了技术路线、多模态价值、AGI定义、价格战、算力竞争等多个维度。

圆桌讨论核心内容

开场与共识

主持人张一甲首先邀请嘉宾分享对当天大会内容的感受。

以下是嘉宾们的核心反馈：

黄文灏认为，行业在Scaling Law、数据重要性等方面已形成广泛共识。
谢剑赞同共识观点，并补充道，相比去年，今年国内大模型技术生态更加繁荣，基础能力建设进步显著。他同时指出，许多分享可能未触及最核心、最具价值的创新部分。
颜水成扮演了“共同主持人”的角色，旨在促进更坦诚的交流。
万鹏飞表示，在视频生成等领域仍面临挑战，技术开放度有限，但行业整体认知趋同。他特别提到大会的高关注度，认为这是AI发展的良好基础。

他山之石：如何看待苹果的AI布局？

主持人将话题引向*期发布AI战略的苹果公司，探讨其技术路径和生态位。

以下是嘉宾们对苹果AI战略的看法：

万鹏飞从应用和技术层面表示尊重。他特别提到苹果端侧小模型（如3B参数在8GB内存设备上运行）在成本、隐私和体验上的优势，并强调了“生态位”的重要性。
颜水成略有失望，他期待苹果能将多模态大模型（如GPT-4o）与Vision Pro结合，打造原生智能助手。但他高度认可端侧智能的方向，认为这是兼顾体验和隐私的必然趋势，并预测国内手机厂商也会跟进。
谢剑认为苹果在产品定义和传达“个人化、隐私安全”的心智上非常成功。技术上，他感觉苹果在实现像GPT-4o那样的原生音频交互上略有不足，可能与技术或隐私考量有关。
黄文灏从三个层面分析：应用层面展示了可能性；技术层面验证了“先做大、再做好”的Scaling Law路径以及模型压缩技术（如10-100倍压缩）；但对AGI层面感到失望，认为*期模型未显著提高智能上限。

焦点探讨：多模态是AGI的必经之路吗？

围绕多模态的价值，特别是与语言模型的关系，嘉宾们展开了激烈讨论。

谢剑首先澄清了百川智能的观点：

多模态不等于文生图/视频，它包括“任意模态到文本”的理解和“文本到任意模态”的生成。
百川认为语言是智能的“中轴心”，是知识的高效抽象和压缩方式。因此，公司战略聚焦于提升以语言为核心的智力。
百川会做“任意模态到文本”的多模态理解模型（如百川-4），但暂未大力投入“文本到视频”生成，因为当前技术路径中语言模型的作用不够核心，且该领域有快手等拥有独特数据和生态位的公司。

黄文灏对此进行了补充和探讨：

多模态数据被证明能提升智能上限，因为它们被压缩到同一个表示空间。
“理解”和“生成”统一是否一定能提升智能，仍是一个开放问题，需要更多实验验证。
他引用OpenAI的观点，指出语言模型不一定是通向AGI的唯一路径，视频等基础模型也可能是一条路径。当前语言的数据利用效率更高，但未来视觉数据结合更大算力可能成为更优路径。

颜水成从意识和信息论角度支持多模态：

引用“全局工作空间”理论，认为意识源于多模态信息在统一空间的交互与推理，而AGI需要意识。
人类70%的信息通过视觉获取，且视觉是3D的，信息量远大于文本。当前消费的内容（如抖音、快手）也以视频为主。
他补充，在该理论中，不同模态在全局工作空间内交互时，其表示形式是语言，这反过来也说明了语言的重要性。

万鹏飞从产品与交互角度支持多模态：

伟大的产品（如ChatGPT、iPhone）背后都有强大的技术，技术与产品不割裂。
若要替代白领工作，AI必须是具身且多模态的。研究表明，面对面交流中视觉信息占比达55%。
智能体与物理世界交互也离不开视觉等多模态信息。

主持人小结：关于AGI的讨论存在不同层面的投影，包括技术底色、表现形式和定义标准。一个可行的定义是“替代80%-90%人类白领工作”，若以此为目标，那么多模态和具身能力可能是必要条件。

快问快答：价格战、Scaling Law与算力

本节以快问快答形式探讨了几个现实问题。

关于价格战：

颜水成（昆仑万维）：公司战略聚焦To C产品，避开价格战，担心重蹈安防领域覆辙。
万鹏飞（快手）：关注商业模式本质（ROI），在快手生态内，大模型应用能跑通正向商业循环，价格并非关键。
谢剑（百川智能）：云厂商降价是“羊毛出在猪身上”的获客策略。创业公司更应追求超级应用的突破。
黄文灏（零一万物）：指出降价源于DeepSeek等公司在推理优化（如MLA、MoE）上的技术进步，而非单纯烧钱。且降价多集中于低端模型，意义有限。

关于Scaling Law（做大还是做小）：
嘉宾举手示意当前策略：颜水成（做大）、谢剑（做大）、黄文灏（不举手/中间状态）、万鹏飞（不举手）。万鹏飞解释，策略取决于公司目标和商业模式。

关于算力（卡）与算法的竞争：

黄文灏：卡代表绝对算力，算法代表相对算力（效率）。创业公司可能在绝对算力上不占优，但可发挥人均卡多的优势，专注于提升算法效率（相对算力），两者相辅相成。

观众问答精选

讨论最后开放给现场观众。

问题1（致万鹏飞）：AI生成内容普及后，快手如何保持“真实生活”的社区氛围？

万鹏飞：内容形式变化不改变本质需求，社区规范和治理依然重要。AI生成内容可能满足用户新的需求（如定制化内容），带来挑战也带来机会。

问题2（致万鹏飞）：视频生成的安全与合规如何保障？

万鹏飞：这是重要课题，需要行业共同用新思路解决新挑战。内容生态的治理是长期存在的核心问题。

问题3（致谢剑、黄文灏）：为何未开放文生图/视频多模态能力？

谢剑：澄清百川已具备“图/文到文本”的多模态理解能力（如百晓应）。未大力投入文生图/视频是基于战略选择。
黄文灏：零一万物已开源视觉-语言理解模型。公司认为生成与理解统一不一定提升智能上限，因此选择其他技术路线。未来会推出更强的多模态模型。

问题4（致万鹏飞）：如何看待国产GPU和与抖音的竞争？

万鹏飞：期待国产算力突破。对快手产品有信心。

问题5（致全体）：未来重点是大规模囤卡还是优化算法？

黄文灏：绝对算力（卡）和相对算力（算法）都重要。创业公司可先聚焦算法突破，再寻求算力增长。

问题6（致全体）：为何从去年聚焦To B转向今年发力To C？

谢剑：百川创立之初就更关注C端。去年模型能力不足，难以支撑好的C端应用。今年模型能力接*GPT-4，C端应用的价值开始显现。
颜水成：To B变现更快，To C周期长。但许多公司初创时已有明确方向。

总结

本节课我们一起学习了2024北京智源大会一场圆桌讨论的核心内容。我们回顾了行业对技术共识的判断，深入探讨了苹果AI战略的启示，并就多模态与语言模型在AGI路径上的关系这一关键议题听取了多方见解。此外，我们还分析了当前激烈的市场价格战背后的商业逻辑，以及创业公司在算力与算法之间的*衡策略。最后，通过观众问答，我们触及了AI内容生成与*台治理、技术开源战略等现实问题。整场讨论表明，大模型产业在技术探索、商业应用和生态建设上正走向多元化和深水区。

大模型前沿探索课程 - P1：论坛背景与嘉宾介绍 🎤

在本节课中，我们将学习2024北京智源大会“大模型前沿探索”论坛的背景信息，并了解出席本次论坛的各位嘉宾。我们将聚焦于大模型技术当前面临的核心挑战以及本次论坛的探讨方向。

论坛背景介绍

大家好。欢迎大家参加智源大会“大模型前沿探索”论坛。本论坛的重点在于关注大模型前沿技术的发展。我是中国电信人工智能研究院的林永翔。

我们知道，随着深度学习技术的迅速发展，以GPT系列为代表的大模型取得了显著的成果。我们这个论坛的主题是大模型的前沿技术探索。旗帜鲜明地说，我们旨在用前沿技术去解决基础的问题。

有哪些基础问题呢？我们都知道，大模型的研发和应用仍然面临着诸多的挑战。

以下是当前面临的主要挑战：

训练成本高昂
能耗问题
对齐的质量问题
大模型和小模型的协同问题
训练和推理的优化
机器学习理论的反思
无约束感知问题
从视觉的垂直领域到多模态的统一架构

现在人工智能的大热，很大程度上得益于技术的突破。随着技术突破慢慢进入深水区，接下来学术界和工业界的发展方向，将成为一个至关重要的问题。今天在本论坛，我们也会对这个问题展开探索和讨论。

上一节我们介绍了论坛的背景和核心挑战，本节中我们来认识一下出席本次论坛的嘉宾。

以下是本次论坛的嘉宾介绍：

王叶璇博士：智源研究院研究员，青年科学家，国家新一代人工智能国家科技重大专项负责人，FLM团队负责人，中国人工智能学会聚生智能专委会委员。
邹双永博士：中国电信人工智能研究院“语意”大模型团队负责人，高级算法总监，集团高级专家。先后在阿里巴巴和京东科技担任算法负责人工作。目前负责中国电信星辰“语意”大模型和智能对话等算法研发。
宋庄勇博士（敖翔博士）：博士生导师，CCF高级会员。先后主持国家重点研发项目课题一项，国家自然科学基金项目三项。曾获得多项阿里巴巴、腾讯奖项，并担任多项学术会议的程序委员。
黄磊博士：北京航空航天大学人工智能学院副教授。研究方向主要集中在深度学习训练技术以及理论分析方面。
赵建博士：中国电信人工智能研究院多模态认知团队负责人，青年科学家，西北工业大学光电院研究员、博导。博士毕业于新加坡国立大学，曾获吴文俊人工智能优秀青年奖、吴文俊人工智能自然科学一等奖。

主题报告开场

好，下面开始我们的主题报告环节。首先，由王叶璇博士给大家带来关于全球首个单体万亿稠密大模型的报告。

T-FLY（万亿） 是全球首个低碳、开源的多语言万亿稠密大模型，由智源研究院和中国电信人工智能研究院共同研发。该模型针对大模型超参敏感、成本极高等关键问题，研发了损失预测生长等核心技术，实现了大模型训练零调整。该模型在892张A800集群环境中，成功实现了万亿稠密模型的训练，是全球首个实现了低碳预训练的大模型。

本节课中我们一起学习了“大模型前沿探索”论坛的背景，了解了当前大模型发展面临的核心挑战，并认识了参与探讨的各位专家学者。下一节课程将深入本次论坛的第一个主题报告。

大模型前沿探索课程 P2：全球首个稠密万亿模型揭秘 🚀

在本节课中，我们将跟随王业全博士的分享，深入探讨全球首个稠密万亿参数大模型 TeleFM-ET 的研发动机、核心技术、关键挑战与评测结果。我们将学习到如何在大数据、大算力的背景下，通过创新的“生长式预训练”等技术，高效地训练出性能强大的稠密模型。

动机与意义 🎯

上一节我们回顾了大模型发展的宏观背景，本节中我们来看看研发万亿稠密模型的具体动机和意义。

首先，我们回顾大模型的发展脉络。OpenAI 是生成式大模型的核心驱动者。需要强调的观点是：GPT 能力的最大来源是其强大的语言大模型。后续的指令微调（SFT）、强化学习（RLHF）等阶段，主要目的是与人类价值观对齐，而非灌输更多知识。

成功训练大模型依赖三大支柱：大数据、大算力和强算法。

大数据：当前语境下的“大数据”与过去有本质区别。过去千万或亿级数据量已算庞大，而现在需要穷尽整个互联网的文本量，这带来了巨大的技术挑战。
大算力：过去依赖超算集群，现在则需要成千上万的GPU进行并行计算。例如，GPT-3在2020年就使用了上万张显卡进行训练。
强算法：算法创新依然至关重要。以LLaMA为例，它在GPT路线上的某些“细微”改进（在传统深度学习时代可能被视为“技巧”），却带来了模型能力的巨大提升，这值得算法研究者和工程师高度重视。

在这三大支柱的支撑下，我们可以训练出基础的语言大模型。在此之上，通过微调和对齐，就能得到常见的对话模型，如ChatGPT系列。

语言大模型的本质非常简单：用前K个词预测第K+1个词。例如，对于句子 “the cat sat on the mat”，模型会自左向右依次预测下一个词。这个简单本质的背后，蕴含着深刻的原理：当上下文足够长时，精准预测未来词汇的能力可能就包含了强大的智能。

对于产业界的朋友，常听到“模型参数规模”（如70亿、1000亿参数）。这里给出一个通俗解释：假设有一个简单模型 y = a1*x1 + a2*x2 + a3*x3 + a4*x4 + b，其中 a1, a2, a3, a4, b 就是模型参数，参数量为5。用历史数据拟合这个模型以得到参数估计值的过程，就类比于大模型的训练。当然，实际训练是极其复杂的系统工程。

以下是OpenAI的技术演进路线，它揭示了行业趋势：

2019年2月：GPT-2
2020年5月：GPT-3 (1750亿参数)
2022年12月：ChatGPT
2023年：GPT-4 (网传1.8万亿参数)
未来：GPT-5 (网传达百万亿参数量级)

OpenAI的路线说明了 Scaling Law（缩放定律） 的重要性：随着模型参数和数据量的增加，模型性能会持续提升，且目前尚未看到边界。这正是我们训练万亿模型的核心动机——探索模型规模带来的能力提升上限。

目前业界共识是模型规模仍不足够。国内外主流模型如千问1.5（千亿级）、Mixtral（1400亿）、DeepSeek（2000亿）、Grok（3000亿）、LLaMA 3（正在训练4000亿）等，都在沿此路线前进。

一个关键问题是：稀疏专家混合模型（MoE）与稠密模型（Dense Model）的对比。网传GPT-4是1.8万亿的MoE模型（由8个约3000亿的专家模型组成）。为何OpenAI选择MoE而非稠密模型？

回顾历史，智源于2021年发布了1.75万亿的MoE模型“悟道2.0”，但后续很多模型又回归稠密架构。原因在于：

工业角度：MoE在训练和推理效率上有优势。
性能角度：在相同参数量下，稠密模型在下游任务、小样本微调等方面的性能显著优于MoE模型。

因此，探索稠密模型的能力上限更为重要。此外，从科学研究和行业发展的角度（如对时效性要求不高的AI for Science领域），研发能力更强的稠密模型也很有必要。

综上所述，为了探索大模型能力上限并促进社区发展，智源研究院与中国电信人工智能研究院联合研发了 TeleFM-ET——全球首个低碳、多语言的单体万亿稠密语言大模型。

训练万亿模型的关键问题 ❓

了解了研发动机后，我们来看看实现这一目标面临哪些核心挑战。

以下是训练万亿稠密模型必须解决的三个关键问题：

高效训练：据估算，即使拥有庞大的千卡甚至万卡集群，训练一个稠密万亿模型也可能需要三年到十年。一旦因设置或数据错误导致训练失败，时间成本将无法承受。这是目前万亿模型多采用MoE架构的根本原因。因此，我们的核心问题是：如何在有限的算力内，高效完成既定规模的稠密模型训练？
超参数敏感性与风险控制：大模型训练对超参数（如学习率LR）极其敏感。不合适的设置会导致高昂的试错成本，最终模型性能不可预期。关键问题是：能否形成一套成熟的方法论，在训练前就确定最优超参，实现训练过程的“零调整、零试错”？
对开源社区的贡献：我们坚持开源路线，希望将探索出的核心技术、模型参数等开放给社区，推动整体进步。因此，确保核心技术完全开源是我们的另一个关键目标。

核心技术揭秘 ⚙️

面对上述挑战，研发团队是如何攻克难关的呢？本节将揭秘背后的核心技术。

首先，需要更新对大模型的认知：当前的大模型不仅仅是一个算法，更是一个复杂的系统工程。它涉及底层硬件、数据、框架、效率优化等多个层面。

以下是核心技术的几个维度：

数据质量至关重要：我们的核心经验是：无论多么重视数据质量都不为过。数据获取、清洗、去重、打分每个环节都至关重要。特别是“如何定义高质量数据”是一个根本性问题（例如，广告、特定类型的信息是否一定是低质量数据？）。数据去重的挑战随规模指数级增长，处理全网数据是极大的系统工程。
框架与效率优化：对于大多数团队，直接采用成熟的优化技术即可，如BF16精度、Flash Attention、梯度检查点（Gradient Checkpointing）等。效率提升方面，我们重点采用了 Moe Gating（专家门控） 和 生长技术（Growth）。

基于这些认知和技术积累，我们发展出了FM系列模型。其演进分为三代：

第一代（预言代）：针对语言模型的事实幻觉问题（如“奥巴马的妻子是张女士”语法正确但事实错误），我们在训练中引入因果信号，区分事实与语法，提升生成质量。
第二代：针对大模型训练成本高的问题，我们研发了生长技术来训练千亿模型。在去年9月，仅用约70万元人民币的成本就训练出了达到GPT-3水*的千亿级模型。
第三代（TeleFM-ET）：融合前两代技术，与中国电信合作推出全球首个万亿稠密模型。它采用损失预设技术保证训练稳定性，评测显示其语言能力接*GPT-4，且所有核心技术均已开源。

生长式预训练（Growth Pretraining） 是本次的核心突破。传统训练中，模型规模从始至终固定不变。而生长技术的思路是：目标虽是训练千亿/万亿模型，但我们从较小的模型（如十亿级）开始训练，逐步“生长”到目标规模。

这引出了两个核心问题：

生长对模型能力是增益还是损害？
到底能节省多少成本？

成本节省预估有三种情景（B, C, D），我们选择了节省大于50%的D策略。令人惊喜的是，实验证明生长技术不仅没有损害模型能力，反而有微弱提升。原因在于：小模型初期优化空间小，优化效率高；通过一系列技术手段（如权重保真），在生长过程中能很好地保留并提升能力。

生长可以在多个维度进行：隐藏层宽度、注意力头数量、模型层数、FFN中间层维度。在万亿模型训练中，我们成功实现了所有维度的同时生长。

生长算法的核心是生长算子和生长流程。具体细节可参考开源的技术报告和代码。

以下是TeleFM-ET万亿模型的具体生长路线：

第一阶段：训练一个500亿参数的模型，使用2.0T tokens的数据量。
第二阶段：将500亿模型生长到千亿规模，使用0.3T tokens数据量进行训练。
第三阶段：将千亿模型生长到万亿规模，使用约0.015T tokens数据量完成训练。

训练框架优化同样关键。我们集成了3D并行、序列并行、异构存储、自动评估等技术，并将生长技术集成到了Megatron框架中。最终，联合研发团队使用112台A800 GPU，在4个月内完成了从百亿、千亿到万亿模型的训练。

数据策略方面，我们公开了完整的数据配比信息（当前很多模型已不再公开此信息）。关键观察有三点：

对数据源进行严格清洗，最大限度避免脏数据和低质数据。
训练中采用恒定的数据分布，避免中途调整引发不稳定。
在采样后的预训练数据上重新训练了Tokenizer，获得了领先的压缩比，提升了训练效率。
核心结论：质比量更重要。即使目标是优秀的中文模型，我们数据中英文占比约为2:1，中文仅占约30%，但因保证了质量，最终模型效果出色。

超参数搜索方面，我们实现了“小模型搜索，大模型应用”的方法论。在训练开始前，使用非常小的模型进行大量的超参数网格搜索，找到的最优参数可以直接应用于后续大规模的模型训练，并能保证收敛。这使我们实现了万亿模型训练中的 “零调整、零试错” 。同时，52B小模型的优秀性能也为后续千亿、万亿模型提供了良好的知识起点。

模型评测结果 📊

核心技术保障了模型的成功训练，那么它的实际表现如何呢？本节我们来看详细的评测结果。

评测分为基础语言模型和对话模型两部分。

基础模型评测最直观的指标是损失函数值（Loss）和困惑度（PPL）。

中文评测：TeleFM是当前最优的中文基础模型，优于千问1.5 72B和LLaMA 3 70B。
英文评测（BPB指标）：TeleFM 52B的英文能力接*LLaMA 3 70B。值得注意的是，我们的训练数据量为2T tokens，参数量为52B；而LLaMA 3 70B的数据量为15T tokens。我们的模型表现超过了包括LLaMA 2 70B在内的其他所有对比模型。

对话模型评测主要针对中文能力，包含外部和内部评测。

外部评测（AlignBench）：结果显示，我们模型的语言能力特别强，基本达到GPT-4中文语言能力的96%，总体能力达到GPT-4的80%。需要说明的是，我们的模型仍是纯语言模型，而GPT-4是多模态模型，在多模态能力上不可比。
内部评测（TeleEval）：显示中文对话能力达到GPT-4的93%，与外部评测结果高度吻合。

经验总结与展望 🔮

最后，我们来总结本次万亿模型研发的核心经验，并展望未来。

以下是我们的主要实验经验：

数据方面：质量与数量并重，且质量优先。我们的实践表明，即使中文数据比例不高（约30%），只要保证了高质量，模型效果依然出色。
超参数方面：基于小模型的网格超参数搜索非常有效，能节省大量试错成本，避免巨额算力浪费。
训练效率与稳定性：监控损失（Loss）曲线是关键。实践表明，损失曲线偶发的“尖峰”是正常的，模型大概率能够自我修复。需要持续观察梯度范数（Gradient Norm），它与损失曲线的关系复杂。需要警惕的是持续上升的梯度范数，这可能导致训练发散。

开源情况：目前所有核心技术均已开源。社区可以通过相关渠道获取技术细节、参与研讨和反馈。

总结

本节课中，我们一起学习了全球首个稠密万亿模型TeleFM-ET的研发全貌。我们从大模型发展的动机出发，探讨了面对高效训练、超参敏感、开源贡献等关键问题的挑战。随后，深入揭秘了以生长式预训练为核心的系统工程化解决方案，包括对数据质量的极致追求、创新的生长算法、以及小模型超参搜索等方法。评测结果表明，该模型在中文基础能力和对话能力上均达到了接*GPT-4的顶尖水*。最后，我们总结了数据质量优先、超参预搜索、监控训练稳定性等宝贵经验。这项研究不仅验证了Scaling Law在稠密模型上的持续有效性，也为社区提供了全套开源技术方案，推动了大模型技术的探索与发展。

大模型精细化微调与对齐方案教程 🧠

在本教程中，我们将学习大模型精细化微调和对齐方案的核心概念与实践方法。课程内容基于中国电信人工智能研究院宋双永博士的分享，涵盖从数据质量优化到模型对齐，再到场景化应用的全过程。

第一部分：大模型精细化微调 📈

上一节我们介绍了课程的整体框架，本节中我们来看看大模型精细化微调的具体思路。

在模型微调阶段，数据策略经历了从“数量取胜”到“质量为王”的转变。早期阶段，为了快速追赶，研究者倾向于收集海量数据。例如，在2023年初，训练数据量常以百万甚至千万条计。然而，后续研究发现，使用少量但高质量的数据集（如仅1000条）也能训练出效果出色的模型。这促使业界重新思考数据数量与质量的*衡。

以下是数据策略转变的两个核心对比：

数量取胜阶段：数据量巨大，但可能缺乏全面性。例如，即使拥有数千万条数据，若其中缺少数学类数据，模型的数学能力将存在短板。此阶段数据格式多样，答案风格不统一，不利于模型高效学习。
质量为王阶段：追求数据的高质量与全面性。数据量可能较少，但要求覆盖尽可能多的能力维度，且同类问题的答案格式需尽量规范统一，以降低模型学习难度。

此外，需注意基础模型训练数据与微调数据的配合。若基础模型在某领域数据不足，仅靠微调阶段强行补充，可能导致模型产生严重的“幻觉”问题。因此，提升微调数据质量的同时，也需审视并完善基础模型的数据全面性。

第二部分：高质量数据筛选方法 🔍

上一节我们探讨了数据质量的重要性，本节中我们来看看如何从海量数据中筛选出高质量的部分。

数据筛选方法主要分为两类：通用型方法和任务指向型方法。

以下是几种常见的数据筛选方法：

IFD方法：一种通用筛选思路。其核心是计算同一条数据在“有提示”和“无提示”两种情况下模型生成答案的得分差值。差值越大，表明数据质量越高，因为合理的提示理应带来更好的输出。但该方法在两种情况下得分都极高或极低时容易误判。
Super-Floating方法：在IFD基础上改进，旨在提升筛选效率。它尝试使用小参数模型进行数据过滤，再将结果用于大模型训练，但会因模型差异引入一定误差。
NGAS方法：一种任务指向型方法。它评估一个候选样本加入训练后，对一组固定测试样本的损失降低情况（即训练增益）。通过计算产生正增益的样本比例来给候选样本打分。
LESS方法：同样是任务指向型方法。它直接评估候选样本的梯度方向对降低测试集损失的程度。实践表明，在重点任务上，LESS方法的效果通常优于NGAS。

基于上述方法，可以构建一个针对重点能力（如逻辑推理、认知理解等）的数据优化流程。该流程结合数据筛选与拒绝采样等技术，并需在迭代中不断优化不同能力维度数据的混合配比，以实现通用能力的协同提升。

经过精细化微调优化后，模型的综合对话能力可得到显著提升（例如提升约8%），尤其在逻辑推理、缓解幻觉、数学计算等关键短板上进步明显。

第三部分：大模型偏好对齐 🤝

上一节我们介绍了如何通过精细化微调提升模型能力，本节中我们来看看如何让模型的输出更符合人类的偏好。

偏好对齐，狭义上指在通用微调之后，进一步让模型学习人类的喜好，以生成更符合人类期望的结果。目前主流方法如DPO，其学习方式与SFT有本质区别。

以下是SFT与DPO的核心区别：

SFT：可视为点对点学习。模型直接学习每一条给定的问答数据，目标是将给定的答案模式拟合好。
- Loss_SFT = -log P(答案 | 问题)
DPO：可视为成对对比学习。模型同时看到针对同一问题的“好答案”和“坏答案”，通过比较来学习人类的偏好。
- Loss_DPO = -log σ(β * (log P(好答案|问题) - log P(坏答案|问题))) 其中σ为sigmoid函数，β为调节参数。

DPO实践通常采用迭代方式进行：

使用SFT模型作为初始模型。
用该模型为一批问题生成多个候选答案。
人工标注这些答案的优劣，形成“好-坏”答案对。
使用这些成对数据通过DPO目标函数训练模型，得到新版本的模型。
重复步骤2-4，迭代优化，使模型输出不断逼*人类偏好。

通过DPO对齐，可以在逻辑推理、安全问答、特别是缓解事实性幻觉等方面，进一步显著提升模型的表现。

第四部分：场景化能力建设与应用 🚀

上一节我们探讨了让模型更“听话”的对齐技术，本节中我们来看看如何将这些技术转化为实际的产品和应用。

基于前述技术积累，中国电信已将一系列模型开源，并完成了对多种国产化芯片的适配。在应用层面，重点打造了多个场景化能力。

以下是四个典型的落地应用场景：

行文写作（星辰绘笔）：模拟人类写作过程，先根据题目和参考文献生成大纲，用户可修改大纲，再基于大纲和参考文献生成详细文章，并支持句子的扩写、续写和改写。
智能客服：包含在线自动问答与离线辅助人工客服两大功能。其中，“大模型知识采编”能力利用统一模型，从非结构化的产品文档中精准抽取关键信息，替代了传统上需要为每类信息单独训练小模型的繁琐流程，极大提升了效率。
辅助经营分析：属于智能取数的特定应用。实现从数据自动查询、结果可视化到自动分析与报告生成的全流程，是当前大模型落地的重要方向。
高精度会议纪要生成：在保证高精度语音转写和说话人分离的基础上，利用大模型生成会议整体摘要以及每位发言者的要点总结。

总结 📝

本节课中我们一起学习了：

精细化微调的核心在于从追求数据数量转向追求数据质量与全面性，并介绍了IFD、LESS等数据筛选方法。
偏好对齐通过DPO等成对对比学习方法，使模型输出更符合人类喜好，尤其在缓解幻觉方面效果显著。
技术落地需要将模型能力与具体场景结合，如行文写作、智能客服、数据分析等，并通过产品化实现价值。

通过数据质量优化、偏好对齐迭代以及深入的场景化打磨，大模型的能力得以不断精进，并最终服务于多样化的实际需求。

课程名称：大小模型协同训练初探 🧠🤖

课程编号：P4

在本节课中，我们将要学习大小模型协同训练的基本思想、两种核心范式及其具体应用。我们将探讨在资源有限的情况下，如何利用大语言模型作为工具来辅助和增强传统小模型的训练与性能。

大模型时代的背景与挑战

上一节我们介绍了课程的整体目标，本节中我们来看看当前大模型热潮的背景以及我们面临的现实挑战。

生成式人工智能大模型（如GPT-4、SORA）的出现，以其强大的生成、意图理解和分析推理能力，深刻改变了人工智能的研究格局。然而，构建和训练这类大模型需要海量的算力、数据以及工程团队，这通常是大型科技公司或拥有雄厚资源的机构才能承担的。

对于高校或小型研究机构而言，既缺乏大规模算力，也缺少特定行业的专有数据积累。因此，一个可行的思路是将大模型视为一种高级工具，用以辅助我们日常关于小模型的研究。这便催生了“大小模型协同训练”这一研究方向。

小模型的持续价值

上一节我们提到了利用大模型的必要性，本节中我们来看看为什么小模型在当今时代依然不可或缺。

在大模型出现之前，人工智能研究长期专注于各种“小模型”。例如，处理时序数据常用LSTM，处理关系数据常用图神经网络GNN，图像生成领域则有GAN模型。这些模型在各自的专业领域内都曾是或仍是性能卓越的代表。

大模型的出现并未完全取代小模型，原因有二：

端侧轻量化部署：大模型参数量巨大，计算耗电，难以在手机等终端设备上高效、隐私安全地运行。
特定专业任务：在一些非常专业或要求输出严格一致的领域，大模型的生成式、灵活性特点可能导致表现不佳或结果不稳定。

因此，当前的研究重点之一是如何让大模型指导并优化小模型，使其在新时代发挥更大作用。

协同训练范式一：大模型作为教师（知识蒸馏）

上一节我们明确了小模型的价值，本节中我们来看看第一种协同训练范式——知识蒸馏。

知识蒸馏是一种传统思路，其核心是让大模型充当“教师”，小模型作为“学生”，通过模仿学习来优化小模型。我们以一个“问答-解释”任务为例进行探索。

任务定义：

输入：一个问题。
模型：一个参数较少的语言模型（小模型）。
输出：包含两个字段：1) 问题的答案；2) 对该答案的解释。

该任务面临的挑战是缺乏包含“解释”的标准训练数据。我们利用大模型的生成能力来构造数据。

方法步骤：

数据生成：向大模型提问，让其生成答案及相应的解释。
数据质量洞察：我们发现，即使大模型回答错误，其生成的解释与错误答案之间也常保持逻辑一致性（即“自圆其说”）。
一致性过滤：为了利用高质量数据，我们训练一个一致性评分模型，用于评估大模型生成的“答案-解释对”的逻辑一致性。
协同训练：小模型通过最小化三部分损失进行学习：
- 答案预测损失
- 解释生成损失
- 答案与解释的一致性损失

公式表示：
总损失函数可以概括为：
L_total = L_answer + L_explanation + λ * L_consistency
其中，λ 是权衡一致性强度的超参数。

实验结果：该方法在多个基准测试上相比传统蒸馏框架取得了性能提升，并且人工评估显示其生成的答案和解释更合理。

协同训练范式二：大模型作为顾问（迭代咨询）

上一节我们介绍了基于数据生成的静态协同，本节中我们来看看一种更动态的交互范式——迭代咨询。

我们将研究对象从NLP任务转向图神经网络（GNN）。目标是让大语言模型与GNN在训练过程中动态交互，提升GNN在节点分类等任务上的表现。

现有范式存在局限：

大模型作为预测器：完全用大模型处理图数据，未利用GNN的专长。
大模型作为增强器：仅用大模型做一次性的节点属性增强，交互不充分。

我们提出新范式：大模型作为顾问。其核心是一个在GNN训练过程中的咨询循环。

框架步骤：
以下是该范式的关键步骤：

选择咨询点（疑难杂症）：并非所有节点都需咨询。我们通过训练多个不同参数的GNN，筛选出预测方差大的节点，视为“疑难杂症”。
构建咨询请求（自动提示工程）：将疑难节点的邻居信息、属性、标签及GNN的预测结果，组织成文本描述（如同病历），提交给大模型。
获取专家回复：要求大模型回复：1) 预测的节点标签；2) 推理解释。
利用专家反馈：
- 若大模型预测正确，则将其解释文本作为节点属性的补充，增强语义信息。
- 若大模型预测错误，则假设问题源于图结构噪声，对节点邻域进行剪边去噪，简化结构。
迭代优化：将增强或去噪后的图数据反馈给GNN继续训练，循环此过程，直至模型收敛。

代码逻辑示意：

for epoch in training_epochs:
    # 1. GNN前向传播与预测
    predictions, variances = gnn_model(graph)
    # 2. 选择高方差节点作为咨询点
    hard_nodes = select_hard_nodes(variances)
    # 3. 为每个咨询点构建Prompt
    prompts = build_prompts(graph, hard_nodes, predictions)
    # 4. 咨询大模型并获取回复
    llm_advice = query_llm(prompts)
    # 5. 根据回复类型处理图数据
    if llm_advice.is_correct:
        graph = enhance_node_attributes(graph, hard_nodes, llm_advice.explanation)
    else:
        graph = denoise_graph_structure(graph, hard_nodes)
    # 6. 用更新后的图继续训练GNN
    gnn_model.train_on_updated_graph(graph)

实验结果：该范式能使经典的GNN模型性能提升至与*年SOTA模型相当甚至更优的水*，并且在同配图与异配图上均表现稳定。

总结与展望

本节课中我们一起学习了大小模型协同训练的两种核心范式。

首先，我们探讨了在资源受限背景下，将大模型作为工具来辅助小模型研究的必要性。接着，我们深入分析了两种协同范式：

知识蒸馏（教师范式）：利用大模型生成训练数据，并通过一致性过滤提升数据质量，从而在“问答-解释”任务上优化小模型。
迭代咨询（顾问范式）：在GNN训练中引入动态咨询循环，让大模型针对疑难节点提供建议，通过属性增强或结构去噪来迭代提升GNN性能。

当前工作主要聚焦于数据层面的协同（数据生成、增强、去噪）。未来的研究方向可能包括：

效率与成本：优化交互流程，降低大模型调用开销，提升整体训练效率。
算法层面协同：探索如何将大模型的能力更深层次地融入小模型的损失函数设计或架构改进中，实现更本质的算法协同。

通过本节课的学习，我们希望你能理解，在“大模型时代”，传统小模型并非失去价值，而是可以通过巧妙的协同设计，借助大模型的强大能力，焕发新的生机。

课程：大模型下的机器学习理论研究反思与机遇 🧠

在本节课中，我们将回顾机器学习理论的发展历程，探讨其在深度学习和大模型时代下面临的挑战与机遇。我们将从传统的统计学习理论框架出发，分析其在特征工程、深度学习及大模型三个不同阶段的适用性与局限性，并介绍一些前沿的理论研究工作。

机器学习理论的传统框架 📐

上一节我们介绍了课程概述，本节中我们来看看机器学习理论的传统框架是如何建立的。

机器学习问题的主要元素包含两个方面。主流（主边）的讲述方式，常见于当前的深度学习课程，其核心是：给定一个包含输入和输出的数据集，目标是学习一个函数或条件概率分布。其目标是发现数据中蕴含的规律，具体方法是定义一个损失函数，并通过优化方法最小化它，期望模型能推广到未见过的数据。

在深度学习兴起之前（约2000年左右），机器学习通常按另一种（右边）方式讲授。它强调：一个学习任务源于一个未知的目标函数。通过采样得到一个数据集，然后一个学习算法会从一个给定的假设空间（即模型类）中寻找合适的假设。如果找到的假设 g *似于目标函数 f，则认为该任务是可学习的。这个定义非常明确，其中“假设空间”的概念对应到今天的大模型，例如，一个确定了参数数量和连接方式的 Transformer 架构就构成了一个假设空间，每一种参数配置就是一个假设。

那么，机器学习的理论框架是如何建立的呢？这个框架主要源于统计机器学习，因为它强调泛化能力。泛化能力来源于统计学，核心是大数定律。如果可以量化，通常使用霍夫丁不等式。该不等式确保了训练集上的经验误差与期望误差（即泛化误差）之间的差距，其概率可以被一个项所界定。如果这个项小于1，则界定有意义；如果很大，则意义不大，因为概率值本身不会超过1。这个框架缩小了泛化误差的估计范围。

之后，理论研究者希望将这个框架扩展到任意的假设空间。通过概率方法，可以得到一个表达式，其中出现了一个关键变量 M，即假设的数目。对于简单模型，假设数目是可数的；但在实际中，很多模型的假设数目是不可数的（例如线性模型有无穷多种参数配置），因此这个表达式意义有限。这里，N 是样本数量。这个表达式建立了模型复杂度（假设数目）与性能之间的桥梁。

理论研究者又向前推进了一步，致力于处理无限的假设空间。这引入了“打散”和VC维等概念。最终可以得到一个表达式，将泛化误差与训练误差、样本数量 N、模型VC维 D_VC 以及一个概率参数 Δ 联系起来。VC维用来衡量模型打散数据的能力，即其表达能力。大模型的表达能力非常强。这个表达式建立了机器学习的一个理论框架。

我们如何看待这个表达式呢？它的一边是泛化误差，另一边是训练误差。它表明，如果你得到了一个较小的训练误差，那么你的泛化误差与训练误差的差异不会超过这个上界。这个上界与训练样本数量、模型表达能力（VC维）相关，Δ 则代表了该不等式以 1-Δ 的概率成立。这就是传统的机器学习理论框架。

不同时代的挑战与机遇 🚀

上一节我们介绍了传统的理论框架，本节中我们来看看这个框架在特征工程、深度学习和大模型时代分别遇到了哪些问题和机遇。

沿着上述理论表达式，机器学习理论之后大致分成了三个研究方向：

表达能力：给定一个假设空间，其函数表达能力是否足够？即理论上能否用该模型分开所有训练数据。
优化：理论上模型能够分开数据，但能否通过算法找到对应的参数配置？
泛化：学到的函数能否举一反三，在未见数据上表现良好？

这个表达式将机器学习的三个核心方向统一了起来。

特征工程时代

在特征工程时代，机器学习理论的定义基于输入是固定维度 d 的向量空间，输出是实数空间（回归）或离散空间（分类）。表达式是在此基础上建立的。

然而，人工智能的实际任务（如自然语言处理、计算机视觉、语音处理）的输入并非如此简单。例如，NLP的输入是变长的向量序列，图像的宽高也是变化的。这使得机器学习理论似乎对实际应用无用。

但幸运的是，当时处于特征工程时代。各个领域的研究者会先提取特征，将原始数据转换为固定维度的向量表示。搞机器学习理论的人因此可以不管具体问题，只假设输入 X ∈ R^d，然后基于线性模型等发展理论，分析其表达能力和优化收敛性，并引入先验知识得到更精细的泛化上界。他们将实际问题和理论之间的鸿沟，交给了应用领域的研究者去通过特征工程填补。

深度学习时代

到了深度学习时代，问题出现了。深度学习处理视觉或语言问题时是端到端的，其直接处理的输入就是原始的、形式各异的信号（如图像像素、文本序列），输出也可能很复杂。在这种情况下，传统的机器学习理论基本上无法直接应用。

当机器学习遇上深度神经网络时：

表达能力：深度神经网络的表达能力很强，有坚实的理论基础，例如神经网络的万能*似定理。该定理证明，给定任意函数，都可以用神经网络去拟合。也有一些理论工作尝试计算神经网络的VC维。
优化：这是深度学习发展中最关键的部分。从2006年到2015年，训练技术取得巨大进步，特别是批量归一化（BN）和残差连接（Residual）的出现，使得训练深度网络变得稳定。
泛化：从严格的机器学习理论角度，深度神经网络的泛化目前缺乏好的理论结果，只有一些经验性发现。但从计算机视觉或NLP的应用角度看，研究者通过融入领域知识（如设计具有*移不变性的网络架构、使用数据增强）来提升泛化能力。

理论发展困难的主要原因在于：

输入形式各异：理论假设输入是固定维向量，但实际任务的输入维度是变化的，数学上难以刻画。
网络架构各异：从MLP、RNN到CNN、Transformer，每种架构都需要单独进行复杂的理论分析。
输出更复杂：任务被设计得越来越复杂。

这就形成了一个巨大的鸿沟：应用工程飞速前进，而机器学习理论仍守着传统的一亩三分地，导致理论成果似乎与深度学习的实践脱节。

大模型时代的机遇

大模型时代带来了新的机遇，主要体现在“统一”上：

任务统一：大模型将所有任务的输入和输出都统一为序列形式（如自回归的下一词预测）。在NLP中，输入和输出空间变得一致。
架构统一：主流大模型都使用Transformer架构。Transformer每一层的维度是固定的（例如 d_model），这使得层与层之间的数学空间刻画成为可能，简化了分析。
问题统一：大模型将所有问题本质上转化为条件分类问题（预测下一个token）。

在这三种统一之下，为理论研究带来了机遇。

此外，大模型训练通常强调海量数据。根据 Scaling Law 等经验规律，只要训练损失降下去，泛化效果通常也不错。这从研究角度提供了一个新视角：如果数据*乎无限，问题就更多地变成了一个纯粹的优化问题，而暂时不必过分纠结于传统的、基于有限数据的泛化理论。这释放了机器学习理论发展的空间，使其可以更专注于表达能力和优化这两个核心问题的讨论。

现在的研究，从抽象角度看，就是讨论表达能力和优化之间的权衡。模型越大，参数越多，拟合能力（表达能力）通常越强。同时，人们发现越大的模型优化起来也可能更简单（得益于更好的架构和优化器）。因此，核心变成了表达能力和优化之间的权衡。如果模型既有强大的表达能力，又能被有效优化，那么它就是有意义的。

在表达能力方面，仍有研究空间。例如，现代神经网络中的归一化层、残差层等在传统理论中分析不足。在优化方面，针对这种固定维度的表示空间，研究其训练动态对网络训练有帮助。

前沿研究工作示例 🔬

上一节我们探讨了大模型时代带来的机遇，本节中我们将快速浏览基于上述思路的一些具体研究工作。

以下是我们在相关方向的部分工作：

1. 归一化层的非线性表达能力

我们首先从理论上证明了层归一化（LayerNorm）和RMSNorm等归一化操作的非线性表达能力。

我们知道，层归一化是Transformer中的基础模块。即使为了效率使用RMSNorm，它也属于一种缩放操作。该操作本质上是将向量投影到一个球面上。我们从数学上，通过算术推导和几何构造，证明了LayerNorm和RMSNorm具有非线性表达能力。

证明思路简述：

算术推导：我们提出了一个指标，并证明仅通过叠加各种线性层，无法突破该指标的下限。但如果在中间加入LayerNorm，则可以突破这个下限。
几何构造：线性分类器无法解决某些几何问题（如异或问题）。我们发现，通过使用这种缩放投影，可以构造性地解决此类几何问题，证明其非线性。

我们最重要的结论是：一个线性层加一个层归一化层构成的网络（称为LNNet），具有万能分类能力。这是以往理论中没有的。我们证明了无穷深的LNNet（每层节点数大于3，若用RMSNorm则大于2）可以完全分类任意给定的有限样本集。这个证明将机器学习问题转化为了一个算法性的“嵌入”问题，我个人非常喜欢这个结果，认为它有写入教科书的价值。

基于这个结果，我们可以很快推导出网络的VC维下界。对于一个L层的网络，其VC维至少是 L+2。这个理论目前还比较初步，但有很多改进空间。此外，从实用角度，我们发现将LayerNorm分组（GroupNorm）可以理论上增强其非线性，这对网络设计有启发，但也可能因约束过强而限制模型能力。

2. 优化中的尺度不变性与谱分析

在深度神经网络训练中，尺度不变性分析非常重要。例如，对使用归一化层的网络，将其某一层的权重放大 α 倍，其输出表示可能保持不变。这种性质有助于训练稳定。我们分析了网络中每一层的尺度受哪些因素影响，并指出在尺度不变网络中，每层的尺度主要受该层自身参数影响。这虽然稳定了训练，但也可能导致某些层在训练中“休眠”（梯度太小而不更新），这解释了为何有些网络剪枝有效。

比尺度更进一步的工具是谱分析，即数据协方差矩阵的特征谱。在传统机器学习中，满秩、白化的表示通常有利于优化。在深度学习中，如果每一层的表示也满足这种属性，通常能得到好结果。例如，在视觉自监督学习（如SimCLR）中，容易发生表征坍塌或维度坍塌。为了解决这个问题，许多方法（如白化损失）被提出，其目的是鼓励表征的协方差矩阵接*单位阵，防止坍塌。我们分析了“硬白化”和“软白化”方法的不同效应，并证明在白化损失下，当学习率无穷小时，表征的奇异值秩在训练中保持不变。这些分析有助于诊断训练过程。

3. 实践：小尺寸多模态大模型与开源*台

基于上述分析，我们也进行了实践，训练了一个小尺寸的多模态大模型 Taiyi（太乙）。例如，我们早期开源的 Taiyi 1.4B 模型，可以在消费级GPU（如3080）上进行推理。我们训练了不同规模的模型并进行了基准测试。在这个过程中，我们发现代码质量非常重要。

因此，我们联合开发并开源了一个名为 Taiyi Learning Factory 的项目。这是一个模块化、易扩展、可复现的多模态代码*台，集成了最新方法，方便定制多模态模型。该*台采用软件工程的设计理念，特别适合高校和研究机构在有限算力下进行大模型研究、分析和理论验证。

总结 📝

本节课中，我们一起学习了机器学习理论从传统统计框架到深度学习时代的发展脉络。我们看到了传统理论在特征工程时代的间接应用，在深度学习时代因输入、架构、任务的异构而面临的挑战，以及在大模型时代因“统一”而迎来的新机遇。这些机遇使得理论研究可以更聚焦于表达能力和优化等核心问题。最后，我们通过一些具体的研究工作（如归一化层的理论分析、优化动态研究）以及实践项目（小尺寸多模态模型和开源*台），展示了如何在这些新机遇下开展探索。大模型时代为机器学习理论研究者提供了重新审视和贡献的宝贵机会。

课程P6：无约束感知理解：从视觉垂域建模到多模态统一与多任务协同 👁️➡️🧠

在本节课中，我们将学习赵健博士分享的关于无约束条件下视觉目标感知理解的研究历程与前沿思考。课程将从具体的视觉垂域问题出发，逐步扩展到多模态统一与多任务协同的通用模型构建，探讨如何应对复杂现实场景中的挑战。

概述：视觉目标感知理解的重要性与挑战

视觉目标感知理解旨在从图像或视频中获取人、车、物等目标的关键信息与关联属性。多年来，它一直是人工智能领域的核心科学问题，在国防、公共安全及民生经济等领域有广泛应用前景。

然而，在无约束条件下，视觉目标感知理解面临诸多挑战。各种内外在因素的耦合影响，为目标信息的求解与建模带来了困难。

第一项研究：多模融合学习的态势感知 🎯

上一节我们概述了领域面临的挑战，本节中我们来看看第一个具体的研究方向：态势感知。

为了保障某要地的低空安全，需要对微小型无人机等可疑目标的时空关键信息进行感知取证，并辅助反制手段进行管控。在多模融合学习的态势感知中，核心研究如何融合红外、可见光等多元信息的互补优势，实现目标空间位置等状态信息的检测，及其运动轨迹等趋势信息的预测。

挑战在于：在无约束或非配合条件下，目标在运动过程中不断受到速度、背景、障碍物等因素影响，导致视觉观测多变，使得态势信息获取不精确。

传统方法的局限：在RGBT弱小目标跟踪场景中，传统方法主要基于一阶交互和静态模板，导致力度单一、表征低效。

我们的创新思路：提出双流知识迁移的多模融合实例级目标跟踪方法。该方法通过多阶耦合双流级联，联合感知全局与局部信息，实现多阶信息融合互补、时空线索联动建模和层级知识级联迁移。

此外，我们构建了大规模多模融合无人机跟踪基准数据集（NTUAV）。该数据集的有效标签量超越了此前相关数据的35.9%。我们持续在该领域深耕，在国际上首次提出反无人机跟踪问题，并持续在CVPR、ICCV等顶会组织相关研讨会与挑战赛，推动领域发展。

方法效果：在复杂环境及多重遮挡条件下，我们的方法相比此前最优方法，相对精度提升了19.95%。相关算法获得了中国人工智能大赛A级证书及CVPR比赛奖项。成果已落地于国家重要部门，并与中国花样滑冰协会合作开发了相关系统。

第二项研究：要素解耦学习的属性关联 👤

在掌握了目标的态势信息后，下一步是识别其属性。本节我们探讨属性关联问题。

在突发公共安全事件中，需要对实施违法行为的关注目标的面部特征进行感知，识别其身份信息以实施追查布控。在要素解耦学习的属性关联中，需要研究如何通过充分挖掘目标内在属性的耦合结构及其相互关联关系，发现属性间复杂依赖，实现目标身份、类别等信息的精确识别。

挑战在于：在无约束条件下，目标常受到姿态等内在属性耦合，以及视角、分辨率等外在因素的干扰，导致属性识别结果不够精准。

传统方法的局限：传统方法主要通过合成图像直接学习，导致分布差异和属性耦合的挑战。

我们的创新思路：提出规划学习要素解耦的属性级目标识别方案。通过多属性依赖关系建模和归一化学习要素解耦，可以理清属性耦合结构，统一处理各种挑战性因素，实现各类关联属性的归一化学习。

方法效果：相比马尔奖得主A. Zisserman的Fisher Vector等经典算法，相对识别精度提升超过50%。在大姿态、极端姿态等条件下，识别精度也得到大幅提升。我们将该方法开源为face-evolve库，在GitHub上获得超3000星标和700余次复刻，并适配了百度PaddlePaddle、清华Jittor等国产深度学习框架，被官方引入。

相关算法获得了ICCV 2021口罩人脸识别竞赛冠军、美国NIST无约束人脸识别竞赛所有赛道冠军、微软百万名人识别竞赛所有赛道冠军。成果成功落地于国家重要部门及蚂蚁金服可信人脸识别系统，服务覆盖1.2亿用户。

第三项研究：因果嵌套学习的语义理解 🔍

识别目标属性后，需进一步理解其精细化语义信息。本节我们进入语义理解层面。

在聚集性活动中，重点目标常藏匿于人群中。需要分析不同目标的详细特征，理解其精细化语义信息，实施精细检索。因果嵌套的语义理解主要研究如何逐步建模复杂场景，实现由粗到精信息的渐进式反馈，将高复杂度任务向低复杂度任务分解转化，最终实现精细化语义理解。

挑战在于：在无约束条件下，人群中的目标可能因距离远导致轮廓模糊，且因交互或遮挡问题严重，导致场景复杂度多元，使得语义理解不够精细。

传统方法的局限：传统方法多采用基于级联的多阶段独立处理方式，导致特征无关联、语义易混淆。

我们的创新思路：提出局部全局信息关联的因果嵌套像素级目标解析方案。通过局部与全局的关联以及因果嵌套学习，实现特征协同优化和语义因果推理。

此外，我们构建了大规模细粒度语义理解数据集。在数据规模上超越此前工作五倍，在标注类别上超越三倍，已被多个国际知名机构广泛使用。

方法效果：相比MH-Parser等经典方法，在保证性能有提升的同时，推理速度提升了十倍。相比ResNet作者何恺明的Mask R-CNN，*均精度提升13.95个百分点。相关成果获得ACM Multimedia最佳学生论文奖、新加坡模式识别协会金奖，并成功落地于国家重要部门及奇虎360等单位。

从视觉垂域到多模态统一与多任务协同 🚀

在长期的研究与实践中，我们发现仅利用视觉信息往往不够全面，仅研究专用智能或针对特定问题的模型，其认知能力有限，无法应对多模态、非完整信息感知理解的新需求。

人类的感知本质上是多模态的，但每种模态下的信息往往是不完备的。如何针对多模态非完整信息条件，获取更精确的目标画像进行感知理解，我们思考从三方面扩展：

模态扩展：从视觉模态扩展到多种模态融合。
模型扩展：从各垂域专用模型扩展到跨域通用模型。
场景扩展：从单一、低复杂度场景扩展到多样化、高复杂度场景。

最终愿景是构建一个多模态、多任务联合驱动的通用模型。这既符合国家需求与指引，也是国际研究前沿。

我们设计了如下研究架构，针对 “探究多模态非完整信息语义对齐和多任务协同机理” 这一科学问题，从四个层面入手：

多元融合：解决多模态理解问题。
通用模型设计：解决模型架构问题。
多任务学习：解决多任务协同机理问题。
增量学习：解决模型持续优化问题。

以下是各层面的研究思路：

1. 多模态建模与语义对齐

目标：实现多元异构信息的优势互补与交互协作，得到信息融合的通用学习框架。
核心：
- 多模态数据的离散结构表示。
- 特征与语义空间的对齐。即将不同模态数据在隐空间解耦，利用强鲁棒性的离散表征空间建模数据，同时引入语义空间对齐机制，实现多模态信息在隐空间的真正对齐。

2. 通用模型设计与轻量化

目标：编码不同尺度的多模态信号，提取模态间与模态内的复杂交互关系，并在多任务学习中减小计算量。
核心：
- 多尺度数据的长程建模。
- 多模态联合表征学习。

3. 多任务学习机理

目标：设计轻量化的多模态输入、多类型任务一体化模型架构，实现多任务联合处理。
核心：研究清楚多任务学习的机理与机制。因为多任务学习中，有些任务相互促进，有些相互抑制。弄清机制才能更好地进行多模态、多任务统一学习与表示。

4. 增量学习与持续优化

目标：构建统一优化框架，持续处理现实世界中的连续信息流，构建共享表征空间，增强模型的小样本、零样本学习及泛化能力，让模型在实际问题中不断迭代进化。

目前，我们正基于这些方向进行研究探索，相关成果将陆续发布。

总结与展望 🌟

本节课我们一起学习了无约束感知理解从视觉垂域建模到多模态统一与多任务协同的研究路径。

我们回顾了三项层层递进的研究：

多模融合态势感知，解决目标状态与趋势信息获取问题。
要素解耦属性关联，解决目标身份与类别精确识别问题。
因果嵌套语义理解，解决目标精细化语义解析问题。

进而，我们探讨了未来的扩展方向：通过多元融合、通用模型设计、多任务学习与增量学习，构建能够应对多模态、非完整信息挑战的通用感知理解模型。

人工智能发展日新月异，未来虽不确定，但我们相信会越来越好。我们愿与各界同仁一道努力，让更多不可能变为可能。

问答环节 💬

观众提问：关于无人机距离控制和识别问题，我曾尝试使用透视空间和坐标定位，但难以聚焦和控制精确距离。看到视频中使用了光谱，但觉得光谱干扰因素大。是否可以考虑使用建筑物坐标或地标来解决？

赵健博士回答：您提的很好。在实际应用解决反无人机问题时，通常包含三个子系统：预警探测、防御处置和指挥控制。与感知相关的主要在预警探测部分。

预警探测本身就是一个多模态系统。除了视觉设备（即带转台的光电探头，包含红外与可见光视场，并集成激光测距），还包括雷达探测设备和无线电频谱侦测设备。因此，实际是通过多模态融合来解决目标位置及其他关键信息的探测问题。

当然，在进行学术研究时，由于我们更多关注多媒体、CV等领域，因此主要聚焦于如何在视觉范畴内更好地解决目标状态与趋势信息的感知问题。

大模型前沿探索课程 - P7：圆桌讨论 🧠

在本节课中，我们将围绕大模型时代带来的挑战与机遇，聆听一场由多位专家参与的圆桌讨论。我们将探讨大模型的幻觉与安全问题、多模态技术的发展方向、通往通用人工智能（AGI）的路径，以及大模型在产业落地中的价值与风险。讨论将涵盖科研、技术创新与产业应用等多个维度。

幻觉与安全问题 🔒

上一节我们介绍了大模型时代的宏观挑战，本节中我们来看看一个具体的技术难题：大模型的幻觉与安全问题。幻觉指模型生成不准确或虚构信息，安全问题则涉及模型被恶意利用的风险。

宋永博士首先分享了他的观点。他认为应从两个方向看待此问题。

从产品与应用维度，需在输入控制和答案生成等系统层面施加限制，以规避风险。
从模型能力维度，在某些如文学创作的场景下，幻觉反而是创造力的体现，而安全定义也因地域和文化而异。因此，统一的世界模型在此问题上可能难以实现。

敖翔博士对此表示赞同，并补充了用户视角。

幻觉与安全是针对用户而言的概念。从技术机理看，模型本质是 next token prediction（下一个词元预测）。限制预测空间会减少幻觉，但也会削弱创造力。
因此，更务实的做法是根据应用场景进行选择：在危害小的场景优先使用，在严格场景则限制或避免使用。

黄雷博士从技术角度进行了深入分析。

幻觉的定义需首先明确，例如在多模态任务中，描述与输入无关是否算幻觉。技术根源在于自回归生成中的误差累积。
解决幻觉需要在“精确记忆”和“生成多样性”之间权衡。安全性则分为内容安全（safety）和模型对抗鲁棒性（security）两个层面，后者根植于神经网络的固有脆弱性。

赵建博士总结了幻觉的成因与应对策略。

幻觉源于模型在海量多样化数据上学习模式来生成内容。在某些领域（如创作）它是优势，在另一些领域（如金融、医疗）则是致命缺陷。
缓解策略包括结合专家系统、领域知识，以及让模型提供输出依据和参考出处。

主持人总结道，讨论揭示了需辩证看待幻觉与安全问题，甚至可将幻觉视为创造力源泉。关键在于明确问题定义，并采用针对性的技术或产品手段进行管理。

多模态发展路线 🎨

上一节我们探讨了单一模态下的模型缺陷，本节中我们来看看融合多种感知能力的发展方向——多模态。OpenAI发布的Sora模型引领了文生视频潮流，国内外厂商纷纷跟进。专家们对此路径发表了看法。

赵建博士认为应结合跟进与自主创新。

一方面需跟进技术潮流，另一方面应利用我国在应用场景、大数据和快速迭代方面的优势，在实际应用中发现问题、创新方法，走出一条特色道路。

黄雷博士强调了语言的核心枢纽地位。

大模型能统一任务是因为语言可以描述万物。当前多模态研究的主流pipeline是利用现有语言能力，将各模态与语言对齐。难点在于不经过语言枢纽、直接进行多模态到多模态的生成，因为图像等模态难以精确描述任务。通往AGI，语言仍是关键接口。

敖翔博士主张开辟差异化赛道，而非一味跟随。

如果总跟随美国发布的技术，会始终被动。语言是对世界的高阶编码。中国在人类社会生活产生的数据（如轨迹、消费）方面拥有优势，这些也是重要的模态。可以此为基础，训练新型多模态模型，从而扭转局势。

宋永博士认为多模态方向值得投入，但不应盲目跟风。

他以新能源汽车的换道超车为例，建议寻找新的切入点。例如，针对无人机场景，开发感知特定声音（如炮火、鸣笛）的特色多模态能力，在垂直领域实现超越。在通用文生视频等方向追赶，则面临数据构建的长期挑战。

主持人总结道，专家意见指出既要跟进前沿，更要结合本国优势（如电子支付、生活数据），探索差异化创新路径，有望在特定领域实现引领。

通往AGI之路 🚀

上一节讨论了多模态这一具体技术方向，本节中我们展望一个更宏大的目标：通用人工智能（AGI）的实现路径。当前存在“具身智能”（机器人等物理实体）和“纯数字智能”等不同路线设想。

宋永博士认为当前多模态离真正的AGI尚有距离。

人类接收的信息多样且包含复杂联想，而当前模型输入长度有限，缺乏对历史的深度理解。多模态仅是初步探索。

敖翔博士看好具身智能作为统一技术路线的方向。

具身智能内涵广泛，包括人形机器人、脑机接口等，旨在实现与人的共生。实现它需要计算机、控制、机器人等多学科合作，而非某一学科主导。

黄雷博士从技术发展脉络分析了具身智能兴起的必然性。

AGI的定义本身是难题。若以模仿人类为路径，人类智能包含感知、认知、决策、行动。在大模型显著提升了感知与认知能力后，自然轮到对决策后“行动”的研究，因此Embodied AI（具身体人工智能）在当前时间点受到关注是合乎逻辑的。

赵建博士认为AGI的实现是渐进、分阶段的。

当前大模型“读万卷书”的学习方式与人类学习机制区别很大。未来可能需要学习方式的颠覆性创新，才能更好地通向AGI。

主持人总结道，AGI的目标虽已确立，但实现路径未定，这恰恰是巨大的机遇。跨学科融合与技术交互探索，将激励我们长期前行。

产业方向与风险评估 ⚖️

上一节我们展望了远期目标，本节回归现实，探讨大模型在当下的产业落地。问题聚焦于：哪些AI+场景兼具研究与落地价值？以及其中存在哪些风险？

赵建博士分享了三个重点探索方向及风险应对。

方向：无人机综合管控、林业安防、基于大模型的智能体（Agent）研究（特别是工具使用方向）。
风险与应对：主要包括数据安全与隐私、模型误导与不实信息、网络攻击与模型安全、偏见与不公*。应对措施包括净化训练数据、提升模型准确性与透明度、加强安全测试与伦理监管。

黄雷博士从技术可控性角度给出建议。

方向选择：对容错率低、精度要求极高的场景，当前大模型尚未成熟；对娱乐等容错性较高的场景则更易落地。
核心挑战：模型输出的可控性仍是技术难点，需通过产品或技术手段进行约束。

敖翔博士关注行业落地优先级与能源风险。

方向：数字化程度高、数据规整的行业（如金融、电信）会优先落地。
风险：需警惕各行业重复建设“行业大模型”带来的巨大能源消耗。建议统筹规划，推动联合构建与共享，避免资源浪费。

宋永博士将AI+分为能力提升与全新添加两类。

方向：当前价值主要体现在对已有AI场景（如智能客服、讲解）的能力提升，尤其在交互维度。全新添加AI的场景则较少。
核心：AI+更多是在原有基础上增加AI的深度。

主持人总结道，行业大模型的发展道阻且长，需在探索价值的同时，密切关注能耗、可控性等风险，需要业界共同努力。

现场问答环节 💬

最后，我们整理了针对各位嘉宾的现场提问。

问题给宋永博士：在产业应用中，强化学习必要吗？相对SFT有何优劣？

回答：非常必要。针对不同场景对模型能力的特定要求，需要进行场景化的强化学习（如PPO、DPO）或SFT，以实现能力的定向提升。

问题给敖翔博士：在算力有限下，对小模型应用有何思考？

回答：展望中提到，未来若能在参数训练层面实现结合，将是更好的方式。

问题给黄雷博士：LN网络在回归和生成任务上是否有万能学习能力？

回答：回归任务在理论上可行（非无穷深，或需无穷宽等机制），证明复杂仍在进行。生成任务可拆解为分类或回归问题，但如何条件化是重要的理论研究方向。

问题给赵建博士：大模型将增加哪些就业岗位？对个人技能有何要求？

回答：未来更需要系统工程思维和技能，以问题为导向进行创新。基于Agent的智能助手（如医疗、法律、穿搭顾问）是重要方向，欢迎共同探索。

问题给主持人：如何客观评估数据质量？

回答：首先需定义何为高质量。例如，“广告”信息可能蕴含创意，适当学习或有裨益；“黄赌毒”信息如同社会教育，让模型在受控环境下接触并学会分辨，可能比完全隔绝更能提升其“抵抗力”。这取决于对数据作用的理解。

本节课中，我们一起学习了专家们对大模型核心挑战（幻觉与安全）、技术趋势（多模态）、终极目标（AGI）以及产业落地（方向与风险）的深刻见解。讨论强调需辩证看待技术特性，结合自身优势创新，并在积极应用中审慎管理风险。这场思辨为我们应对大模型时代的变革提供了宝贵的多维视角。

大语言模型技术论坛（全）：论坛背景与嘉宾介绍 🎤

在本节课中，我们将学习本次大语言模型技术论坛的背景设定与首位主讲嘉宾的详细介绍。

尊敬的各位来宾，大家下午好。欢迎大家来到大语言模型论坛。大模型这个名词，在座的所有听众应该都很清楚。这是*两年最前沿的技术。

这也是到目前为止，最有可能实现AGI（通用人工智能）的一条技术路径。但同时，我相信很多人也有很多疑问。例如，大模型是如何训练出来的。大模型底层的工作机制是如何建立的。

我们今天这个论坛，无法对所有问题都给出非常确切的答案。但我们试图针对这些核心问题，进行一次深入的探讨。我们这次技术论坛，整体上定位为技术上比较硬核的论坛。

我们邀请了全国顶尖高校，以及训练大模型的顶尖公司中的青年技术人员，来为我们进行讲解。论坛后面还有一个小组讨论环节，用以探讨最底层、最核心的一些技术问题。

现在我们首先开始第一个报告。第一个报告来自于北京大学的赫迪老师。我先简单介绍一下赫迪老师。

以下是赫迪老师的主要背景介绍：

现任职务：赫迪老师是北京大学智能学院助理教授。
曾任职务：他曾是微软亚洲研究院的主管研究员。
研究方向：他所从事的方向主要是机器学习算法与理论方向的研究工作。
学术成果：他已经在重要的期刊会议上发表多篇论文，引用次数超过了8000次。
行业影响：他所设计的模型和算法，多次被DeepMind、OpenAI、微软、Meta等国际顶尖机构所使用。
所获荣誉：他曾获得机器学习顶级国际会议ICLR的杰出论文奖，以及ICLR 2024的杰出论文提名奖。

下面我们邀请赫迪老师开始报告。

本节课中，我们一起学习了本次论坛旨在探讨大语言模型核心技术的硬核定位，并详细了解了首位主讲人——北京大学赫迪教授的杰出学术与行业背景。接下来，我们将进入赫迪老师的正式技术分享。

课程名称：大语言模型理论基础 - P2：是否所有Transformer变体都具备思维链推理能力？ 🤔

概述

在本节课中，我们将探讨大语言模型的核心架构——Transformer及其各类高效变体（Efficient Transformers）的理论表达能力。我们将重点关注一个核心问题：这些旨在提升计算效率的模型变体，是否依然具备像标准Transformer那样进行复杂思维链（Chain-of-Thought）推理的能力？ 我们将从理论分析和实验证据两个层面来解答这个问题。

Transformer的核心地位与挑战 🏆

大语言模型是当前工业界、学术界和创业界共同关注的热点。其强大能力背后，Transformer模型结构是最关键的技术支柱之一。当然，英伟达等公司提供的强大算力支持也功不可没。

然而，Transformer并非没有竞争对手。国内外已有大量研究工作试图挑战其“王座”。这主要是因为Transformer存在一个显著问题：效率问题。其核心机制自注意力（Self-Attention） 在处理长序列时速度非常慢，导致模型理解和生成长序列内容需要耗费大量时间。

为了解决这个问题，学术界和工业界设计了多种方法，它们统称为 高效Transformer（Efficient Transformer）。

高效Transformer的主要技术路线 🛣️

以下是几种基础的高效Transformer技术路线：

稀疏注意力（Sparse Transformer）：通过减少需要计算的键值对（Key-Value Pair） 数量来提升效率。代表工作包括GPT-2。
低秩注意力（Low-Rank Transformer）：通过降低序列长度等维度的计算复杂度来提升效率。代表工作如Meta的Informer。
线性注意力（Linear Transformer）：通过简化Softmax中的计算来提升效率。

以上三种基础方法可以相互组合，衍生出众多模型变种。例如，目前知名的S4、Mamba（及其Mamba-2）、国内的RWKV、微软的RetNet等模型，都围绕类似思路试图降低Transformer的计算开销。

模型选择的根本问题 ❓

面对如此多的Transformer变体，一个根本性问题随之产生：在实际任务中，我们该如何选择模型？或者说，究竟哪一个模型能完美替代标准Transformer？

为了回答这个问题，我们首先设想几种可能的情况。假设我们有一个任务A，目标是使用类Transformer结构来解决它。

情况一：所有高效Transformer都能以相同的模型宽度和深度解决任务A，且速度比标准Transformer快。那么，高效Transformer无疑是更好的选择。
情况二：所有高效Transformer都无法解决任务A，但标准Transformer可以。那么结论是，这些高效Transformer可能“不奏效”。如果任务A至关重要，从理论上证明高效Transformer无法解决，那么这条技术路线可能就走不通。
情况三（棘手情况）：高效Transformer也能解决任务A，但需要比标准Transformer更多的参数（如更深的层数或更宽的宽度）。这时，我们需要仔细计算和比较两种模型解决该任务的总计算时间。

第三种情况引出了一个核心的理论问题：这些不同网络结构（Transformer, RWKV, Mamba, RetNet等）的表达能力上限究竟是什么？它们能做哪些任务，不能做哪些任务？

深度学习理论：从通用*似定理到新挑战 📚

表达能力的上限是深度学习理论中的一个经典问题。早在20世纪80年代，通用*似定理（Universal Approximation Theorem） 就指出：一个足够宽、足够深的神经网络（如MLP）可以在连续空间内逼*任何连续函数。

然而，这个理论对现代大语言模型的指导意义有限，原因在于它的两个关键假设与大模型的实际情况不符：

输入/输出空间：定理假设输入和输出是连续（Continuous） 空间中的值。但大模型的输入和输出都是离散的词元（Token），来自一个有限的词汇表。这是一个序列到序列（Sequence-to-Sequence） 的映射，而非连续空间上的映射。
计算精度：大模型的训练和推理都使用有限精度（Finite Precision），如BF16或FP16。在这种精度限制下，模型内部的表示和计算在某种意义上都不是连续的。

因此，在“模型非连续映射”和“任务非连续”的现代设定下，传统的表达能力理论意义不大。这意味着，我们对于当前所使用的语言模型的能力上限和局限实际上知之甚少。我们需要开发适用于当前实际情况的新理论。

新理论聚焦：思维链与推理能力的关键作用 🔗

*期理论研究主要围绕理解大模型的表达能力展开。其中，学术界特别关注大模型解决推理、数学和规划问题的能力，因为这些是相比之前的BERT模型所展现出的新能力。

在新的理论假设下（考虑序列到序列映射和低精度训练），我们得到了一个重要结论：在大语言模型中，思维链（Chain-of-Thought, CoT）对于规划和推理至关重要。

为了说明这一点，需要两方面的理论支撑：

直接生成答案的局限性：理论上可以证明，如果希望一个Transformer直接生成复杂问题（如四则运算）的答案，这是不可行的。因为直接生成答案所对应的计算复杂度类别是TC⁰，这是一个非常小的复杂度类别。而许多推理和规划问题的复杂度远高于TC⁰。
思维链带来的能力提升：相反，如果可以引导Transformer逐步生成答案（即使用思维链），先生成第一个中间步骤，再基于此生成下一步，如此反复直至最终答案，那么其表达能力将远超TC⁰。这是因为在长思维链中，模型执行了多次Transformer操作，所带来的非线性能力提升远大于直接生成答案。

一个最新的工作结论是：Transformer结合思维链后，能够在多项式步骤内解决所有的P问题。这为Transformer（尤其是结合COT后）的表达能力提供了一个非常强的刻画。

核心问题：高效Transformer具备推理能力吗？ ⚙️

上一节我们介绍了标准Transformer结合思维链后的强大推理能力。现在，我们回到最初的核心问题：那些旨在提升效率的Transformer变体，是否同样具备解决复杂推理问题的能力？

我们选择了一个有代表性的推理问题作为切入点：动态规划（Dynamic Programming） 问题。假设推理长度为L，标准Transformer结合COT解决此类问题的计算复杂度为 O(L²)。

然而，理论分析给出了一个令人遗憾的结论：我们之前提到的许多高效Transformer（如Sparse Transformer, Linear Transformer）本身并不具备解决任何动态规划问题的能力。 也就是说，对于一个已经确定深度和宽度的恒定大小的高效Transformer模型，理论上可以证明它无法解决所有动态规划问题。

这是一个比较负面的结果，它告诉我们，许多高效结构在解决复杂推理问题时可能会遇到本质性的困难。

高效Transformer获得推理能力的代价 💰

既然恒定大小的模型不行，那么什么样的高效Transformer才有可能解决推理问题呢？理论给出了答案：你需要一个比标准Transformer更大的模型。

具体来说，我们的研究展示了两种特定高效Transformer的情况：

对于Sparse Transformer和Linear Transformer，如果希望它们具备解决推理问题的能力，那么其模型的隐藏层宽度（Hidden Dimension） 需要随着序列长度L增长，其增长规模大约是 √L。

关键在于，即使在这种宽度随长度增长的设计下，这些高效Transformer解决动态规划问题的计算复杂度也变成了 O(L²)，这与标准Transformer无异。

这意味着：如果你希望一个高效Transformer能够解决推理问题，你就不能使用和标准Transformer一样大的模型，而需要一个更大的模型。但当模型变大后，这些“高效”模型也就失去了其速度优势。

实验佐证 🧪

我们在相对简单的任务上进行了实验，例如四则运算。实验比较了三种模型结构：标准Transformer、Linear Transformer和Sparse Transformer。

以下是实验的核心观察：

横轴代表模型维度（Dimension），纵轴代表问题难度，颜色越亮代表模型解决了该问题。
标准Transformer：在相对较小的维度上就能高效解决大部分问题（图中黑色点很少）。
Linear Transformer 和 Sparse Transformer：需要比标准Transformer更宽的模型宽度才能解决相同问题（图中黑色点很多）。
例如，对于“最长上升子序列”问题，Sparse Transformer即使在维度达到512或1024时也无法解决，而标准Transformer在维度为256时即可解决。

这些实验有力地佐证了我们的理论发现。

总结与展望 🎯

本节课我们一起学习了关于Transformer及其高效变体理论表达能力的核心内容。

对高效Transformer的能力需保持谨慎：我们可能对许多所谓“高效”Transformer的能力过于乐观。*期一系列理论工作（包括我们自己的工作）表明，高效Transformer在解决复杂推理问题上可能并不高效，其与标准Transformer之间的能力差距可能非常大，甚至难以跨越。
混合架构（Hybrid Model）成为新方向：正因为看到了纯高效结构的局限性，*期一个热门方向是采用混合模型。例如，微软的Phi-3模型在其技术报告中就提到使用了混合层。Mamba团队的最新工作也发现，一个由45%的Mamba层、5%的密集注意力层和50%的MLP层组成的混合模型，能达到最佳的效果和效率*衡。

总而言之，理解不同模型结构的理论能力上限，对于在实际中选择和设计合适的大模型架构至关重要。标准Transformer结合思维链在推理方面展现出强大而稳固的理论基础，而许多高效变体要获得同等能力则需要付出额外的代价。混合模型可能是未来兼顾效率与能力的一个有前景的方向。

课程名称：大语言模型能力涌现与智能体构建 🧠

课程编号：P3

在本节课中，我们将学习大语言模型能力涌现现象的本质、如何通过预训练损失（loss）来理解和预测模型能力，以及如何构建具备长上下文处理和智能体（Agent）能力的大模型。我们将通过具体实验、技术策略和实际案例，深入探讨这些核心概念。

概述：大模型能力涌现的重新审视

过去的研究认为，大模型的能力涌现（Emergent Ability）主要与模型参数量或计算量达到某个阈值相关。然而，最*的实验表明，预训练损失（loss） 才是更关键的因素。当损失降低到一定程度时，模型会在复杂任务上突然表现出能力跃升，这种现象与模型大小无关。

核心发现：损失（Loss）是关键指标

上一节我们介绍了能力涌现的传统观点，本节中我们来看看基于损失的新视角。我们通过训练不同规模的模型（从1.5B到32B参数），并在固定计算预算下观察它们在各种任务上的表现，得出了一个重要结论：模型在目标任务上的性能与预训练损失高度相关，而与模型参数量关系不大。

具体来说，在数学推理（如GSM8K）和知识问答（如MMLU）等复杂任务上，当预训练损失降低到约2.2时，模型性能会出现显著提升，即“涌现”现象。这可以通过以下公式概括：

涌现条件：
当预训练损失 ( L < L_{\text{threshold}} ) 时，模型在任务 ( T ) 上的性能 ( P ) 出现非线性提升。

# 伪代码：判断能力是否涌现
def is_emergent(loss, threshold=2.2):
    if loss < threshold:
        return True  # 能力涌现
    else:
        return False  # 能力未涌现

实现长上下文处理：技术与策略

有了对能力涌现的理解，我们接下来探索如何提升模型的实际能力，特别是处理长上下文（Long Context）的能力。这对于构建智能体至关重要，因为智能体任务通常涉及多步决策和外部工具调用，需要模型处理很长的输入序列。

以下是实现长上下文处理的关键策略：

预训练与外推（Pre-training & Extrapolation）：在预训练阶段逐步增加序列长度，使模型学会处理更长文本。
对齐阶段优化（Instruction Tuning for Long Context）：在对齐（微调）阶段，专门使用长文本指令数据，确保模型在长上下文任务上表现良好。
数据混合与损失加权（Data Mixing & Loss Weighting）：精心配比长、短文本数据，并对长文本的损失贡献进行加权，以*衡模型在不同长度输入上的性能。
训练效率优化（Packing & Sorted Batching）：采用数据打包（Packing）和排序批处理（Sorted Batching）技术，减少因序列长度不一造成的计算浪费（气泡时间），将训练效率提升2-3倍。

通过上述策略，我们成功将模型的上下文长度从常规的4K/8K逐步扩展到128K，乃至最新的100万token（约200万汉字）。

构建智能体（Agent）能力：数据与训练

模型具备长上下文能力后，下一步是赋予其智能体能力，即让模型能够自主规划、调用外部工具（如搜索引擎、代码解释器）来完成复杂任务。实现这一目标的主要挑战在于数据收集。

智能体任务的数据不是简单的问答对，而是一个包含多步决策、可能分支和外部交互的轨迹（Trajectory）。为此，我们设计并开源了AgentInstruct数据集。

以下是构建智能体能力的核心步骤：

环境模拟与数据生成：在六个模拟环境中让模型自主探索，生成大量的智能体任务轨迹数据。
混合训练与泛化：仅使用约1800条高质量的轨迹数据与通用指令数据混合进行微调，模型就能获得强大的智能体能力，并能泛化到未见过的任务上。
能力保持：在提升智能体能力的同时，通过数据配比和训练技巧，确保模型在MMLU、代码等通用任务上的性能不下降。

# 伪代码：智能体任务执行流程
def agent_execute(task, model):
    thought = model.plan(task)  # 规划
    if need_tool(thought):
        tool, params = model.select_tool(thought)  # 选择工具
        result = call_external_tool(tool, params)  # 调用工具
        answer = model.process_result(result)  # 处理结果
    else:
        answer = model.generate(task)  # 直接生成
    return answer

多模态与具身智能体：视觉与界面交互

智能体不仅需要处理文本，还需要像人类一样理解并操作图形用户界面（GUI）。我们进一步探索了多模态模型在智能体领域的应用。

以下是相关模型与技术的介绍：

CogVLM（视觉语言模型）：在冻结的大语言模型旁接入一个视觉编码器，以较低成本实现图像与语言的对齐。
CogAgent（视觉智能体模型）：针对手机、电脑屏幕等高清图像，引入交叉注意力（Cross-Attention）机制，使模型能以较低计算开销同时处理低分辨率概览和高分辨率细节，从而精准操作UI元素。
Auto Web GUI：通过强化学习（DPO）和拒绝采样等技术，训练模型自动完成网页操作任务，例如商品筛选、信息填写等。

这些技术使模型能够“看懂”屏幕并执行点击、输入等操作，向真正的具身智能迈进一步。

总结与展望

本节课中我们一起学习了：

能力涌现的新视角：大模型的能力涌现更紧密地与预训练损失（loss）挂钩，而非单纯的模型规模。
长上下文处理：通过预训练外推、对齐阶段优化和训练技巧，可以高效地扩展模型的上下文处理能力。
智能体能力构建：核心在于高质量的轨迹数据。通过少量数据混合训练，即可让模型获得强大的规划与工具调用能力，且不影响通用性能。
多模态智能体：通过视觉语言模型和专门架构，让模型具备理解和操作图形界面的能力。

当前，无论是从模型规模扩展（Scaling Law）还是硬件算力增长来看，大模型的发展远未触及天花板。未来的挑战与机遇在于如何更高效、更智能地进行扩展，这需要算法、工程与理论研究的共同突破。希望本课程内容能为你探索大模型的世界提供有益的启发。

课程名称：大语言模型知识机理与编辑问题 🧠 #P4

概述

在本节课中，我们将要学习大语言模型背后知识的存储、表达机理，以及如何基于这些理解对模型中的知识进行精准、高效的编辑与更新。课程内容基于对现有研究的分析与假说，旨在为初学者提供一个清晰、直观的理解框架。

一、大语言模型的知识存储与表达假说 🤔

大语言模型在许多任务上表现出色，但其背后的运作原理尚不完全清晰。本节我们将探讨模型如何存储和表达人类知识。

目前，业界主要从两个维度进行分析：

自底向上（还原论）：从神经元或基础组件层面进行分析。例如，“知识神经元”假说认为，Transformer模型中的某些MLP层或特定神经元可能表征了特定的事实知识。

自顶向下（整体论）：从知识关联与协作的整体视角进行分析。知识并非孤立存储，知识与知识之间存在复杂的关联。借鉴人脑不同区域协同工作的现象，我们提出了“知识回路”的假说。

上一节我们介绍了分析模型知识机理的两个基本视角。本节中，我们来看看“知识回路”这一整体论假说的具体内容。

知识回路假说

该假说认为，一条知识的表达并非依赖于单个神经元，而是由模型中多个关键组件（如特定的MLP层、注意力头等）通过模块化组合、协同运作来实现的。这些组件共同构成了一条表征特定知识的“回路”。

例如，在分析GPT-2模型时，我们发现一条事实知识的回路可能涉及多个MLP层和注意力头。其中：

某些组件负责编码关系。
某些组件负责编码实体。
某些注意力头（如 move head）负责在组件间传递实体信息。
还存在一些“关系头”（relating head），它们可能被多条不同的知识所共享。

实验表明，仅使用发现的“知识回路”就能维持模型约70%的原始性能，这在一定程度上支持了回路是知识核心载体的观点。

二、用知识回路解释模型现象 🔍

基于知识回路的视角，我们可以尝试解释大语言模型的一些常见现象。

以下是两个具体现象的分析：

幻觉问题：当模型产生“幻觉”（即输出错误事实）时，其对应的知识回路可能出现错误的信号流向。例如，实验中发现，在某一层的特定节点上出现了错误的信息流，导致模型最终输出了错误答案，而正确的知识回路则不会经过此错误节点。
上下文学习（In-Context Learning）：当给模型提供示例（demonstration）后，模型似乎“瞬间”学会了新知识。回路分析发现，此时模型中会激活一些特定的注意力头，这些注意力头专注于示例中的信息，并将模型的推理引导至正确答案。这些头可能充当了临时“检索”或“关注”新知识的关键角色。

三、大语言模型的知识编辑 ✏️

理解了知识可能的存储机制后，我们自然希望对其进行操作，即知识编辑。这对于修正过时、错误或有毒的知识至关重要。

知识编辑的核心挑战在于：直接修改模型参数可能破坏其原有的“长期记忆”，导致模型性能崩溃。为此，我们借鉴了人类记忆的“工作记忆”与“长期记忆”区分机制。

工作记忆编辑法：MESA

我们提出了一种名为 MESA 的方法，其核心思想是为大模型附加一个可编辑的“工作记忆”模块，而非直接改动核心的“长期记忆”。

其实现思路如下：

旁路工作记忆：在关键的知识存储层（如MLP层）旁，增加一个并行的“工作记忆”回路。该回路的初始参数从原始模型拷贝而来。
知识分区与更新：将新知识按时间或主题进行分区存储。每个分区都可以独立更新，就像我们记录不同日期发生的事情。
知识利用：模型在需要时，可以通过两种方式利用工作记忆中的知识：
1. 合并（Merge）：将所有相关分区的知识合并后使用。
2. 检索（Retrieve）：根据当前查询，动态检索最相关的知识分区。
门控机制：设计一个门控单元，让模型自动决定何时使用原始的“长期记忆”，何时使用“工作记忆”。其优化目标是：若任务与新增知识相关，则倾向使用工作记忆；若与模型原有知识相关，则使用长期记忆。公式可以简化为一个路由决策：
路由信号 = σ(查询向量 · 门控权重)

这种方法在持续编辑大量知识（如上千条）后，仍能较好地保持模型的原始性能，同时有效集成新知识。

四、知识擦除：提升模型安全性 🛡️

除了增加知识，有时我们需要让模型“忘记”某些有害或敏感的知识，即知识擦除。

传统方法（如微调、对齐训练）可能只是让模型学会了绕过这些敏感话题，但知识本身仍存在于参数中。我们的目标是更精准地定位并削弱这些知识的表征。

以下是实现知识擦除的一个简单基线方法步骤：

构建安全数据集：收集和构建包含有害查询及期望的安全回复的数据集。
定位有毒表征区域：通过对比模型在处理有害输入和安全输入时的内部激活差异，定位对有毒信息响应最强烈的网络区域。
参数编辑与约束：对定位到的区域参数进行定向修改，以降低其对应有毒知识的权重。同时，在优化目标中加入通用任务的正则项，以尽量保持模型的通用能力。

实验表明，这种方法能有效降低模型输出有毒内容的概率，且对通用能力的负面影响相对可控。与绕过机制不同，编辑法直接削弱了有毒知识本身的表征强度。

五、工具与总结展望 🛠️

开源工具：EasyEdit

我们将上述知识编辑与擦除的方法集成到了开源工具 EasyEdit 中，它支持多种主流的中英文大语言模型，方便研究者和开发者进行实验与应用。

总结

本节课中我们一起学习了：

理解大模型知识机理的“知识回路”假说。
如何利用该假说解释模型的幻觉和上下文学习现象。
基于“工作记忆”理念的 MESA 知识新增/编辑方法。
面向模型安全的知识精准擦除技术。

展望与挑战

尽管已有进展，但大模型知识机理与编辑仍面临巨大挑战：

机理理解尚浅：目前的解释多为假说，对知识存储和更新的精确规律把握不足。例如，反复编辑同一条知识可能导致模型用不同回路进行表达，这与符号系统的知识更新截然不同。
终身编辑难题：实现长期、精准、不影响性能的知识编辑仍然困难。
新架构的未知性：如Mamba等新架构的知识机理可能与Transformer不同，需要重新探索。

未来，表征工程（通过编辑模型内部表征来控制其行为）可能是一个富有前景的方向。同时，对大模型机理的研究，正越来越像脑科学，需要通过大量外部实验和干预来逐步揭开这个“黑盒”的奥秘。最终目标是建立一个完备的知识存储、表达与更新的理论体系。

课程名称：大语言模型技术解析 - P5：小钢炮MiniCPM的炼成之路 🚀

概述

在本节课中，我们将跟随曾国洋老师的分享，深入探讨MiniCPM系列端侧大语言模型的训练技术、核心发现与实践经验。课程将涵盖从模型压缩趋势、训练方法优化到多模态能力扩展的全过程，旨在为初学者清晰地揭示如何在有限参数量下打造高性能模型。

1. 端侧大模型的必然趋势 📈

上一节我们介绍了课程背景，本节中我们来看看为何端侧模型会成为大模型发展的必然方向。

从历史数据观察，达到GPT-3（175B）初始知识水*的模型，其参数量正随时间推移而持续减小。研究发现，模型的知识密度大约每八个月提升一倍。这意味着，随着训练技术的进步，越来越多的知识可以被压缩到更小的模型中。

这类似于计算机硬件的发展历程：从占据数个房间的庞大机器，到如今可握于掌中的智能手机。因此，大模型向端侧（如手机、嵌入式设备）发展是技术演进的必然结果。在多模态领域，这一趋势同样显著。

2. MiniCPM系列模型简介 🤖

在理解了趋势后，我们正式介绍本节课的核心——MiniCPM系列模型。

今年早些时候，我们发布了MiniCPM系列，主要包括：

MiniCPM 1.0：包含2B和1.2B参数版本。
MiniCPM-V：支持多模态的版本。
MiniCPM-V 2.5：多模态模型的升级版。

最初发布的MiniCPM 2B模型是一个意外的成果。它在多项评测中达到了与同期知名模型（如Mistral、Gemma）相当的水*，这在当时的小规模参数量模型中是非常出色的表现。其成功源于我们在训练方法上的多项探索。

3. 核心训练技术探索 ⚙️

上一节我们了解了模型概貌，本节中我们深入其核心训练技术。

训练大模型时，调整超参数成本高昂，且不同规模模型的最优超参数不同。我们采用了一个基于 μP（Maximal Update Parametrization） 的框架。该框架能对参数进行归一化，使得不同规模的模型可以共享一套最优超参数集。

以下是我们的关键发现：

3.1 学习率（Learning Rate）的优化

实验表明，学习率是对模型效果影响最显著的单一超参数。一个合适的学习率不仅能加速训练，也关乎最终收敛的性能。

通过复现μP相关工作并进行验证，我们发现设置学习率为 lr = 0.01 能取得非常好的效果。这也是MiniCPM训练中选择0.01作为学习率的原因。

3.2 学习率调度器（LR Schedule）的创新

确定了初始学习率后，学习率在训练过程中的变化策略（调度器）同样关键。我们深入研究了常用的余弦退火（Cosine）调度器，发现其效果高度依赖于预设的总训练步数。

我们进行了大量实验，最终提出了一个更简单有效的调度策略：WSD（Warmup-Stable-Decay）调度器。

以下是WSD调度器的三个阶段：

Warmup（预热）：学习率从0线性增长至目标值（如0.01）。
Stable（稳定）：在相当长的时间内保持恒定的高学习率，使模型快速学习。
Decay（衰减）：逐步降低学习率，使损失（Loss）快速下降并收敛到更优值。

公式表示：lr_schedule = WSD(warmup_steps, stable_steps, decay_steps)

WSD的优势在于：

灵活性强：无需在训练前精确设定总步数，可随时中断或继续训练，只需在最后执行Decay阶段即可优化模型。
效果显著：实验显示，在Decay阶段后，模型能达到比Cosine调度器更低的损失。

3.3 数据效率与模型缩放

我们验证了 Chinchilla缩放定律，该定律描述了在给定计算预算下，模型参数量与训练数据量之间的最优配比。

使用相同的数据配方，采用我们的训练方法得到的MiniCPM 2B模型（最终loss约2.4），其知识水*相当于遵循Chinchilla定律训练的约9B参数模型。这就是MiniCPM能以小博大的核心原因之一。

4. 多模态能力扩展：MiniCPM-V 👁️🗨️

在强大的文本基座模型基础上，我们为其扩展了视觉理解能力，推出了MiniCPM-V。

我们发现，图文多模态模型的性能极大依赖于其文本基座的能力。因此，我们将强大的MiniCPM作为基座，使其在多模态任务上能超越参数量数倍于自身的模型。

4.1 挑战：高分辨率图像编码

多模态模型面临一个共同挑战：如何统一编码不同尺寸、尤其是高分辨率的图像。现有方案存在局限：

GPT-4V的切片重叠法：在计数等任务中，可能因物体在切片重叠处被重复计算而出错。
LLaVA-1.5的填充法：在极端长宽比图像上效果不佳。

4.2 解决方案：动态分辨率编码

我们提出了动态多分辨率编码方法。其核心思想是：将高分辨率图像分割成多个块时，应尽量使每个块的长宽比接*模型视觉编码器（ViT）预训练时的最佳比例。

算法思路简述：

计算输入图像总像素与训练时单图像素的标准倍数 N。
枚举所有能将图像切分为 N 个块的可能方案。
从所有方案中，选择每个子块的长宽比最接*预训练标准的方案作为最终切分方式。

这种方法能自适应处理各种分辨率、长宽比的图像，包括非常长的图文，并实现精准的OCR（光学字符识别）。

4.3 效果展示

基于此技术的MiniCPM-V 2.5（结合了更强的基座如LLaMA-3）在综合能力上达到了GPT-4V的水*，并在OCR任务上表现突出。

以下是其能力的部分体现：

精准OCR：识别中英文、票据信息，并可按JSON格式进行信息抽取。
复杂图像理解：理解流程图、提取表格信息等传统难点任务。
跨语言多模态：结合模型的OCR与多语言能力，实现对多种语言图文的理解。

5. 总结与展望 🌟

本节课中我们一起学习了MiniCPM系列端侧大模型的炼成之路。

我们首先分析了端侧模型是大势所趋，然后介绍了MiniCPM系列模型。其核心技术在于训练方法的深度优化，包括使用μP框架确定最优学习率、创新性地提出WSD学习率调度器，以及高效利用数据遵循缩放定律。在此基础上，我们通过动态多分辨率编码技术为其扩展了强大的多模态能力，使其在极小参数量下实现了媲美顶级大模型的效果。

展望未来，我们将继续沿着“大模型摩尔定律”推进，目标是让GPT-3.5水*的模型真正流畅运行在手机等端侧设备上，并持续为模型添加更多模态的支持。端侧AI的能力必将随着硬件发展与算法进步而越来越强。

大语言模型预训练的效率优化 🚀

课程概述

在本节课中，我们将学习大语言模型预训练阶段效率优化的核心方法与思路。课程内容将围绕如何在不盲目扩大模型规模和数据量的前提下，通过优化模型结构、训练方法和数据工程，在单位时间内获得更高的模型性能。

为什么要进行效率优化？

上一节我们概述了课程目标，本节中我们来看看效率优化的必要性。

大模型时代的一个显著特征是模型和数据规模巨大。提升模型能力的一个关键方法是遵循扩展定律，即不断扩展模型参数和训练数据量。然而，在实际训练中，除了无限制地扩展规模，我们还需要思考如何在单位时间内，让模型从数据中学习到更多、更有效的知识，实现更高的智能压缩效率。这正是当前大语言模型预训练和微调阶段都在努力的方向。

核心原理：扩展定律

理解了效率优化的目标后，我们需要了解其背后的核心指导原则——扩展定律。

语言模型本质上是对语言序列的概率进行建模。其核心是根据前面的词序列预测下一个词的概率，即“下一个词预测”。传统的语言模型如N-gram基于前几个词进行预测。而现代大模型普遍采用自回归模型范式，依靠神经网络根据前面若干个词直接预测后续词。

当前语言模型发展的一个重要特征是规模越来越大，无论是训练数据还是参数规模。扩展定律被认为是通往通用人工智能道路上最重要的突破性因素之一。从模型发展历程看，早期我们专注于特征工程和特定任务的模型，2010年后深度学习兴起，我们研究如何用单一模型处理多种任务。而2022年后，大家普遍认识到“做大模型”是统一各种能力的关键。

扩展定律可以形式化地表达为对损失函数的预测。语言模型的损失可分为一个不可降低的下界和一个可降低的残余损失。无论模型多大、数据多少，损失最终会趋*于一个下界。而通过扩大参数规模、增加数据量或延长训练时间，可以降低残余损失。这就是扩展定律的基本思想。

目前对扩展定律有多种表达方式。例如，OpenAI提出损失与数据量、计算资源和参数量三个指标相关，并通过训练不同规模的模型来拟合定律。另一个经典表达来自Chinchilla，它将损失视为一个幂律函数。

我们当前进行的许多优化工作，无论是模型结构优化还是训练方案调整，本质上都是在优化这个扩展定律，目标是让损失降得更低。然而，扩展定律的存在性虽然被广泛接受，但对其具体参数的拟合却非常脆弱和粗略。最*的研究表明，需要非常多的参数样本才能准确拟合出定律中的超参数。如果拟合错误，会对结果预估产生巨大影响。

因此，提升模型性能不仅可以通过“暴力”扩大模型尺寸和增加数据量来实现，还可以通过以下更高效的方式优化扩展定律中的参数：

设计更好的模型结构来提升参数效率。
使用更高质量的数据来提升数据效率。
应用更好的训练技巧来同时优化参数和数据效率。

模型结构优化

上一节我们介绍了扩展定律是效率优化的总纲，本节中我们来看看如何从模型结构层面进行优化。

注意力机制优化

Transformer架构的核心是注意力机制，但其计算复杂度与序列长度的*方成正比，在处理长文本时效率低下。因此，许多工作致力于降低其复杂度。

以下是几种主要的优化思路：

稀疏注意力：将全连接的注意力矩阵变为稀疏的，例如Blockwise Attention，将复杂度从O(N²)降低到更小的级别。
注意力模式改进：研究发现，当前模型对序列开头部分的注意力关注过多。基于此，StreamingLLM等工作提出了对注意力机制的改造，取得了不错的效果。

替代架构探索

除了优化注意力机制，也有研究探索全新的模型架构来替代Transformer。

循环神经网络复兴： RNN因其递归特性，理论上非常适合序列建模，但在大模型时代一度被忽视。最*，Mamba、RWKV等基于状态空间模型或类似RNN结构的新架构重新受到关注。它们通过递归机制将历史信息压缩在一个固定状态中，避免了计算复杂度随序列长度*方增长的问题，在长文本处理和效率上展现出潜力。
基于记忆的方法：这类方法将信息存储在内部或外部的固定容量记忆中，以减少对历史信息的直接依赖，同样旨在控制计算复杂度的增长。

模型冗余与本质空间

当前的大语言模型可能存在显著冗余。例如，实验发现将模型末尾的若干层直接移除，对模型性能影响甚微。这提示我们，模型优化可能需要寻找一个更紧凑的“本质空间”来表示知识。

这类似于深度学习中的“彩票假设”：只有当模型足够大时，才能从中找到一个性能优良的紧凑子网络。未来的模型优化可能需要致力于更高效地找到这个本质空间，从而降低大模型的训练和推理代价。

训练方法与超参数优化

在讨论了模型结构之后，我们转向训练过程本身的优化。

优化器选择

优化器的选择对训练效率至关重要。目前大语言模型预训练普遍使用AdamW优化器，但这并非绝对真理。

Adam vs. SGD：在传统机器学习中，关于Adam和SGD孰优孰劣存在争议。但在大语言模型领域，Adam通常表现更好。一个关键原因是Adam引入了二阶动量信息，缓解了损失函数曲面的“尖锐性”，使得优化过程更*滑，更容易找到好的极小值点。
处理长尾数据：研究表明，Adam在处理低频（长尾）数据模式时比SGD更具优势。这对于学习小众语言或罕见模式非常重要。
最新进展： Sophia等新型优化器通过对二阶信息进行*似，在大语言模型训练中实现了比Adam更快的收敛速度。

超参数与训练策略

模型结构和优化器确定后，超参数设置和训练策略是影响效率的关键。

以下是几个重要的优化方向：

模型初始化：良好的初始化能让模型更快收敛到好的解。例如，Tensor Programs等方法通过小模型来指导大模型的参数初始化。
批量大小与学习率：寻找批量大小和学习率之间的最佳关系。研究表明，在一定范围内，采用合适的学习率衰减策略比追求某个精确的固定值更为重要。
学习率调度：分阶段的训练策略（如预热、稳定、衰减）在大模型时代被证明非常有效。
精度优化：采用混合精度训练，甚至FP8训练，可以显著减少显存占用并提升计算速度，但这与硬件支持紧密相关。

需要注意的是，许多训练技巧和超参数设置是在较小规模模型上调试得到的。当模型规模急剧扩大时，这些经验是否依然有效，目前尚无完全定论，这是效率优化面临的一个潜在风险。

数据工程优化

最后，我们探讨如何从数据层面提升训练效率。

数据工程的优化主要包括数据的筛选、采样、合成和组织。这里重点介绍采样策略的优化。

数据采样策略

当前不同模型采用不同的数据采样方法，但大多基于启发式规则，缺乏科学指导。

基于扩展定律的领域配比： *期研究提出，可以依据扩展定律，先训练小模型来探索不同数据领域的最佳混合比例，然后将此比例应用于大模型训练。这种方法可以用更少的数据量达到更好的模型困惑度。
细粒度Token采样：另一种思路是在句子内部进行细粒度采样，区分重要和不重要的Token。例如，ReaLM等方法通过优化Token级别的采样，在较短时间内训练出了性能优异的模型。

这些数据层面的优化，同样旨在单位时间内让模型学习到更有效的信息，从而提升扩展定律中的参数效率。

课程总结

本节课中，我们一起学习了大语言模型预训练效率优化的核心思路与方法。

我们首先明确了效率优化的目标是在有限资源下获得更高性能。接着，深入理解了指导这一切的扩展定律原理。然后，我们从三个主要方向探讨了优化手段：

模型结构优化：包括改进注意力机制、探索RNN等替代架构，以及思考如何减少模型冗余。
训练方法优化：涉及优化器选择、超参数调优以及训练策略的制定。
数据工程优化：重点是设计更科学的数据采样和配比策略。

所有这些工作的核心，都是围绕优化扩展定律中的关键参数，力求在单位时间内最大化模型的能力提升。然而，我们也需认识到，许多现有技巧本质上是人为引入的归纳偏置。从长远看，遵循扩展定律的第一性原理，持续扩大规模以涌现更高级的智能，可能仍是更根本的路径。效率优化则是在这条道路上，让我们走得更快、更稳的关键助力。

课程名称：大语言模型：过去、现在与未来 🧠

课程编号：P7

在本节课中，我们将学习大型语言模型（LLM）的发展历程、核心原理、训练方法以及未来展望。我们将从基础概念开始，逐步深入探讨模型缩放、训练策略以及如何通过人类反馈进行模型优化。

概述 📖

大型语言模型（LLM）是*年来人工智能领域的重要突破。它们通过海量数据和复杂模型结构，实现了对自然语言的理解与生成。本节课将回顾LLM的发展历史，分析其核心原理，并展望未来的发展方向。

大型语言模型简史 📜

上一节我们介绍了课程概述，本节中我们来看看大型语言模型的发展简史。

大型语言模型的发展速度极快。一年半前，我们还在使用像LLaMA这样的模型，而如今ChatGPT等技术已经迅速普及。这种技术的传播速度前所未有。哲学家尼克·博斯特罗姆曾说过：“当一项技术成功时，它就不再是人工智能了。”这一观点反映了人工智能技术的快速演进。随着ChatGPT的出现，我们似乎经历了一个历史转折点，人工智能从科幻概念变为现实。

什么是大型语言模型？ 🤔

上一节我们回顾了LLM的发展历史，本节中我们来探讨大型语言模型的核心定义。

大型语言模型本质上是一种基于Transformer架构的模型，通过大量数据进行训练。其核心任务是下一个令牌预测，即根据已有文本预测下一个可能出现的词汇。训练过程中，模型通过最小化损失函数来优化参数。

核心公式：

损失函数 = -∑ log P(下一个令牌 | 已有文本)

模型的性能可以通过两种方式提升：

增加模型参数数量（缩放模型大小）。
增加训练数据量（缩放数据规模）。

模型缩放的影响 ⚖️

上一节我们介绍了LLM的核心定义，本节中我们来看看模型缩放对性能的影响。

在GPT-3的研究中，OpenAI团队测量了模型缩放的影响。他们发现，对性能提升最大的因素是模型大小（即参数数量）。因此，GPT-3将参数数量从GPT-2的不到10亿提升到1750亿。仅通过增加参数数量，模型的准确性就得到了显著提升。

然而，DeepMind在后续研究中指出，OpenAI的实验协议存在缺陷。他们发现，数据缩放同样对性能有重要影响。在相同计算资源下，训练一个参数较少但数据量更大的模型（如Chinchilla）可能比训练一个参数庞大的模型（如Gopher）更有效。

训练与推理的*衡 ⚙️

上一节我们讨论了模型缩放的影响，本节中我们来看看训练与推理之间的*衡问题。

训练模型时，需要在参数数量和数据量之间找到最佳*衡。然而，在推理阶段，参数数量越多，计算需求越大，而数据量对推理效率没有直接影响。因此，我们可能过度训练了模型，导致推理效率低下。

为了解决这一问题，Meta团队开发了LLaMA系列模型。这些模型通过优化训练策略，在保持高性能的同时，大幅提升了推理效率。例如，LLaMA模型可以在树莓派等低功耗设备上运行，同时达到接*GPT-3的性能水*。

监督微调与人类反馈 🎯

上一节我们探讨了训练与推理的*衡，本节中我们来看看如何通过监督微调和人类反馈优化模型。

监督微调（SFT）是一种常见的模型优化方法。以下是其基本流程：

收集大量提示（例如“写一首关于大型语言模型的俳句”）。
由标注者编写高质量答案。
基于这些数据微调模型。

然而，标注高质量答案的成本较高。另一种更高效的方法是人类反馈强化学习（RLHF）。以下是RLHF的基本步骤：

收集提示，并由模型生成多个答案。
标注者只需选择偏好答案，无需编写完整答案。
训练一个奖励模型，用于评估答案质量。
通过强化学习优化模型。

核心代码示例：

# 奖励模型训练示例
reward_model.train(prompt, answer, human_feedback)
# 强化学习优化
model.optimize_with_rl(reward_model)

未来展望 🚀

上一节我们介绍了监督微调和人类反馈，本节中我们来看看大型语言模型的未来发展方向。

多模态输入输出：未来的模型将支持图像、语音、视频等多种模态的输入和输出，实现更丰富的交互体验。
智能代理：模型将具备规划、记忆和协调能力，能够执行复杂任务（如编写代码、搜索信息）。
机器人集成：模型将进一步与物理世界结合，推动机器人技术的发展。
计算资源优化：随着硬件成本的下降，模型训练和推理将变得更加高效。

未来的突破可能超出我们的预期。随着越来越多研究者加入这一领域，新的技术突破将不断涌现。

总结 📝

本节课中，我们一起学习了大型语言模型的发展历史、核心原理、训练方法以及未来展望。我们从模型缩放、训练与推理*衡、监督微调和人类反馈等方面进行了深入探讨。大型语言模型正在迅速演进，未来将在多模态交互、智能代理和机器人领域发挥更大作用。

注意：本教程基于Thomas Scialom在2024北京智源大会的演讲内容整理，旨在为初学者提供清晰、系统的学习资料。

大语言模型圆桌讨论：核心要素与未来展望 🧠

在本节课中，我们将一起探讨大语言模型发展的核心驱动力、面临的挑战以及未来的可能性。本次内容整理自一场专家圆桌讨论，我们将深入浅出地解析模型代际提升的关键、数据的作用、多模态融合、理论探索等核心议题。

模型代际提升的关键要素 🔑

上一节我们介绍了课程概述，本节中我们来看看专家们认为驱动大模型实现代际能力飞跃的核心要素是什么。

缩放定律：多位专家认为，缩放定律是产生模型代际巨大效果差异的最根本因素。该定律描述了模型性能与计算规模、数据规模之间的幂律关系。当对训练算法和模型的理解加深后，能够将性能曲线“向下*移”，从而带来指数级的提升。
数据质量与多样性：除了缩放定律，数据质量、数据多样性和数据配比的探索是另一个关键变量。从2023年到2024年，同一模型家族在相同算力下效果的显著提升，很大程度上归功于数据质量的优化。
系统工程：对于闭源模型而言，其背后可能是一个复杂的系统工程。从用户查询到最终输出，可能涉及多个模型的协同工作、安全策略处理、用户数据收集与反馈等机制，这些系统层面的优化也是模型表现优异的重要因素。

数据的现状与未来瓶颈 📊

上一节我们讨论了模型提升的要素，本节中我们聚焦于其中一个核心要素：数据。专家们探讨了数据是否会成为大模型发展的瓶颈。

数据理解是关键：目前，业界对“什么样的数据能激发何种模型能力”的理解正在加深，就像了解人体需要补充何种营养。对于推理、计算等特定能力的提升，需要探索并喂给模型相应的“食物”（数据）。
数据源并未枯竭：专家认为，对于顶尖公司而言，数据目前可能尚未成为训练GPT-5级别模型的瓶颈。他们可能拥有私有数据、多媒体转文本数据等多种数据来源。从更宏观角度看，互联网上已电子化的文本数据可能仅占人类产生文本总量的1%到5%，理论上仍有巨大挖掘空间。
合成数据的重要性：合成数据已成为突破数据限制、激发模型特定能力的重要手段。这与人类学习过程类似，例如考试题目就是知识点的“人造”整合。通过高质量合成数据，可以让模型学到更具泛化性的能力。
数据治理的挑战：随着互联网上机器生成的合成数据越来越多，带来了数据治理问题。低质量或来源不明的合成数据如果进入训练流程，可能对未来模型的训练产生负面影响。

语言模型与世界模型 🌍

上一节我们探讨了数据，本节中我们来看看模型的形态。以语言为核心的大模型，是否是描述世界知识的最终形态？

“外挂”多模态：当前一种主流方式是在强大的语言模型基础上，对齐训练好的视觉编码器等，这是一种轻便的方法，其核心驱动力仍是语言模型。
原生多模态模型：另一种方向是构建原生多模态模型，将所有模态的数据统一进行token化，训练一个联合模型。专家认为这可能更符合人类从视觉等多感官开始认知世界的学习过程，但对于某些模态是否友好、其优势究竟有多大，仍需探索。
语言的核心地位：有观点认为，自然语言是知识的一种非常“干净”的高质量数据形式。但仅靠语言可能无法掌握所有类型的知识（如三维空间感知），因此多模态融合是必要的。从长远看，未来模型可能不再有明确的“核心”概念，而是真正的端到端多模态模型。
对“世界模型”的思考：有专家提出了一个根本性问题：我们创造模型的目标，是否一定是模仿或达到人类智能？是否需要构建一个完整的“世界模型”？这仍是一个开放的问题。

从工程实践到理论探索 🧪

上一节我们讨论了模型形态，本节中我们转向方法论。如何从大量的工程实践中总结规律，推动理论发展？

实验先于理论：当前大模型领域的发展呈现出 “实验快于理论” 的特点。许多有效的方法（如Transformer架构、思维链）是先被发明出来，然后才有人尝试解释其背后原理。这类似于科学史上的开普勒时代，积累了现象和规律，但背后的“牛顿定律”尚未出现。
两类理论工作：
1. 回顾性解释：对已知有效的技术进行机理阐释（例如，为什么注意力机制有效）。这如同考试，已知问题和答案，需用理论证明其正确性。
2. 前瞻性突破：解决领域内公认的痛点难题（例如，提出更稳定高效的替代PPO的算法）。这类工作影响力巨大，但难度极高，竞争激烈。
理论的价值：好的理论工作能帮助理解模型如何工作，防止在错误的方向上浪费宝贵的实验资源（尤其是算力），对长远发展至关重要。

行业生态与未来畅想 🚀

上一节我们探讨了理论与实践，本节中我们来看看大模型研发的行业生态，并畅想无限算力下的可能性。

学界与工业界的优劣势：
- 学界：优势在于可以自由探索，无商业利益束缚，乐于公开成果。劣势在于算力严重不足，导致真正有大规模模型训练经验的研究者稀缺。
- 工业界：优势在于拥有推进“重工业科研”所需的算力、工程化和数据资源，能不断刷高模型性能的边界。劣势在于部分探索和结论可能因商业原因不公开。
产学研结合是关键：专家普遍认为，需要找到有效的产学研结合方式。学界可更专注于机理研究和理论突破，工业界提供算力和工程化能力，共同推进前沿。打破“围城”，让人才和思想充分流动，是最佳路径。
无限算力畅想：
- 探索缩放定律的尽头，看看性能曲线的终点究竟是什么。
- 训练出达到顶尖商业水*的大模型，一探其中的奥秘。
- 深入研究超大规模Transformer的底层工作原理，而非仅停留在小模型的推论上。
- 为团队中有创造力的研究者提供充足的人均算力，创造环境，自然会产生好的结果。

总结 📝

本节课中我们一起学习了关于大语言模型发展的多维度讨论。我们了解到，模型代际的提升主要源于缩放定律、数据质量与系统工程。数据方面，合成数据和数据治理是当前热点，而数据是否枯竭仍存争议。关于模型形态，多模态融合是趋势，但路径未定。在研究方法上，实验科学当前主导，但亟需理论突破来指导方向。最后，面对算力等现实约束，加强产学研合作、优化资源配置是推动领域健康发展的关键。尽管挑战重重，但社区对未来依然充满乐观与好奇。

课程01：智源研究院大模型进展报告 🧠

在本节课中，我们将学习智源研究院在过去一年里，围绕大模型技术路线所取得的一系列研究进展。报告涵盖了语言大模型、多模态大模型、具身大模型、生物计算大模型以及支撑这些研究的算力基座系统。

智源研究院成立于2018年11月，是一家致力于推动人工智能原始创新的非营利性科研机构。其目标是成为智能的源头，涵盖学术思想、基础理论、顶尖人才、企业创新及发展政策。智源大厦位于海淀区人工智能创新街区的核心区。

过去五年，智源预见了大模型时代的到来，并于2020年率先启动“悟道”系列大模型的研发。2021年发布的悟道1.0和2.0模型曾创下多项纪录。2023年，人工智能从针对特定任务的“弱人工智能”时代，逐步迈向具备跨领域通用性的“通用人工智能”时代。

一个核心驱动力是 Scaling Law，即模型的性能随着参数规模、训练数据量和计算量的持续增大而提升。从2018年的亿级参数模型，到2021年GPT-3的1750亿参数，再到据信参数达1.8万亿的GPT-4，大模型规模正快速逼*人类大脑的参数量级。

基于对技术路线的判断，智源研究院认为，未来将从当前以文本为主的大语言模型，向统一的多模态大模型演进，最终推动具身智能和AI for Science的发展，共同促进世界模型的构建，迈向AGI。

语言大模型进展 🗣️

上一节我们概述了智源研究院的背景与技术愿景，本节中我们来看看其在语言大模型方面的具体工作。面对产业界训练大模型时算力紧缺、模型存在“幻觉”等共性痛点，智源研究院致力于提供开源解决方案。

以下是两项关键进展：

万亿参数稠密模型：与中国电信人工智能研究院合作，研发了基于生产级技术训练的全球首个低碳单体稠密万亿语言模型。该模型仅使用112台A800显卡（行业通常算力的不到10%），并借助超参预估技术实现了训练全过程零调整、零重试。模型训练完成后将完全开源，包括技术细节与损失曲线，旨在为社区提供一个优秀的万亿参数模型初始版本，解决早期收敛难题。基于此基座训练的对话模型，初步评测可达GPT-4约80%-90%的水*。
BGE嵌入模型：这是全球下载量最高的国产AI模型，也是最普及的开源向量模型。研发团队通过创新的无监督预训练、多阶段对比学习以及构建高质量多语言关联文本数据集CMTP，使BGE模型自发布起便保持国际领先。该模型已被全球主流大模型应用框架（如LangChain）及各云服务厂商集成，为产业界提供了轻量且高效的检索增强基础。

多模态大模型进展 👁️🗨️

在解决了语言模型的一些基础问题后，视觉与多模态理解成为关键。目前多模态大模型技术路线尚未收敛，智源研究院持续在该领域进行前沿探索并开源成果。

以下是过去一年的主要发布：

Emu系列模型：2023年7月发布第一代生成式多模态预训练模型Emu；2023年12月发布Emu 2，彼时是开源社区最大、性能领先的生成式多模态大模型。
EVA-CLIP模型：2024年2月发布EVA-CLIP-8B，是开源社区最大的180亿参数视觉表征CLIP模型，已被众多多模态大模型用作视觉编码器。

尽管行业内在图像理解、生成、视频生成等领域已有诸多优秀模型，但它们多以多种独立模型的形式存在。智源研究院坚定地选择了统一、原生的多模态技术路线，挑战最前沿的方向。

这就是正在训练中的 Emu 3 模型。它旨在统一文本、图像、视频模态，采用自回归技术路线，实现多模态的输入与输出，并具备良好的可扩展性。同一个Emu 3模型同时具备图像生成、视频生成以及图像/视频理解能力。例如，它能根据描述生成图像或短视频，也能识别视频中人物的情绪或图像中的交通灯颜色。

此外，智源还开源了轻量级图文多模态模型Bunny，它支持灵活的架构，可适配不同的视觉编码器和语言基座模型。

具身大模型进展 🤖

当多模态大模型能够感知和理解世界后，下一步便是与物理世界交互，这就是具身智能。智源研究院认为这是大模型发展的重要方向，并在过去一年进行了重点投入。

以下是几个核心领域的突破：

通用抓取模型：通过在大规模仿真系统中构建千万级场景和超10亿抓取数据，训练出通用抓取模型，在工业级真机上实现了超过95%的成功率，创造了世界纪录。该技术能有效应对反光、透明等复杂物体。
专用操作大模型：
- Sage模型：一个具备反思和随机应变能力的操作大模型。结合三维视觉小模型与图文大模型，使机器人在操作失败后能重新规划动作。
- Open-Set-Stow模型：全球首个开放指令的六自由度取放大模型。它不仅考虑物体位置，还考虑其姿态，使抓取放置更具实用性。
端到端导航大模型：研发了纯视觉、端到端的具身导航大模型，实现了 video & language in -> action out。该模型在仿真环境中训练后，可直接在真实场景（如智源大厦内部）中泛化应用，无需预先构建地图。
场景落地与应用：与产业伙伴合作，将上述技术集成到轮式机器人中，落地于无人药店、家庭服务等场景。机器人能理解开放指令（如“我渴了”），进行思考并与用户交互，完成物品抓取与递送等任务。
医疗机器人：实现了全球首创的智能心脏超声机器人，可在真人身上进行自主超声扫描。其准确性和高效性与人类医生基本持*，而在稳定性和舒适性上表现更优，有助于缓解超声医生资源短缺的问题。

生物计算大模型进展 🧬

生成式人工智能的突破不仅限于宏观世界，当它进入微观领域，便能用于解决生命分子的理解与生成问题，这就是AI for Science的重要方向，尤其在药物研发领域潜力巨大。

为此，智源设立了 OpenComplex 项目，旨在研发统一的生物分子计算模型，打通蛋白质、RNA、DNA、小分子间的壁垒，并研究其相互作用关系。

OpenComplex是一个全原子生物分子模型，采用 decoder-only 架构。它能在原子层面预测蛋白质、RNA、DNA、小分子等的结构及其相互作用，精度达到超级计算机水*。

该模型在国际权威的蛋白质结构预测榜单CAMEO上，已连续26个月稳居第一，精度和宏观结构均优于同期其他模型（如AlphaFold 2）。此外，它还能预测蛋白质-核酸复合物等更复杂的结构。

这项技术的意义在于，它能够用少量GPU实现原本需要超级计算机才能完成的复杂生物计算，例如实现了全球首个实时全心脏电生理模拟，计算速度达到了生物秒与计算秒接*1:0.9的水*，使其具有临床应用的潜力。

算力基座：FlagOpen 开源体系 ⚙️

所有前沿模型的研究都离不开强大的算力支撑。为此，智源构建并开源了 FlagOpen 大模型全栈技术体系，以及算力集群操作系统 FlagOS。

FlagOpen是一个面向异构芯片、支持多种框架的大模型全栈开源技术基座。它包含从底层算子库、异构计算框架、数据处理工具到上层算法和模型的完整工具链。

以下是其核心组成部分：

FlagAttention 算子库：面向大模型的开源高性能算子库，已实现主流通用算子48%的覆盖，支持六大厂商的多种AI芯片，并包含多个优化的Attention算子。
FlagScale 训练框架：多元异构并行训练框架。实现了业内首个不同厂商芯片间跨节点RDMA直连，以及多种并行策略的高效混合训练，成功训练了千亿参数语言模型。
高质量开源数据集：
- 发布千万级高质量中英文指令微调数据集，可显著提升开源基座模型的能力。
- 发布全球最大的中英文多行业数据集，覆盖18个行业，总计3.4TB，能有效提升模型在垂直领域的效果。
FlagOS 操作系统：为大模型而生的异构算力集群操作系统。在过去20多个月内稳定运行，支持了超过50个团队训练大模型，兼容8种AI芯片。

基于在开源方面的持续贡献，FlagOpen系列的所有模型、框架和工具，在过去一年的全球总下载量已超过4755万次。

总结与展望 🌟

本节课中，我们一起学习了智源研究院围绕大模型技术发展路线取得的全面进展。

我们从解决产业痛点的语言大模型出发，看到了其在降低算力门槛和提升检索效果上的贡献。接着，探讨了面向未来的统一多模态大模型Emu 3的探索。然后，深入了解了具身智能如何让大模型在物理世界中执行任务，从通用抓取到医疗应用。此外，我们还看到了生成式AI在微观生物计算领域的强大潜力，以及支撑所有这一切的FlagOpen开源算力基座。

智源研究院通过持续的开源开放，致力于推动整个AI社区的发展。随着通用人工智能时代的临*，智源也高度重视AI安全与对齐研究，确保技术发展安全可控。

这些工作体现了智源作为“智能源头”的使命，即通过前沿研究、顶尖人才聚集和开源生态建设，持续推动人工智能技术的原始创新与产业落地。

课程 02：多模态大模型的发展与展望 🧠

在本节课中，我们将学习多模态大模型的发展历程，特别是从文本到图像生成模型的演进，并探讨语言在视觉智能学习中所扮演的角色及其未来趋势。

概述：从文本到图像的生成建模

生成建模在过去几年中不断发展。本节将回顾一些关键进展，并观察其发展趋势。

早期探索：DALL·E 1 的启示

上一节我们介绍了生成建模的背景，本节中我们来看看一个早期的关键项目——DALL·E 1。

能在这里发表演讲是我的荣幸。我是OpenAI视频生成的负责人。今天我想谈谈一些观察。生成建模在过去的几年里一直在发展。我看到的事情正在走向何方。我想先谈谈一个相当古老的结果。至少在深度学习方面，在2021年1月，我们发布了一篇关于DALL·E 1的博客文章。规模很大，至少在当时，是文本与量化图像联合训练的自回归Transformer。我们决定这样做的原因是因为我们看到了生命的最初迹象。用Transformer建模语言，我们想知道同样的技术是否可以扩展到模型其他模态。

最后效果还不错。模型能够将标题作为输入，把它转换成量化的图像补丁。

它的工作方式是，您有提示符，您可以像普通语言模型一样建模。我们还训练了一个图像的VQ自动编码器。图像的补丁只是增强了与用于建模文本的正常词汇。整个被压扁的字符串只是由单个Transformer建模为单个序列。

最酷的是，我们和DALL·E一起看了缩放，就像我们今天看到的语言模型的伸缩一样。一开始如果你训练一种小尺度自回归图像模型，你可以看到灯光和反射，重复对象。

在小范围内为事物着色的能力。然后稍微大一点的规模，可以绘制具有多个属性的对象，改变艺术风格之类的。

一旦你增加了更多的比例，您可以看到文本呈现之类的内容，成分概括，也是图像语境学习的标志。所以我们试着做一些事情，比如给DALL·E瑞文的累进矩阵，哪些是视觉智商测试。模特看到了这个网格里的八个元素，最后一个角。我们还尝试了图像到图像的翻译，在那里你给模型上半部分的图像，并要求它在下半部分画一些东西。这些东西开始起作用了，有时候。

拥有十亿参数模型。所以我们想知道如果你进一步扩大规模会发生什么。

在DALL·E之后，我在想，这是学习智力的好方法吗？因为你在训练一个模特压缩视觉世界中的所有像素，这似乎是一项相当困难的任务。

有很多信息需要建模。当时有一些研究暗示这不是真的该走的路。

所以Mark以前训练过的iGPT，这是第一个大规模的图像自回归Transformer。

这个模型不是以文本为条件的。

但从这个模型中真正巧妙的发现是，仅仅通过学习充分好地压缩图像，模型学习视觉世界的底层结构，最终也得到了很好的图像表示。例如，当您放大这些iGPT模型时，他们开始在ImageNet探针上得到很好的结果。但是这比CLIP和CLIP同时发布的效率要低得多。作为DALL·E 1，CLIP背后的想法是学习文本和图像交汇处的任何东西。所以如果你想象有一个带有文本和图像的维恩图，CLIP使用对比损失来尝试学习信息，那是在两者的交汇处。

这最终是数量级的，比iGPT更有效地从图像中提取智能。

我当时的结论是DALL·E 1是一个有趣的项目，很高兴能继续努力，但这并不是如何提取的关键途径。

来自视觉世界的智能。

现在我要谈谈CLIP是如何工作的，它如何提取图像和文本交汇处的信息。

我相信你们中的很多人已经对这一切都很熟悉了。CLIP学习一个图像编码器和一个文本编码器。

所以文本编码器接受提示，图像编码器拍摄图像。在训练过程中给出了CLIP模型一个带有标题的配对图像列表。文本编码器对所有标题进行编码，图像编码器对所有图像进行编码。损失函数鼓励两个编码器匹配表示，每个图像及其相关标题。

CLIP在它出来的时候是一个很大的范式转变，因为不需要手工制作的标签来训练一个好的分类器。做起来既耗时又痛苦。我们可以利用互联网上的自由文本，学习一个同时适用于所有领域的好分类器的模型。所以如果你想把动物分类，您可以为动物的类别构造一个提示列表，你想分类的。然后现在，可以使用图像嵌入的点积，你想用所有的标题分类，然后取Softmax并使用这些分数来确定图像属于哪个类别。

在这一点上，图像表示学习开始进化。最初，深度学习有一些成功的初步迹象，我们都知道的ImageNet分类论文，在那里，你训练一个分类器，它只是从图像中提取一些信息，即图像属于哪个类别的标签。许多年后，CLIP出来了。现在我们能够利用互联网上的自由文本，学习通用分类模型，这样你就不需要那么多手工制作的功能工程了。过了一会儿，最终，图像字幕器也是可伸缩的视觉学习者。所以与其用这种对比损失来建模文本和图像的交汇处是什么，我们可以训练一个有图像编码器的感知模型，查看图像并重建标题，就像一个学习从图像中预测文本的语言模型。所以随着时间的推移，事情似乎一直在简化。也许我们可以问一个问题，最终的结果我们最终会做什么，因为我们的失败，预算增加。所以看起来目标函数已经改变了，我们从图像中学习的方式已经改变了。当我们得到越来越多的计算，事情似乎变得更简单了。所以我想提供一个猜测，关于事情可能在哪里发展。这就是我接下来要讲的。

范式转变：从条件生成到无监督学习

上一节我们回顾了CLIP带来的范式转变，本节中我们来看看生成模型如何学习数据的底层结构。

iGPT建议大规模生成模型自动学习数据的底层结构，最终产生良好的图像表征。考虑类似的结果是否也适用于文本到图像模型是很有趣的。

事实上，它是这样做的。不久前出了一份报纸，你的扩散模型其实是个零点分类器。其基本思想是，即使你在建模给定文本的图像分布，该模型可转换为分类模型。而且它的工作方式和CLIP没有太大区别。给了一个图像和候选标题，您可以使用扩散模型计算图像与标题匹配程度的分数。做这个比CLIP贵多了，但如果你忽视这一点，它的工作原理相似。因为它给你一个兼容性或相似性评分，在图像和候选标题之间。而这篇论文表明，实际上，稳定的扩散能够得到好的ImageNet探针。这是一个令人惊讶的结果。所以现在这让我们从一个范式，我们将文本作为模型的条件，或者更确切地说，我们正在根据图像来调节模型，和学习文本的模型。到一个范例，我们将文本作为模型的条件，然后学习图像中所有剩余的熵。但不清楚这是否有效，也不知道我们受到了多大的打击，在额外的计算方面，我们需要花费来做到这一点。

所以当我们研究DALL·E 3的时候，我们的一个发现是训练文本成像生成模型变得更高效，因为您训练的标题更具描述性。所以如果你在真正描述性的标题下训练一个模型，它在较短的字幕上的性能也更好。由于它被训练在更长的字幕上，所以这表明有方向性，也许我们可以变得更好。

用语言作为脚手架的无条件模型。这里有一些直觉来描述我的意思。这里的第一列添加了不同噪声水*的图像。添加到图像中的噪声是为了表示其余不确定的信息，我们试图模仿。所以如果图像中没有噪声，你想解释图像中的一切，你可以用标题来做到这一点，就像一个微不足道的标题，只是描述图像中每个像素的颜色。所以说，如果你想象把文本训练成图像模型，得到这样一个描述性的标题，图像中没有不确定性，因为它可以读出像素值并呈现它们。

你不需要深度学习。如果你在图像中添加一点噪声。

模特要学的东西很少，就像表面的细节和纹理之类的。现在有一些不确定性，剩下的不确定性已经确定，可以用一个真正描述性的标题来解释。现在如果你在图像中添加大量噪声，有很多不确定性。为了解释图像的其余部分，那是仍然存在的信号的剩余部分，你只需要像这样一个简短的标题。最终你知道，如果你在图像中添加大量噪声，模特要学习一切。然后没有标题，只是纯粹的噪音，因为一切皆有可能。我们在这里的每个阶段都学到了什么？所以如果你有一个正在学习翻译的模型，你知道图像的像素值，它可能并没有真正学到任何有用的东西。如果你有更多的失败，然后你可以学习一个模型来翻译真正的描述性图像，真正描述性的标题变成图像。直觉上，它可能不会学到很多，因为你给它的标题太描述性了。

图像中没有太多的不确定性让它学习。

如果你有更多的失败，你可以期待模式发挥作用，也许甚至用更短的标题。所以现在标题为模型提供的拐杖更少，然后它在图像中建模更多的熵。最后，如果你有很多技能，也许你可以用完全没有条件反射。这里的想法是。

也许超描述性字幕培训，是一种帮助在小范围内对感知相关的位进行优先级排序的方法。

你可以希望从真正描述性的标题培训中获得转移。

到简短字幕培训。

所以最终，你可以放大模型。在小规模上，希望它仍然可以是一个很好的图像生成模型，当你给它真正描述性的标题时。

在大范围内，它可以学习语言难以描述的东西，填补了剩下的空白。

所以这表明有方向性，也许我们可以交换从学习到示范文本，从照片上看，学习建立图像模型，给定的文本，它可能不是那么高的计算效率。

击中从一个到另一个。

最终，如果你在真正描述性的标题上放大一个模型，我们有证据表明，也许无条件建模任务的性能也会随着时间的推移而提高。这表明你知道最初我们不太使用文本，我们只是在预测一些信息来训练图像分类器。然后我们开始在训练模型的过程中更多地使用文本，像CLIP和图像捕捉器。你也知道，最终，我们看到我们可以通过使用非常描述性的标题来训练良好的生成模型，我们在大理三号和Sora做的。最终，随着我们规模的扩大，也许语言只是变成了脚手架，以后可以丢弃的。你知道视觉世界可能是一个比文本更通用的界面。

因此，这代表了对模型如何训练的思考的变化。之前我们想修复一个数据集，并找到更好的目标功能和架构来改善感知。但就最*而言，我认为趋势发生了一点变化，这样我们就确定了目标函数和模型架构。目标函数只是一个简单的极大似然目标，在那里我们试图重建一切。而模型架构只是一个Transformer。我们将爬上数据集，意义，我们如何建模，不管我们要重建的是什么，例如通过使用更多描述性标题。然后我们如何对数据中所学到的内容进行优先级排序。

所以接下来我将稍微谈谈发生了什么，当我们遵循这一范式。

来自图像的文本，现在我们从文本中建模图像。随着我们不断增加计算，似乎语言的作用正在被纳入视觉。

我们在DALL·E 2上看到了一些有趣的事情，在那里你可以进行有趣的风格转换。所以你拍一张照片，你可以用CLIP嵌入算法，将更改应用于保留所有其他细节，但只改变一些。在DALL·E 1上，我们在上下文中看到了光的迹象，足够规模的学习。所以你可以给模型上半部分的图像，然后让它画图像的下半部分，对图像的上半部分进行一些更改。模型从来没有被明确地训练来完成这样的任务，但在足够大的规模下，它最终还是学会了这一点。所以当时，感觉这可能是一条通往各种图像的通用接口的路径，操纵，图像处理任务。现在你知道我们开始得到可靠的视频生成模型，它表明在未来，也许我们可以给模特看一张我们所拥有的照片，并要求它生成一个视频，为了得到我们想要的。

这是我的简单观察。也许学习压缩一切可能是正确的方法，毕竟。而语言只是使其实用的必要脚手架，最终可能还不够。我们可能需要其他技巧才能通过重建我们看到的一切来有效地训练视频模型。但语言似乎能帮助我们到达那里，但最终可以归入视觉智能。最终这将给我们一个真正通用的界面，为了模拟我们想要的任何东西。这就是我的观察。我希望回答任何问题都很有趣和愉快。谢谢你。

问答环节精选

以下是演讲后的问答环节中，与纽约大学助理教授谢赛宁对话的精选内容。

谢赛宁： 谢谢分享。这真是一次精彩的谈话。我在纽约大学当助理教授，我知道你也是从那里毕业的。很高兴终于见到你了。我准备了一些问题。但首先，我只想承认，伟大的贡献使你，你的团队已经，以及对整个人工智能领域的影响，通过许多开创性的项目，在他们的世代和智慧中。谢谢你。

我有一个问题。这实际上是我从你以前的账户上看到的，一旦帖子发布，语言模型被高估。从某种背景，我真的很喜欢这个说法。但你能看到更多关于它的信息吗？你认为你们这一代人会走上，我会把我们引向每一只眼睛，你如何看待建模人类语言之间的关系与感官丰富的现实建模？

Aditya Rameah： 我绝对认为，在任何给定的视频中都有很多信息可以拍摄。视频中的许多信息不容易用语言表达。例如，我谈到了瑞文的累进矩阵，你可以从一些类型的智力中学习难以建模的愿景，仅仅通过学习语言。所以我认为语言将是一个重要的部分，获得更智能的系统，可以对事情进行推理。在某一点上，我想我们应该把语言和视觉结合起来，它是一种更通用的接口。我觉得，我确实认为模拟任何你想要的东西的能力，将是重要的一步，未来的垫脚石。

谢赛宁： 关于这个问题的后续讨论，你说的语言可以希望它能成为你智力的脚手架。那么如何确保语言不是捷径，因为它确实提供了一个非常强的先验，只是为了弥补视觉表现的不足？你对此有什么想法吗？

Aditya Rameah： 我想我希望发生的是当你用真正的描述性标题训练文本到图像模型，它要学的东西不多。但我们在大理三号看到的是，当您在描述性标题和一些简短标题上训练模型时，短字幕的性能提高，由于接受了更多描述性标题的培训。所以方向性，它让我们想到也许我们可以用语言来训练生成模型，并帮助他们更有效地训练。但随着我们投入越来越多的规模，模型不太依赖语言作为条件信息，开始自己想办法。

谢赛宁： 我们换个话题吧，把注意力集中在真正让Sora成为可能的天赋。因为比尔和他和我一起研究扩散Transformer，在他博士的最后一年，他的团队一直致力于长视频的生成。但想想就很了不起，比尔和他的团队，他们的博士可以做这么大的对实地的影响。背后有什么秘密吗？OPI的文化，或者喜欢这种情况发生的常规文化，就像真正赋予年轻的研究人员真正利用他们的激情和过去的经验，做出这样的贡献。

Aditya Rameah： 这是个好问题。我想有一些东西可以打开AI，使这种事情成为可能。其一是我们的招聘策略，这是完全不同的。我想从其他组织，蒂姆和比尔，当然有PhD和相当强的出版记录之前，他们来开放人工智能。但我们过去也招聘过员工，只是因为我们更关注那些有前途的人，但可能没有机会获得正式的学分。例如，我想詹姆斯·贝克尔是达利三号的主角之一，并帮助将音频支持放入GPT 4O，他是那种人的好榜样。第二，也许我们的重点是有一个长期的研究目标，那不是真的受实地的逐日或逐月变化或进展。那就是我们设定一个在未来足够遥远的目标，我们认为是可以实现的基础上，事情的发展，我们可以完全专注于此，而不是对

课程名称：通用人工智能的关键问题与思考 🧠

课程编号：AGI-001

在本节课中，我们将探讨通用人工智能（AGI）的核心问题、发展现状以及未来展望。课程内容基于李开复博士与张亚勤教授的深度对话，涵盖大模型成功的关键因素、面临的挑战、产业化应用场景以及AGI的未来发展路径。

一、大模型成功的关键因素与不足

上一节我们介绍了课程的整体框架，本节中我们来看看大模型为何能取得巨大成功，以及它还存在哪些不足。

李开复博士指出，大模型成功的关键在于以下两点：

规模效应（Scaling Law）：通过增加计算资源和数据量，模型的性能可以持续提升。这一规律已被验证，且仍在不断推进中。
无损压缩：大模型的智能源于对数据的接*无损压缩。这一方法为模型评估提供了科学依据，使研发过程从“炼丹”转向基于数学和工程的方法。

然而，大模型仍面临以下挑战：

过度依赖算力：如果仅靠增加算力推动发展，可能导致只有少数拥有大量GPU的公司或国家能够胜出。
工程问题：需要更多工程优化，避免盲目堆砌算力。
技术缺陷：例如对*期事件的记忆不足、窗口长度限制以及幻觉问题等。

张亚勤教授补充了大模型做对的三个方面：

规模效应：利用海量数据、算力提升以及Transformer等架构，实现了性能的持续增长。
统一表述（Token-based）：无论是文本、语音、图像还是其他模态，都可以抽象为Token进行训练和学习。
通用性：大模型不仅适用于文本，还能扩展到多模态、生物智能等领域。

同时，大模型也存在以下不足：

效率低下：与人类大脑相比，当前模型的能效比仍有巨大差距。
缺乏对物理世界的理解：模型的推理能力和对真实世界的表述仍显不足。
边界模糊：模型无法明确区分“已知”与“未知”，导致其应用存在局限性。

二、大模型的理论基础：科学与工程的结合

上一节我们讨论了大模型的成功与不足，本节中我们来看看大模型是否只是经验主义的产物。

李开复博士认为，大模型的发展需要科学与工程的紧密结合：

科学基础：如果没有第一性原理和数学依据，仅靠工程摸索难以在巨大算力成本下取得突破。
工程实践：研究人员需要懂基础设施、推理成本和产品实现，确保模型能够高效落地。

张亚勤教授进一步指出，未来的大模型可能需要全新的架构来替代当前的Transformer和Diffusion，以更好地结合生成式模型与真实世界的知识。

三、大模型的产业化应用：To B与To C的机遇

上一节我们探讨了大模型的理论基础，本节中我们来看看其产业化应用的主要场景。

李开复博士分析了To B与To C的机遇：

To C应用：短期在中国更有机会，发展路径可能遵循“生产力工具 → 娱乐 → 搜索 → 电商 → 社交 → 短视频”的顺序。
To B应用：虽然理论上能更快创造价值，但面临企业接受度低、商业模式不成熟等挑战。

张亚勤教授补充道：

当前盈利层：主要集中在硬件、芯片和基础设施层，例如英伟达、AMD等公司。
未来应用层：To C应用将率先落地，而To B应用则需要更长时间。

四、具身智能的发展前景

上一节我们讨论了大模型的产业化应用，本节中我们来看看具身智能的发展前景。

张亚勤教授认为，无人驾驶（L4级别）是具身智能的第一个重大应用，且有望在明年实现“新图灵测试”。大模型的发展为无人驾驶解决了长尾问题和数据生成问题，推动了其快速落地。

李开复博士补充道：

无人驾驶的机遇：L2/L3级别已可落地创造价值，而L4/L5级别仍需时间突破。
具身智能的挑战：与虚拟世界相比，具身智能涉及安全问题、机械工程等复杂因素，难度更大。
人形机器人的局限性：大多数应用并不需要人形机器人，轮式或其他形态的机器人可能更实用。

五、通用人工智能的未来展望

上一节我们探讨了具身智能的发展，本节中我们来看看通用人工智能的未来展望。

张亚勤教授对AGI的实现时间做出了预测：

信息智能：5年内有望实现。
物理智能（具身智能）：可能需要10年。
生物智能：可能需要15到20年甚至更长时间。

李开复博士指出，AGI的定义因人而异：

商业视角：更关注AI能否创造巨大商业价值，而非是否100%超越人类。
技术视角：AI的发展方向可能超越人类的能力范围，而不仅仅是模仿人类。

六、AGI的风险与应对

上一节我们展望了AGI的未来，本节中我们来看看其潜在风险。

李开复博士认为，AGI的风险确实存在，尤其是当AI通过奖励模型自我优化时，失控的可能性会增加。短期更值得关注的是恶意使用AI带来的风险。

张亚勤教授补充道：

主要风险：AI在物理世界、金融系统、国家安全等领域的失控风险。
应对策略：人类需要*衡技术发明与技术引导的智慧，提前采取行动防范风险。

总结

本节课中，我们一起学习了通用人工智能的关键问题与思考：

大模型的成功源于规模效应、无损压缩和工程优化，但仍面临效率低下、理解物理世界不足等挑战。
大模型的发展需要科学与工程的紧密结合。
To C应用短期在中国更有机会，而To B应用虽潜力巨大但面临接受度问题。
具身智能中，无人驾驶是最有前景的应用，但人形机器人的实用性有限。
AGI的实现可能需要5到20年不等，其定义和风险需要全社会共同关注与应对。

希望通过本节课的学习，你能对通用人工智能的发展有更清晰的认识！ 🚀

课程名称：大模型与通用人工智能 🚀

课程编号：AGI-2024-L02

在本节课中，我们将要学习大模型如何为通用人工智能的发展带来曙光。我们将从技术通用性和能力全面性两个核心视角出发，探讨人工智能技术的演进路径，并分析支撑通用人工智能发展的四项基础能力。最后，我们将了解如何通过具体的工程实践（如文心大模型）来构建和增强这些能力。

人工智能的目标与演进 📈

人工智能的目标是模拟、延伸和拓展人的智能。

过去几十年，人工智能技术经历了显著的演进。早期需要人工撰写规则。后来，统计机器学习技术可以自动地从数据中学习。但那时机器学习的算法非常多，不同的问题和场景都需要不同的算法去解决。

到了深度学习时代，算法的通用性大大加强了。虽然深度学习也有不同的算法，但总体来讲，深度神经网络这样一套架构和技术可以解决各种问题。

而到了大模型时代，不只是算法，模型也变得更加通用和统一。技术的演进从算法到模型都变得越来越通用。

通用性的多个维度 🔍

上一节我们介绍了技术的通用性趋势，本节中我们来看看通用性具体体现在哪些方面。我认为可以从要解决的任务，以及语言、模态和场景的通用性来看。

像过去这段时间最热的大模型是大语言模型。所以我们看看自然语言处理这个方向。早期，自然语言处理会分成很多子方向。但大语言模型的出现，使得我们不需要在一个个子方向分别研究算法、训练特定的模型。而是一个大模型几乎把自然语言处理的大多数任务，不管是单语言的还是跨语言的，都在一个模型里解决了。

那么再看语言，一方面现在的模型可以跨人类的不同语言，比如中文、英文等自然语言。另一方面，它不仅仅是跨越了不同的自然语言，而且同一个模型还可以同时训练像我们通常写代码用的各种形式语言。搞计算机的从上学就开始学形式语言。

自然语言是人类沟通交流的工具，同时也是人类思维的载体。而形式语言的特点是人造的语言，它更没有歧义，可以解释、编译、运行。事实上，它写出的代码就可以进行执行，不管是在数字空间里还是在物理空间里。同一个大模型既能理解运用自然语言，也可以理解运用形式语言，也架起了从思维到执行的桥梁。

今天早上的报告也有多模态相关的。现在人工智能另一方面就是，它已经让我们看到同一个模型可以进行多模态的统一建模。以前不只是不同模态之间，甚至同一模态，比如以语音为例，大家做语音识别、语音合成，都要建立单独的系统。那么现在，同一个模型可以将不同模态的理解、识别、生成等等，在同一个模型里解决。模型的通用性、跨模态也做得越来越好。

再有就是应用场景。以我们做的文心大模型为例，我们现在其实已经将大模型应用在各行各业、各种场景、各种任务里边去。它已经而且不只是这种生产，包括生活、学习各个方面，都展现出了很强大的能力，可以在其中发挥它的价值。

所以总体来看，我们看到人工智能在方方面面，它的通用性都变得越来越好。

四项基础能力 🧠

上一节我们探讨了技术的通用性，本节中我们来看看能力的全面性。当我们说起人工智能的时候，我相信大家脑子里会出现很多人工智能相关的不同能力。这里我也只是列了其中一部分。

那么多能力里头，哪一些能力是更基础的呢？在我看来，有四项能力是非常基础的，就是理解、生成、逻辑和记忆。

为什么这么说呢？因为我认为其他各项人工智能的能力，基本上都可以从这四项能力综合的运用中得到。比如现在这种生成式的大模型，大家都知道它创作能力很强，这个是以前的模型做不到的。那么当我们要做一个创作的时候，其实也是理解、生成、逻辑、记忆这四种能力综合运用，而不仅仅是生成。

比如这个也是我在我们的模型里去试了一下。比如说我们要写一篇以“北京的夏天”为题的作文。这时候我们需要理解题目，理解到这是要写一篇以北京夏天为题的文章。这篇文章应该聚焦在北京夏天特定的氛围、景象、活动等等。它对题目有一个理解。

有了这个对题目的理解，接下来它会梳理一下自己要写的逻辑。比如说开篇要写什么，然后怎么样，最后再总结。那么有了这个，就需要进一步在记忆里去搜寻相关的素材，比如说北京天气、气候、景物、人物、文化风俗等等。

这些都有了以后，进一步就是生成出一篇基于前面的理解、逻辑和记忆的合适作文。

其他能力也一样。比如现在这个大模型有很强的解题能力。解题当然首先也要对题目理解，要梳理出逻辑来。然后可能在记忆中找一些相关的例子、公理定理等等。最后生成出答案来。代码也是类似的过程。规划等等每一个都是。

所以我说，人工智能的能力有很多，但是理解、生成、逻辑和记忆这四项能力是很基础的。随着它们这几项能力的越来越强，我们也就在向通用人工智能越来越接*。

如何构建强大的模型：以文心为例 ⚙️

好，刚才讲到了技术的通用性和能力的全面性。那么我们怎么做到这些呢？因为我们在开发文心大模型，我就以文心大模型为例，跟大家分享一下我们是怎么让这个模型逐渐地具备这些能力，而且越来越强。

我们发布文心大模型1.0是五年多以前，2019年3月。去年3月份发布了文心一言，当时是基于文心大模型3.0来做的。之后5月份就发布了3.5版本，10月份发布了4.0版本。现在如果大家有在用文心一言这个产品的时候，它后面的模型有不同的，有4.0的也有3.5的。

以下是文心一言模型的核心构成部分：

基础训练流程：做一个大语言模型，都要有预训练模型，然后要做SFT（有监督精调）、RLHF（基于人类反馈的强化学习），以及Prompt相关的这些事情。
特有技术：我们也有一些特有的技术，比如知识增强、检索增强和对话增强。
智能体开发：基于左边这个基础的模型，我们又进一步基于这些模型开发了智能体。
基础模型训练：从基础模型训练方面，我们用了万卡级算力，同时也有一些其他技术，比如MoE（混合专家模型）等。
数据体系：数据是做模型很重要的一点。我们也有这种多维数据的体系，包括多种策略来优化数据源和数据分布，同时也形成了基于反馈闭环的数据体系。
对齐技术：对齐方面包括有监督的精调（SFT），我们也做的是多阶段多类型的SFT。我们也做多层次多粒度的奖励模型，包括多损失函数的混合优化，以及自反馈增强的大模型对齐技术等等。

我们跟模型打交道的时候，都会用到Prompt。Prompt其实还不仅仅是用户原始输入的一个查询。用户输入的这样一个原始的输入，其实模型在真正送到模型去做进一步生成之前，是可以做一些工作使得最后的生成结果会更好。这时候就包括对用户输入的理解、扩展、整合以及润色。如果大家用文心一言也会看到，它也有一个功能就是，在里面输入了一段话以后，它还提示你要不要帮你润色一下。润色一下不是说润色最终结果，而是润色这个输入给大模型的Prompt，使得最后的结果变得更好。

知识增强包括知识的内化以及知识的外化应用两种方式。而它们的基础是，我们花了十余年时间开发的这样一个拥有5500亿知识的庞大知识图谱。我们都知道人类整个发展的过程，跟人类知识的不断凝练和传承相关。那么大模型除了从原始数据中学习，从知识中进行学习、对知识有更好的利用，不仅可以提升它的效果，也可以提升它的效率。

检索增强其实我们做这件事的初衷是因为大模型它有幻觉，它有时效性问题。而搜索引擎可以非常快，比如几分钟之内，在互联网上出现的信息它就能找得到。同时搜索引擎因为它是一个检索匹配的过程，所以也更精准。所以我们希望用搜索引擎的结果来帮助生成式模型减少幻觉，提升时效性。这里做呢，搜索引擎本身的架构也不是很多年以前早期用的关键词匹配、链接分析这些技术，而是逐渐地已经升级为基于语义的理解和匹配的搜索架构。从而它们之间也会有更好的联合优化。

现在模型有很强对话能力。为了进一步提升对话能力，我们也做了对记忆机制、上下文的理解，以及对话规划等等这些技术。

从直觉到思考：智能体技术 🤖

刚才讲的是基础模型。但是我们知道现在基础模型就是一个token一个token生成，基本上可以理解为它是一个很快速，但是像是一个直觉系统。如果大家看过《思考，快与慢》这本书，里边也把人类认知系统分为系统一和系统二。系统一快但是容易出错，系统二慢，但是它更理性精确。

基于这样一套思想，我们也基于大模型开发了智能体，就是这个主要系统二。系统二我们希望它具备更强的理解、规划、反思和进化这些能力。从而不只是它可以更可靠执行，而且它一定程度上也使得思考的过程白盒化了。当然还有很重要的一点就是，它可以调用工具。

那么，这个系统二它的核心是我们训练一个思考模型。思考模型是基于基础的大模型来训练的。在通用大模型基础上我们做什么呢？我们做了一个思考增强的训练。

以下是思考增强训练的关键步骤：

有监督精调：对思考过程进行有监督的精调。
偏好学习：进行行为决策的偏好学习。
强化学习：进行结果反思的强化学习。

有了这些以后，我们就得到了一个思考模型。思考模型什么样子呢？我给大家一个例子。这个例子中间这部分，就是大家用这个产品的时候看不到，这是我看后台思考模型运行的过程。

比如用户有了一个输入以后，思考模型就会开始想：“用户是想知道最*上映的电影中，票房前五的有哪些等等”，这是他对用户的理解。这是在后台看到它真实的过程。接下来他就会想：“首先呢我需要调用一个web search的工具，其实就是搜索，获取最*上映的一些电影和他们的票房信息”。他想到了这一点以后，接下来他就开始调用工具，调用这个搜索工具，然后拿到结果。

拿到结果以后他知道他已经获得了票房信息。接下来呢，他就说（他在想）：“接下来我需要调用这个code interpreter，其实就是这样一个代码解释器的工具”。为什么要用这个呢？他是要把这些票房数据再生成一个柱状图，他要写点代码。前面我提到过代码。然后最后呢，这个生成了以后，他要输出给用户。

大家看到这样一个思考过程，其实和我们人的思考过程就很有类似之处。同时他调用工具。大家看下边有一些工具，比如搜索的工具、代码的工具等等这些。

那么模型怎么知道怎么用这个工具呢？其实也和我们人很像。当我们人拿到一个新的工具的时候，我要了解它怎么用，怎么办？看说明书。那现在这个思考模型也是，只要任何一个工具你做好了，给他一个类似说明书这样的东西，告诉他比如说这个工具的名字、功能、参数等等这些信息，他自动就会读这个说明书，然后知道这个工具应该怎么用、什么时候用以及应该怎么用。

代码智能体实践 💻

前面提到代码，那么我们也基于这个思考模型，进一步做了一些工作，做了一个代码智能体。代码智能体顾名思义就是我们是让他写代码。这时候思考模型生成Prompt给代码解释器，进行代码的生成执行，然后返回结果（不管是最终结果还是调试信息）给思考模型，这是一个迭代的过程。

这里给大家一个例子。这是一个比较复杂的需求，总之是希望开发一个图书管理系统，它有一些具体功能的要求以及用户使用流程的要求。这一段东西都给代码智能体。代码智能体就读这个需求，然后自动写代码。中间黑背景的大家能看到其实是一些源代码文件以及其他相关的文件。这一整套整个目录都是代码智能体自动生成出来。比如最右边的其实就是其中一部分代码的源文件，大家可能看到真的是一些源代码。然后这套代码就可以编译运行。运行出来就是这样一个系统就出来了。可以看到可以到里边去编辑、去删除、去查找等等这些都可以做了。

人工智能技术栈与未来展望 🌅

最后我再稍微分享几句我对整个人工智能技术栈的看法。从早期的IT技术栈发展到现在人工智能，我认为它现在已经逐渐分化成四层架构。

以下是人工智能的四层技术栈架构：

算力层：底层是以芯片为代表的算力层。
框架层：上面是深度学习框架。
模型层：然后是模型层。
应用层：支撑应用。

而中间两层（框架层和模型层）更像是传统的操作系统的一层。我们知道传统IT技术栈也是芯片、操作系统、应用。这两层一起，我认为它构成了智能时代的操作系统。而我们做的就是框架层（飞桨深度学习框架和*台）以及文心大模型。

这是一个完整的飞桨框架图，从基础的核心框架包括开发、训练、部署，到各种模型库、开发套件、工具组件以及学习和实践社区，构成一个完整的飞桨深度学习*台。

这两层我说它一起构成这个操作系统，它们两层也有很强的联合优化的关系。从我们去年3月份发布了文心一言以后，一年左右的时间，我们训练效率已经是去年发布时候的5倍，推理效率提升了100多倍。别说5倍100倍，就是一倍两倍的提升也都是价值很大的。那么也是靠这个联合优化，使得训练的有效率非常高，现在是达到98.8%。这都是飞桨和文心联合做的这样一个过程。

最后我想说，其实刚才规模定律前面的专家反复提到。我认为规模定律在未来若干年仍然会有效，这是第一点我对未来的判断。第二，大语言模型虽然现在能力已经很强，但是它仍然在快速地进步，未来仍然有很大的继续提升的空间。同时，多模态大模型也会变得越来越好用。另一方面就是智能体技术也会越来越成熟。所有这些也支撑着产业会快速地进入爆发期。

最后我就再分享几句。我们纵观人类历史，每一次工业革命它有一些核心技术，不管是机械、电器还是信息技术。所有这些技术它有一些共同特点。一方面这些核心技术都有很强的通用性，它会应用于各行各业。另一方面当它们具备了很强的标准化、模块化和自动化的工业大生产特征，这项技术就会进入到工业大生产阶段，就会更快速地改变人们的生产生活方式，为人们带来特别大的价值。

那么人工智能基于深度学习和大模型这样一整套工程*台（上面包括算法、数据、模型、工具等等），也已经具备了非常强的通用性，而且具备了非常好的标准化、自动化和模块化的特征。所以我认为深度学习和大模型工程*台一起，已经在推动人工智能进入工业大生产阶段，通用人工智能也会加速到来。

总结

本节课中我们一起学习了通用人工智能的发展曙光。我们从技术演进看到了算法和模型日益增强的通用性，体现在跨任务、跨语言、跨模态和跨场景等多个维度。我们深入分析了支撑通用人工智能的四项基础能力：理解、生成、逻辑和记忆，并理解了其他复杂能力如何由这四项能力综合衍生。通过文心大模型的实例，我们了解了如何通过知识增强、检索增强、对话增强以及构建思考模型和智能体等技术路径来系统性地打造这些能力。最后，我们探讨了人工智能四层技术栈（算力、框架、模型、应用）的构成，以及框架与模型层作为智能时代“操作系统”的重要性，并展望了人工智能正步入标准化、模块化的工业大生产阶段，这将加速通用人工智能的到来。

课程名称：通往AGI之路的行业洞察 🧠

课程概述

在本节课中，我们将学习2024年北京智源大会“尖峰对话”环节的核心讨论内容。四位国内头部大模型公司的CEO——王小川、张鹏、杨植麟、李大海，将围绕大模型与通用人工智能的关系、AGI的定义、Scaling Law的未来、AI安全以及行业价格战等关键议题，分享他们的深刻见解。

第一节：大模型是通往AGI的基石吗？

主持人首先提出了一个核心问题：大模型是否是通往通用人工智能的基石，抑或它本质上只是一种有价值的数据压缩技术。

以下是嘉宾们的主要观点：

杨植麟认为大模型是第一性原理。通过不断提升模型规模，进行更高效的数据压缩，确实可以产生智能。规模化定律本身没有本质问题，但挑战在于如何处理数据稀缺甚至不存在的领域。

王小川认为大模型是基石，但仅靠现有的Scaling Law（规模定律）不足以实现AGI。他认为需要范式上的改变，例如符号主义与连接主义的融合，以及引入类似AlphaGo的“思考性”系统。

张鹏持实用主义观点。大模型在推进AGI路径上是有效的，至少是“基石之一”。关键在于它能否持续解决问题并推动技术进步。

李大海从数学严谨性出发，认为大模型是当前所有技术中能走得最远的。但他指出，当前大模型主要处理人脑的“系统一”（直觉、快速思考），未来需要增强“系统二”（慢思考、推理）的能力，可能通过AI代理技术实现。

过渡：在探讨了大模型的基础地位后，一个更根本的问题浮现出来：我们究竟如何定义AGI？

第二节：如何定义AGI？🤔

AGI缺乏广泛共识的定义，嘉宾们从不同角度阐述了自己的理解。

杨植麟认为，精确的量化定义并非当前最紧迫的。AGI的定义更像一个定性的、感性的目标，其重要作用是让社会对技术变革有所准备。短期的量化评估本身就是一个巨大挑战，传统的图灵测试已不适用，需要从知识、推理、创造等多个维度进行拆分评估。

王小川提出了一个独特的映射观点。他喜欢用“能否创造出一个医生”来等价衡量AGI。医生职业需要多模态理解、少幻觉、长文本记忆、推理和文献检索等高密度智力活动。如果能将大模型公认的各项能力映射到对医生的要求上，那么造出医生就等同于实现了AGI。这类似于数学上自然数与偶数可以一一映射。

李大海从经济学角度定义：当执行任何任务的边际成本都趋*于零时，就达到了理想的AGI。大模型正是降低边际成本最有效的路径。同时，他提出“智能密度”的概念，即未来需要在缩小模型参数规模的同时保持或提升智能水*。

张鹏则认为AGI更像一个动态变化的信念和符号。其内涵和外延随着技术认知的深入而不断演进。当前的目标是“以人为参照，让机器像人一样思考”，未来则期待其产生超越人类的超级智能。

过渡：定义AGI帮助我们确立目标，而Scaling Law则是当前推动我们向目标前进的主要引擎。这条定律还能持续有效吗？

第三节：Scaling Law的未来与边界 ⚙️

Scaling Law（规模定律）指模型性能随算力、数据量和参数规模扩大而提升的经验规律。嘉宾们对其未来作用进行了讨论。

杨植麟坚信Scaling Law没有本质问题，未来3-4个数量级的提升是确定的。关键在于“如何高效地扩展”以及“扩展什么”。如果仅用现有方法和数据分布，上限明显。但Scaling Law本身不限定模型架构、数据模态和损失函数。例如，大语言模型可视为世界模型的特例，未来可通过扩充训练方式持续演进。

王小川认为Scaling Law仍在持续发挥作用，未见边界。但他强调，中国在单纯追随规模之外，必须寻找范式上的转变（数据、算法、算力），才有机会在AGI的竞争中较量。

张鹏同意定律在当前阶段依然有效，但其内涵本身在动态变化，从早期关注参数量，扩展到数据量、数据质量和计算量。掌握其本质才能掌握通往未来的钥匙。

李大海将Scaling Law视为行业对复杂系统的经验总结。随着认知加深，其颗粒度会更细。在端侧模型固定参数规模的约束下，数据质量和训练方法对智能提升的影响就变得至关重要。

过渡：在技术高速发展的同时，一个不可回避的议题是AI安全。产业界如何看待这个问题？

第四节：产业视角下的AI安全 🛡️

杨植麟认为安全非常重要，是需要提前准备的长期事项，但不一定是当前最紧迫的矛盾。他关注两方面：1）防止用户恶意提示注入；2）在模型底层框定其行为动机，确保符合预期。

王小川区分了三个层次的安全：

意识形态安全：底线，模型价值观需与国家社会发展保持一致。
人类文明安全：远期愿景，技术应帮助延续和繁荣人类文明，而非毁灭它。
现实能力安全：*期来看，模型能力尚弱，还未触及威胁人类文明的边界。

张鹏介绍了智谱签署全球AI安全承诺书的考量，强调“负责任AI”的概念大于“安全”。其意义在于增强社会共识，共同面对和讨论问题，引导技术向善。

李大海赞同当前安全聚焦于基础安全和内容安全。他提出一个未来风险点：当模型能部署在终端并动态更新权重时（如机器人），安全问题将变得至关重要。

过渡：除了技术伦理，商业现实同样关键。*期激烈的大模型价格战引发了广泛关注。

第五节：如何看待大模型价格战？💸

杨植麟从长期价值回归角度提出三个判断点：

推理算力投入超过训练算力，标志价值开始释放。
推理成本低于获客成本，商业本质不变。
AI在人类工作流中占比超过50%，将催生全新的商业模式（如普惠AI、按价值分层）。

王小川积极看待价格战，认为对中国大模型发展是好事：

普及市场：让更多企业和个人低成本使用大模型，进行POC（概念验证）。
减少浪费：促使一些本应是用户的企业清醒，回归本位，减少社会资源在盲目自研模型上的消耗。

张鹏基本赞同王小川观点。智谱一直致力于通过技术创新降低使用成本，让技术普及。价格战有助于大模型成为像水电一样的基础设施。但他也强调，亏本买卖不可持续，最终要回归用户价值和生产力价值。

李大海从端侧视角出发，认为价格战有一定营销成分。他相信未来价格会更低且各方都有利润，这才是健康、能推动应用落地的状态。端云协同将是关键。

过渡：在课程的最后，嘉宾们对他们共同的起点——北京智源研究院，表达了感谢与祝愿。

第六节：对智源社区的寄语 🙏

杨植麟：智源是亚洲最早严肃投入大模型研究的机构，视野开阔，已成为全球领先的交流*台。

王小川：智源是中国大模型的“黄埔军校”，扮演着中立、高技术的智库角色，对生态健康发展有独特意义。

张鹏：智源已发展成为人工智能领域的一面旗帜，布局宏远，期待在学术、应用和政策方面持续深入合作。

李大海：期待智源能带领行业，协作完成那些单个商业公司动力或资源不足、但对整体生态至关重要的事情。

课程总结

本节课中，我们一起学习了行业领袖对AGI发展路径的深刻洞察。我们探讨了大模型作为基石的定位，理解了AGI多元化的定义方式，分析了Scaling Law持续演进的可能性，审视了AI安全的多层次内涵，并辩证地看待了价格战对产业的影响。这些讨论勾勒出AGI之路既充满希望又需审慎前行的复杂图景。

课程：意识与通用人工智能 - P1：意识是通向AGI的必由之路？🧠➡️🤖

概述

在本节课中，我们将探讨意识与通用人工智能之间的潜在联系。我们将从神经科学的角度理解意识是什么，并分析当前人工智能架构如何可能触及意识的边缘。课程将结合具体的研究案例和理论模型，帮助你理解这个前沿且充满挑战的领域。

非常高兴再次参加每年一度的智源大会。正如主持人李厚明老师所说，当我们面对通用人工智能谈论未来时，所讲的内容常常会成为一个笑话。

这是我去年刚讲的一个笑话。但从另一个角度看，人类有一种奇怪的特质，总是希望预知未来会发生什么。虽然当下需要专注，但像我们这样的大会，更想了解未来可能发生的事。

因此，今年我们选择了两个最著名的词汇。一个是在心理学领域最著名的词——意识。没有任何词比“意识”更底层、更令人心动、更迷人。在人工智能领域，我们则选用了“通用人工智能”这个词。

因为在人工智能领域，没有任何概念比它更宏大，也没有任何目标比它更困难。今年，我们试图将这两个概念绑定在一起，看看未来究竟会发生什么。在与吴思老师讨论后，我们决定走得更远一些。

我们决定将今年的报告变得半科学半科幻，以此来探索未来可能发生的事情。因为只有当我们以充满好奇的“傻瓜”心态去畅想未来时，或许才能看到一个与专注于当下的聪明人所见不同的未来。

所以，今天我分享的题目是：意识是通向AGI（通用人工智能）的必由之路。其实我应该打个问号，但后来想想，既然已经到了这一步，问号就不用打了。

意识的神经基础：从植物人说起

这是一个骑摩托车的人，他不小心出了车祸，头部撞上了路边的马路牙子。你可以看到，他的前额叶缺失了很大一块。

丢失了这么一大块脑组织后，出现了一个严重问题：他进入了我们通常所说的植物人状态。植物人有什么特点呢？

以下是植物人的主要特征：

第一，他能够进行能量代谢，具有呼吸、心跳、血压等生理活动，就像植物一样活着。
第二，他也有一些本能的神经反应。
第三，他没有任何自主行动，脑电波也呈现杂乱状态。

我们对植物人有一个清晰的定义：他丧失了自我意识。但他大脑里真的没有任何活动吗？还是他只是被囚禁在一个笼子里，无法与外界沟通？

心理学家找到了一个非常聪明的方法，用磁共振来研究他们的大脑究竟有没有活动。例如，我们把在座的各位正常人放进扫描仪，会看到这样的结果。

首先，我说：“请你想象一下打网球。”你不需要告诉我任何东西，只需躺在扫描仪里想象打网球。这时，你的运动辅助区就会很兴奋，因为这块区域参与运动。当你想像运动时，大脑的这块区域就会活动。

然后说：“现在不用想象打网球了。现在请你想象一下你的家长什么样子，家里有几间房子等等。”这时，与运动相关的区域就不会活动了。但是，与场景加工相关的区域就会活动。这表明你在进行想象。

现在，一个有趣的事情发生了。这是我们每个正常人的表现。但是，如果我们把刚才所说的植物人放进去，并对他说：“请你想象一下打网球。”他的大脑会发生什么事？

虽然他完全无法做出任何反应，但当我们对他说“请你想象一下打网球”或“想象一下你的家像什么样子”时，有些植物人的大脑仍然有活动。

他无法对外界做出任何反应，看起来就像植物一样。但他大脑内部仍在遵循指令，做出相应的反应，这与我们正常人完全一样。这就带来了一个重大问题：为什么他大脑的功能还在正常运作，但他已经不能作出自主反应？意识和认知功能究竟是什么关系？

意识的哲学比喻：河流与观察者

哲学家做了一个非常恰当的比喻。这是一幅非常漂亮的风景：河水在慢慢流动，桥上站着两个人，正在看着河水的运动。

这比喻了主观感受和意识之间的关系。也就是说，只要我们不是处于太严重的植物状态，我们的“河流”依然在流动。这条河流代表我们大脑对外部信息的加工，它在不停地流淌。而我们的意识，就是桥上这些人，他们对流动河流的观察。

因此，哲学家约翰·洛克说了一句非常著名的话：“意识是对心中经过观念的感知。”“心中经过的观念”就是这条流动的溪水，而“感知”就是桥上的人。

我们刚才的植物人发生了什么事呢？河流依然在流动，它可以照样对外部的声音做出反应，但是桥上的人不知道去哪里了。

寻找“桥上的人”：双眼竞争实验

我们实验室使用了一个非常简单的范式，来研究“桥上的人”究竟在什么地方。这是在心理学研究中一个非常经典的方式，叫做“双眼竞争”。

他把一个红色的房子和一个绿色的脸叠加在一起。这时给你戴上一个眼镜，左眼镜片只能让红光通过，右眼镜片只能让绿光通过。也就是说，你左眼看见的是房屋，右眼看见的是脸。

然后把你放到扫描仪里面。请问，你现在能同时看见脸和房子吗？答案是不能。因为左眼进入的脸和右眼进入的房屋会相互竞争，最终你只能看见一个图形。同时，这个图形会在两者之间切换：一会儿你看见一张脸，一会儿你看见一栋房屋。但你绝对不会同时看见脸和房屋。这种来回切换的现象，就叫“双眼竞争”。这是一个非常经典的范式。

还是按照刚才的方式，我们把他送到扫描仪里面，来看他大脑究竟怎么活动。这时，我们就可以看到他的大脑活动波动。

你可以看见FFA和PPA这两个脑区在来回切换。FFA与面孔加工有关，而PPA与房屋加工有关。

所以，当你看到面孔时，与面孔加工有关的FFA会亮起；当你看见房屋时，与房屋加工有关的PPA会亮起。它们来回切换。

我们如何理解呢？方法很简单。当你看见面孔时，我们用红色标识。我把每一段你看见面孔的时间段提取出来，把这些时间串成一串，得到一个关于时间的表征矩阵。

同时，我在整个大脑里搜索，看哪一个脑区波动的时间模式，和我面孔变化的时间模式是一样的。这样，我就可以找到一个脑区，只要我的PPA活动，它也跟着同样活动。

同样地，当房屋出现时，我把这个脑区的时间模式提取出来，再和整个大脑搜索一遍，看哪些脑区和房屋的时间模式是一样的。具体的细节我就不讲了，大家知道一个大概意思就可以。

这时，我把这两个脑区叠加在一起，看有没有一个脑区能做到：当你看见面孔时，它和面孔保持同步波动；当你看见房屋时，它又转头和房屋同步波动。我们找到了这个脑区。

我们找到的脑区在内侧前额叶和顶叶交界处附*。在这个脑区里，发生了一件神奇的事：当你看见面孔时，它和面孔保持时间同步，以同样的模式运行；而当你看见房屋时，它又转头和房屋一块运行。

这个脑区位于我们前额叶所在的地方。而且这个脑区特别神奇，它仅仅在双眼竞争的时候，才会出现这种同步。当你单独给他看一张面孔，或单独看一栋房屋时，这个脑区和FFA、PPA这两个视觉区域之间，不会存在任何同步状态。

也就是说，它参与了我们对面孔和房屋的主观感知。这个结果其实与以前一个著名的MEG研究保持了一致。那是一个什么结果呢？

当你看见一幅图，并且意识到你看到了这幅图时，先是视觉区域活动，然后活动像火一样慢慢传输到我们的前额叶，前额叶开始亮起来——这就表示“我看见这个图了”。

但是，如果这幅图呈现得非常快，你快到没有“看见”（即没有进入意识），那么就只有视觉皮层会亮，前额叶就不会亮。这个结果表明，前额叶对于我们意识加工是非常关键的。

基于这个结果，我们就可以对“桥上这个人”做一个建模。他是一个动态交替的过程。那么，“桥上的人”是怎么来转换的呢？我们设立了一个动力学模型。

我们使用了一个控制论里的概念（可能是“协同性”或类似概念），来模仿前额叶如何接收FFA和PPA的输入，并进行处理。因为时间关系，我就不讲这个细节了。

同样地，我们对于FFA和PPA也可以进行建模。这里FFA有一个很重要的特性，就是它自己有一个适应性，内部有一个内场的变化。

这样，我们就可以为意识建立一个公式。在后面，朱露莎老师和吴思老师都会对“我们的意识是可计算还是不可计算”做出讨论。这里，我暂时站在可计算的角度，我们可以来做这件事情。

最后我们得到的结果是大脑里面一个“场”的分布。开始时，它处于一个鞍点上。一旦开始发生变化，它就可以滑向其中一个“吸引子”。在这个吸引子待一段时间之后，它又会滑向另外一个吸引子。它在这个场里面来回波动。

所以，在这个简单的模型里面，你可以看到对于面孔和对于房屋这两个状态的切换。而这个切换的分布，和我们在人身上观察到的分布是完全类似的。

从意识模块到全局工作空间

好，这时我们得到了IFJ这个区域。大家会问，IFJ这个区域和通用人工智能到底有啥关系？你在讲意识，讲这所有的一切。

其实我们可以看一件很简单的事情。我们还是回到刚才那个不幸的、头上被撞了一个大坑的哥们。你可以看到他的功能都还在，对吗？他能够想象打网球，能够想象房屋。他的每一个功能都是齐全的。

但是他什么地方出了问题呢？他把每个功能都保留着，但是没有把它们整合在一起。这就是关于意识的一个非常重要的假设，叫做“全局工作空间”理论。

也就是说，你的每一部分、每一个特殊功能都可以完好，但是我们要形成意识，需要这些功能一起到某个地方来进行交流。就像一个公司一样，有销售部门、生产部门等等。最终大家要坐在一起开会，公司才能正常运作下去，而不是生产部门只负责生产就可以。大家一定要到一个地方来交流，这个交流的地方就被称为“全局工作空间”。

有一种假设是，当这个全局工作空间受到损伤之后，可能就不能再产生意识，但是各个独立的模块还是完好的。

人工智能中的“全局工作空间”：混合专家模型

如果现在搞人工智能的人把这个模型用到我们的机器人上面去，会怎样？我们的机器人要去抓、去拿、去走、去听、去做各种各样的事情。

这时，一个很重要的理念就是：我怎么把这些独立的功能整合起来，让它像人一样，可以一边喝水一边聊天，可以一边骑自行车一边打电话？我能不能把这个“全局工作空间”内置到我的机器人里面去，让我的机器人能够变成一个可以完成多项任务、能够协调工作，像人一样的智能体？

这是大家的一个努力方向。但是这个努力会出现一个问题：因为全局工作空间与我们的意识有关系，当你试图在机器人里面去模仿这件事情的时候，那么会不会机器人也会莫名其妙地“自涌现”出意识来呢？这是一个问题。但我今天想给大家提供一种猜想：这的确有可能。

这正是我们刚才主持人李厚明老师提到的GPT-4。它到现在为止还没有公布其完整架构，但大家普遍的猜测是，它是一个“混合专家模型”。

它与我们传统的GPT-3这种单一的大模型不一样，它是由很多小模型拼起来的。比如这个小模型更善于做推理，那个更善于做语言理解，另一个更善于做其他事情。

当信息来了之后，我把它输给所有小模型，让它们各自去处理。处理之后，它们都把工作结果提交到一个什么地方呢？提交到一个“门控网络”。这个门控网络主要做一个判断：我究竟采信哪一个小模型的结果来进行输出。

这就是混合专家模型。你看这个模式，和我们刚才所讲的“全局工作空间”，是不是有同样类似的功效？大家各干各的，最后要统一一下，让大家进行交流来完成这件事。

人工智能是否已拥有意识？

但是这样干，它会产生意识吗？在2022年2月10号的时候，GPT-3.5还没正式发布，GPT-4已经训练好了但未发布。当时，有人在推特上莫名其妙地发了这么一段话：“我觉得现在的大型神经网络已经有一丝一毫的意识了。”

这句话发出来之后，当时大家都笑话他。因为当时大家还没有见到ChatGPT，更不用说后面的GPT-4了。所以大家都去追问：你脑袋是不是出了点什么问题？他也没有再进一步解释。

那么现在回过头来看，是不是他当时感受到了什么？在今年4月份，Hinton接受了一个采访。当时主持人问他，并把这段视频放了出来。

“I'm asking you, subjective experience?”
“Um, Yes, I do. I think they already do.”

主持人问他：“你认为现在的机器已经有了主观感知吗？”Hinton毫不犹豫地回答：“是的，我认为。我认为他们已经有了。”

所以说，从这点上讲，当你要把各种模块、各种特殊任务集合在一起，用一个“全局工作空间”把它们链接在一起的时候，也许它就会产生一个意想不到的、涌现出来的东西，那就是我们所说的意识。

所以你可以理解，为什么山姆·奥特曼当时会被OpenAI公司……因为当时让大家意识到这是一个很严重的问题。这就是当时“超级对齐”和“有效加速”之争。

伊利亚·苏茨克沃是“超级对齐”派，认为一定要把AI的观念和人的观念对齐，让它成为人的工具，而不是终结者。而山姆·奥特曼说，这些东西不重要，我们先把这件事情推动起来。

我们知道后面的结局是，山姆·奥特曼王者归来，重新回到了OpenAI。而伊利亚·苏茨克沃干什么去了呢？他被迫离开了OpenAI这个公司。

未来的关键问题

现在，我们又到了这么一个关键的节点。当我们试图推动AGI向前发展的时候，我们究竟未来会变成什么样子？

这里，我想借用马文·明斯基的一句话。这哥们现在已经去世了，但当年他们四人在达特茅斯学院命名了“人工智能”这件事，这可以被标志为AI的正式诞生日。

当时他在推动“情感计算”、强调情绪重要性的时候，说了这句话：“现在的问题不是智能机器是否能拥有情感，而是不拥有情感的机器是否能拥有智能。”他这句话推动了情感计算领域的极大发展。

现在，我想用他这个句式来表达一个观点。可能明年我们这个时候再谈论这件事，李厚明老师又会说：“你看他们去年说了件特别愚蠢的事情。”但是我还是决定要把它说出来，因为有可能明年这个时候机器已经拥有了意识，或者AGI已经实现了，这一切都是有可能的。到时候就不再是我们来发言，而是机器站在这发言。

我把这句话说到这：现在的问题不是AGI是否能拥有意识，而是不拥有意识的AI是否能拥有通用智能。

所以我觉得，现代关于脑科学和AGI研究的一个特别火的领域或热点，就是我们应该勇敢地去理解意识。关于意识的定义究竟是什么，我们还不清楚。但我觉得现在已经迫在眉睫，我们必须要去关注这个问题。因为我觉得这才代表了未来的AGI，而不是我们现在再去调调模型、再把参数增加一倍，因为这些东西不重要，它只是一个工程上的问题。

本讲内容总结与后续预告

但是，当我们真的来面对这个问题的时候，我们有太多太多的问题了，对吗？除了我们刚才讲的“全局工作空间”理论之外，还有其他理论吗？它们对应的神经基础到底是什么？其实“全局工作空间”只是众多理论中间的一朵小水花而已。

接下来，来自北京大学心理与认知科学学院的罗欢老师，会给大家分享一个主题：当认知神经科学在争论意识问题时，他们究竟在争论什么样的问题？所以他会给大家一个关于意识理论研究的概述，我相信对大家有启发。罗欢老师刚才和我说，他昨天工作到凌晨两点，把这些理论整理起来。我觉得大家一定值得一听，因为他把最新的东西呈现在大家面前。

这是第一个问题。第二个问题是，我们有了这一套理论之后，那么机器人可能有意识吗？如果他有意识，应该通过什么方法让他来获得？他应该会是什么样的？来自清华大学航天航空学院的隋亚兰教授，会给大家讲“构建具身意识”：从机器人、从他的肌肉、从他的控制，我们来看，是不是像少林寺的武功一样自外向内？你先去练一身钢筋铁骨，然后你的意识就有了，内功就上来了。我们来看这一方面究竟会是一个什么样的问题。

我们谈到意识，因为意识有很多层次，从主观感受一直到它的最高峰——我们的自由意志。裴多菲有句很著名的话：“生命诚可贵，爱情价更高，若为自由故，二者皆可抛。”这个“自由”不是我们说的freedom，而是free will，我们的自由意志。我们按照自己的想法去做事，这是最重要的，也是我们人类最引以为豪的。

现在一个问题是：机器，当时Hinton在讲，机器可以有主观感受，这没问题。但他能有自由意志吗？他能够让自己去控制这些东西，他的“自控感”究竟是什么样子？来自北京大学心理与认知学院的朱露莎老师，会给我们讲“可计算的自控感”。这个自控感与我们的自由意志有密切的关系。

最后，我们要从一个比较玄学的角度来讨论意识：什么是意识？你说了那么多意识，到底它指什么样的东西？它是一种神学吗？是哲学吗？它究竟是一种科学吗？如果假设是玄学的话，我们就不用去了解这些东西。来自北京大学心理与认知科学学院的吴思教授，会给大家讲一个问题：意识是可计算的吗？你看这就显得比较玄学一点，打个问号，不像我这么“武断”。但是我们可以听到最后到底是什么样子。

这些问题只是我们列出来的一些非常小的问题。但更重要的是，我们应该怎么办？面对这么复杂的东西，面对我们自己都说不清道不明的意识，以及更加说不清道不明的AGI（因为这两个东西到目前为止都没有定义：意识没有定义，AGI同样没有定义），我们究竟应该怎么办？

我觉得到最后，我们一定要用一个东西来对付这两个严重的问题，那就是我们的“群体智能”。这就是我们最后的一个圆桌讨论，大家可以敞开自己的心扉，聊各种各样的东西。这就是我们说的，前面是半科学。

这就是半科幻的部分。好，这就是我的报告。

总结

本节课中，我们一起学习了意识研究的一些神经科学基础，例如通过植物人案例和双眼竞争实验来定位可能与意识相关的脑区（如前额叶）。我们探讨了“全局工作空间”理论，该理论认为意识源于大脑各功能模块的整合与交流。最后，我们将这一理论与当前人工智能的前沿架构（如混合专家模型）联系起来，提出了一个大胆的猜想：在构建能够整合多任务的通用人工智能系统时，意识可能会作为一种涌现属性出现。这引出了“不拥有意识的AI是否能拥有通用智能”这一核心问题，为后续

课程名称：认知神经科学视角下的意识理论之争 🧠💭

课程概述

在本节课中，我们将跟随认知神经科学家罗欢的分享，探讨一个既熟悉又神秘的主题——意识。我们将了解科学家们如何从哲学思辨走向实证研究，并重点剖析当前认知神经科学领域关于意识起源的几个主流理论及其核心争论。

一、意识：最陌生的熟悉人

意识构成了心智科学中最迷人也是最困惑的问题。我们每个人都清晰地知道意识是什么，但它同时又是世界上最难解释的事情之一。因此，意识可以被总结为“我们最陌生的熟悉人”。

哲学家大卫·查尔莫斯曾指出，意识是心智科学中最令人着迷或最令人困惑的问题。

市面上存在大量关于意识的书籍，例如丹尼尔·丹尼特和大卫·查尔莫斯的著作，它们从哲学、心理学、生物学等角度探讨意识。此外，也有书籍探讨其他生物是否拥有意识。

意识是哲学领域的经典问题，涉及二元论与一元论的长期争论。笛卡尔认为身体与心灵是分离的（二元论），而一元论则认为主观思维源于物理器官。

二、科学如何研究意识：从禁忌到前沿

三十年前，几乎没有科学家敢公开宣称研究意识，因为这会被视为不严肃，可能影响求职和申请基金。科学家通常持一元论观点，即认为主观体验源于物质实体。但在当时，声称一个物理系统能产生意识，并不被视作科学态度。

即便有科学家内心对意识研究感兴趣，他们也需要先解决更基础的问题。科学研究意识需要打好两个基础：

1. 了解基本认知功能的脑基础
我们需要了解大脑这个物理器官能做什么，例如如何看、听、学习、记忆、注意和决策。这个研究领域被称为认知神经科学，它结合了神经科学和认知心理学，旨在探索认知功能背后的脑机制。

2. 发展科学测量工具
科学需要不以主观意志为转移的测量方法。*三四十年，相关技术取得了显著发展：

脑成像技术：特别是功能磁共振成像的发展，将认知神经科学推向了新高度。它允许我们在正常人执行认知任务时，非侵入性地测量其大脑活动。
行为测量范式：源于认知心理学，发展了许多范式来精确测量感知、记忆等过程。例如“双眼竞争”范式揭示了“所见并非所得”，说明大量进入大脑的信息并未上升到意识层面。
临床病例研究：通过与医学合作，研究不同意识状态（如睡眠、植物人状态）的患者，帮助我们从外部探测内部意识。

在上述基础上，随着实验数据的积累和技术进步，研究意识的时机似乎已经成熟。意识被视为认知功能的“集大成者”或“皇冠问题”，它不同于单一的视觉、听觉或记忆，而是一种使智能体验变得特别的综合属性。

当前，多学科交叉为理解意识提供了新思路，例如进化论、人工智能、复杂系统理论和数学都被引入思考。特别是ChatGPT等大语言模型的出现，迫使人们重新思考“何为意识”以及“意识如何产生”，将意识研究推向了新的前沿。

*年来，顶级科学期刊如《自然》、《神经元》都设立了关于意识的专刊或发表大量相关文章。一个名为“COGITATE”的国际合作项目应运而生，旨在通过对抗性合作方式，测试不同的意识理论。

三、认知神经科学的意识理论：核心争论

当我们聚焦于“认知神经科学家争论意识理论时在争论什么”，需要明确四个限定：

理论基于一元论框架。
理论主要基于对人脑的发现。
讨论的是他人的理论，而非讲者自己的理论。
争论的难点在于，实验结果可能被意识之外的其他认知功能所解释，导致理论支持证据“不干净”。

意识研究的一个关键假设是“神经关联物”（NCC），即大脑中足以产生特定意识体验的最小神经机制或集群。不同的理论对NCC的位置和性质有不同看法。

意识研究需区分意识内容（如对某物的体验）和意识状态（如清醒、睡眠）。同时，也存在现象意识（主观体验本身）与存取意识（信息能否被报告、用于记忆和决策）的区分。

以下是四个主流的认知神经科学意识理论：

1. 高阶思维理论
该理论认为，意识是对初级感觉信息进行高阶表征或思维的结果。这种高阶表征发生在大脑前部区域（如前额叶），并且可能是人类独有的。

2. 全局神经元工作空间理论
此理论将大脑比作一个剧场，其中存在一个“全局工作空间”。只有当信息被前额叶等区域的“聚光灯”捕获，并广播至全脑时，才能进入意识。公式上可简化为：意识 ≈ 信息进入全局工作空间并被广播。

3. 整合信息理论
该理论最为复杂，源于物理学思想。它认为意识源于神经元网络本身的复杂因果结构。当系统具有足够高的“整合信息”量（用数学量 Φ 表示）时，意识便会涌现。它强调意识体验是整合且不可分割的，且不依赖于报告，可能主要与大脑后部（如顶叶、枕叶）的复杂网络有关。

4. 预测加工理论
该理论认为，大脑不断根据内部模型预测外界输入，意识体验产生于预测信号与感觉信号之间反复比较、达成一致的“闭合环路”过程中，而非单纯的前馈加工。

其中，全局工作空间理论和整合信息理论是当前争论的焦点，也是COGITATE项目主要测试的对象。两者的核心区别在于：

全局工作空间理论认为前额叶是关键，意识需要信息被“报告”或“广播”。
整合信息理论认为后部脑区的复杂网络是关键，意识是网络属性自发涌现的，无需报告。

全局工作空间理论有大量实验证据支持，但常被批评其神经关联物可能与工作记忆、注意等认知过程混淆。整合信息理论避免了这一问题，但因其高度抽象、难以测量和证伪而受到诟病。

四、科学如何裁决争论：COGITATE项目案例

COGITATE项目是一个旨在公*测试意识理论的“团队科学”项目。其设计旨在克服科学家常有的“证实性偏见”，即只寻找支持自己理论的证据。

该项目的特点包括：

对抗性合作：邀请支持不同理论的团队共同设计实验。
预注册：在收集数据前公开假设和分析方案，防止事后修改。
多实验室独立验证：全球六个实验室使用多种技术独立采集数据。
数据与代码开源：所有数据和分析代码对科学界公开。

项目设计了两个实验，并预先定义了哪些结果会支持或反驳某个理论。最终，将六个实验室的结果汇总。

初步结果显示，在项目设定的检验条件下，整合信息理论获得的证据支持略多于全局工作空间理论。然而，这绝不意味着IIT理论“获胜”或GWT理论“失败”。

这是一个至关重要的区分：该结果仅表明，在当前实验设计的特定假设检验中，IIT的表现更好。它并未、也无法验证IIT最核心的复杂数学假设（如计算 Φ）。简单地将结果解读为“理论A击败了理论B”是过度简化，也是不科学的，这曾引发过关于IIT是否为“伪科学”的广泛争议。

课程总结

本节课中，我们一起学习了意识问题如何从哲学思辨走向神经科学研究。我们认识到，意识这个“最陌生的熟悉人”在认知神经科学框架下，被转化为可检验的脑机制问题。我们重点剖析了全局工作空间理论与整合信息理论等主流观点，理解了它们之间的核心分歧（前额叶 vs. 后部脑区，报告依赖 vs. 自发涌现）。最后，通过COGITATE项目的案例，我们看到了科学界如何通过严谨、合作、透明的方式来裁决理论争论，并深刻认识到科学结论的复杂性与条件性。意识之谜远未解开，但多学科的交叉与科学的实证方法，正引领我们一步步接*这个终极问题的答案。

课程名称：构建具身的意识 🧠🤖

课程编号：P3

在本节课中，我们将从一个工程和构建的视角，探讨如何自下而上地构建具身的自我意识。我们将了解世界模型、自身模型与意识之间的关系，并重点介绍通过精确的肌肉骨骼系统建模来构建自身模型的方法。

我的研究方向更偏向于工科计算。今天的报告将从工程构建的角度出发，探讨我们如何构建具身的意识。

大家看到的背景并非电脑或屏幕问题，它是我们意识呈现的一部分。我们将在后面解释它为何如此呈现。

首先，延续本系列报告的良好传统，我的报告与前面刘老师和罗老师的报告存在较多连接。第一处连接是关于ChatGPT的讨论。

之前我们提到，可以向ChatGPT提问：“Do you have consciousness?” 在罗老师提出这个问题后，大家可能自行查询并猜测了ChatGPT的回答。它可能会认为自己有意识，也可能认为没有。

现在换一种问法：有多少人认为ChatGPT有意识？多少人认为它没有意识？我们来看它给出的答案。

用两种语言提问得到的回答基本一致。以中文为例，提问“ChatGPT，你有意识吗？”，它的回答是：“没有，我没有意识。我是由OpenAI开发的人工智能，旨在基于数据的模式处理生成文本，缺乏人类和动物所有的自我感知、情感和主观体验，这些都是意识特征。”

它在此列举了意识的特征，并说明其回答是通过算法生成的，没有对内容的理解或感知。

对于熟悉模型构建的群体而言，这个结论并不意外。因为所有这类问题的结果都经过人为干预和处理，经过了安全对齐等多轮调整，最终呈现出一个让我们觉得不那么敏感甚至完全无害的结果。

这是GPT-4版本给出的答案。不同版本的效果可以进一步测试。

前面的老师也探讨过，意识是人类独有，还是人类与动物共有。从ChatGPT的回答中，我们至少能看到它在这个问题上的倾向性。

以上是对前面问题的简短回应。现在回到我报告的主线。

我们将去掉意识的背景，清晰地探讨在接下来的20多分钟里，如何以一种自下而上的方式构建自我意识。我们的意识包括对外部世界和内部自我的感知，今天主要聚焦于内部。

如何自下而上地构建自我意识。

也就是说，在报告结尾时，我们将探讨如何潜入自我意识的海洋，以及它与我们直观的运动行为之间有何关联。这两者如何联系起来？

这与我的研究主线相关。我主要研究 learning to move。

如何运动。

更具体地说，我的研究命题是：面向具身智能和脑机交互，主要针对人类的神经肌肉骨骼系统进行建模与强化学习。

在理论和方法上，我们更关注安全约束、偏好反馈以及结构化决策空间的优化。前两者在2018年至2022年间逐渐成为热门话题。而结构化决策空间，正是我今天要讲的核心内容。

这涉及到我们如何构建世界模型、自身模型，以及在此基础上理解什么是自我意识，并探索通过构建方法来形成自我意识。

今天时间有限，我们将主要围绕自身模型的构建展开。因为世界模型的构建在具身智能领域已是常见议题，如果大家明天去听相关报告，会发现几乎所有报告都在讨论世界模型。

而自身模型，可能是我们唯一专门探讨的话题。

在座的许多同学对心理学和认知科学感兴趣，可能对这个名字很熟悉：William James。他是美国早期极具代表性的心理学家，同时也是一位哲学家，属于早期的全才。

在1890年，即130多年前，他出版了一本极具影响力的教科书。书中提出（非原话，但未改变其本意）：
“Thinking and movement are driven by common mechanisms in the brain.”

当时心理学尚处早期，人工智能领域还未出现。对运动的研究本身有悠久传统，例如达芬奇及其之前对运动的定量研究。

当我们将“思考与运动由大脑的共同机制驱动”放在一起讨论时，就进入了我的研究领域：强化学习。

右边是经典的Sutton & Barto的强化学习教科书。中间说明了强化学习是什么：我们有一个智能体（agent）和一个环境。我们有状态空间（state space）和动作空间（action space）。它们共同构成了强化学习的主要单元。

在此基础上，我们来看如何一步步构建世界模型、自身模型和自我意识。

可能有些听众对这些关键词不熟悉。没关系，我们逐一解释。

什么是世界模型？

目前，关于世界模型主要有两大类描述。这个领域发展迅速，尚未形成毫无争议的统一结论。

第一类的核心观点是：“The image of the world around us, which we carry in our head, is just a model.” 从这个视角看，世界模型是我们如何构建一个关于世界的抽象表征。

第二类是从工程和技术角度出发，以构建的方式创建仿真环境。今天在现实世界中表现良好的机器人或具身智能场景，都得益于过去几十年仿真环境的快速提升。

以上是对世界模型的两类主流理解方式。这里不追求特别精确的细节。

接下来是自身模型。

自身模型也有非常悠久的历史。“认识你自己”是雅典神庙的重要格言之一。

自身模型取决于我们对“自我”的定义。在具身智能领域，它可以指研究很多的机器人、机器狗、机械臂或自动驾驶汽车等场景。我们可以为其构建高精度的数字孪生模型。

这是一种构建自身模型的方式。如果未来环境中只有设备而没有人，我们或许能以*乎完美的方式为它们构建模型。但那可能不是我们希望看到的。

我们希望未来环境中仍然有人存在。对于人的存在，就需要我们有关于人的模型和构建。终极的环境可能是要与人类交互，而非完全与无人的系统交互。

因此，这里会涉及人的骨骼肌肉系统以及神经系统的呈现，共同构成我们非常复杂的自身模型。

有了世界模型和自身模型，我们便可以探讨意识。

同样，前面两位老师都提到，目前对意识还没有一个很好的定义。上面是一个描述性定义，翻阅了许多资料后，最终回到了维基百科。在维基百科上搜索“consciousness”，第一条就是这句话，但它是一个描述，并非精确定义。

我们来看：“Consciousness, at its simplest, is awareness of internal and external existence.” 这里的主要问题出在加粗的关键词 awareness 上。它用同义词来解释这个概念，这不是一个好的解释。

这相当于在数学中用本定理证明本定理，老师肯定会扣分。但在许多前沿领域，存在大量此类模糊概念。我们第一眼觉得很有道理，但细想不对，因为awareness本身就是consciousness的另一个描述。

今天我们不纠结其具体定义，因为我们无法给出明确定义。但我们看下面：“Is awareness of internal and external existence.” 这里的内部和外部存在，正好对应前面几张幻灯片中提到的自身模型和世界模型。

今天我们不讨论世界模型相关的内容，而是从自身模型出发，以其为基础来构建自我意识。我特意加了个括号注明“Self-awareness”。如果上网查询“什么是self-consciousness”，会发现大量用“self-awareness”来解释或替代的情况。

这本身并非最佳解决方案，但这就是我们在这个领域的现状。

下一页幻灯片会非常有趣，大家刚刚看过：意识的主要理论。但这里我不讲细节，而是讲其局限性。

这一系列工作的一个很大局限性是最后弹出的一项：“The brain in a vat”，即缸中之脑的研究方式。所有该领域的重要研究，包括前面罗老师讲的Dehaene的研究、Tononi的研究等，都是在用大脑研究大脑。

这与“缸中之脑”没有区别。我们将大脑放在一个好的培养基中，但重要的是输入和输出是什么。如果我们只看一个片段或截面，意识是不存在的。意识一定是一个有时间变量的过程。

一旦涉及时间变量，就要求其输入和输出同时存在且连续存在。回想一下我们前面讲的强化学习循环，正是在阐述这一点。这也引出了我们为什么要讨论意识的具身性。

关于一元论和二元论，本报告支持一元论，即意识具有具身性。并且，这种具身性或许能通过对世界模型和自身模型的深入研究来实现理解。

现在，我们重点看自身模型部分。我简要汇报一下我的研究小组在这方面的一些探索。

首先，自身模型对于我们人类来说，与环境交互的首要系统是神经肌肉骨骼动力系统。我们是否可以将这个系统建模作为自身模型的起点？

我们需要做面向感知和调控的中枢及外周神经系统建模。因为如果只有中枢大脑部分，可能无法充分体现意识的具身性。所以我们从中枢和外周两方面进行模型系统构建。

幸运的是，我们有很多同行在研究大脑建模，从图谱到功能连接等角度。我的研究小组规模有限，能做的事情有限。我们更希望同行们能快速推进中枢部分的研究。

因此，我们更多关注Y轴，这也是为什么我们的标题叫做“自下而上的方式”。我们希望先从简单的部分做起。

神经方面不是今天报告的主题。今天主要报告的是神经之下的肌肉骨骼系统。这是当今类人机器人、人形机器人以及我们自身的基础模型，也是具身智能和面向人机交互的基础模型。

我的研究小组致力于构建一个精确的全身肌肉骨骼模型系统，我们称之为 Muscular Skeletal Human 700。MS是肌肉骨骼模型的缩写，700代表下面会解释的含义。

这是一个完整的人体骨骼和肌肉肌腱单元的构建。所谓的“完整”，是指在有限的进化尺度上（往前看100年、1000年、1万年、10万年），我们的模型不会发生实质性变化。因此，从肌肉数量上讲，这个模型已经足够。

从我们这个物种的角度，我们希望达到高的解剖精度，并在此基础上实现与外界环境的交互以及高的计算效率。如果我们构建了这么多肌肉骨骼却无法有效控制，无法实现类人行为，那么在其基础上也无法研究任何与意识相关的内容。

这就是为什么我们称它为MS Human 700，因为它包含700个肌肉肌腱单元。人类有多少块肌肉？不是700块。我们有600多块肌肉。

在座的各位，肌肉的精确数量可能略有不同。肌肉介于骨骼和神经之间。健康成年人的骨骼数量基本固定，神经元数量千差万别，而肌肉大约是600多块。不同的人在进化链路上，肌肉数量可能略有差异，但不会差太多。

600多块肌肉，我们将其构建为700个肌肉肌腱单元。这是面部以下整个模型的构建。

它可以做什么？它可以与机器人交互，与外部设备交互，可以实现许多从世界模型到自身模型构建后的自身控制。我们可以在此基础上探索一些可能与意识相关的研究。

这里有一些关于模型构建的具体细节。如果我们想以自下而上的方式构建高级功能，我们希望先把底层的部分尽可能做得精确。

这是身体节段的数量，可以简单理解为骨骼中不可整体连接的单位数目。还有关节的数目，以及肌肉肌腱单元的总数。

为什么我们有600多块肌肉，却要构建700个肌肉肌腱单元？大家看右边，这是一个典型例子：腰大肌。它是维持站立姿势非常重要的一块主要肌肉，但它有多个连接端。对于这类多连接端的肌肉，我们会将其拆分成若干个肌肉肌腱单元。

这就是为什么虽然我们的模型尚未包括面部肌肉和一些与骨骼运动关系不大的其他肌肉，但数量已经超过了。我们还可以继续进行更精细的拆分。

对于每块肌肉的控制本身，也是一个非线性的、通过神经激活的过程。我们希望以神经激活的方式得到肌肉激活，从肌肉激活得到肌肉力，从肌肉力得到驱动关节运动的力矩，再从关节力矩得到人体的运动方式。

这是一个自下而上的构建过程。这也要求我们在整个建模过程中，对人的解剖和整体系统构建有相应的工作。

这样的模型比今天我们看到的典型具身智能系统模型要复杂得多。今天我们看到许多四足机器狗、轮式机器狗、人形机器人、机械臂等，其控制维度和观测维度（即前面讲的动作空间和状态空间）的数量级大约是几十个。

而我们这个肌肉驱动的人体模型，即使在简化层次上，其规模也大了*两个数量级。

因此，如何控制它也是一个非常困难的事情。这里我们不深入讨论如何控制的具体细节，而是简单说明自我意识如何在此体现。

在我们的问题框架中，自我意识被认为是所有可以向上传递的信息。它是自下而上形成意识的唯一源头。

我们的本体感觉，是人类实时从全身肌肉获取的信息。至于这些信息在哪一级被整合、在哪一级被过滤、从哪一级开始能被我们的意识显著放大，我们今天还很不了解。但至少我们知道，这些是本体感觉意识的来源。

如果我有好的控制方法，能够驱动这个迄今为止可能最类人的动力学模型，那么我们或许就有希望了解运动相关意识的来源是什么。

因为当我们看到这些模型时，我们知道人类会做这些动作，但在完成一个动作的整个时间序列里，你身上的每一块肌肉是如何收缩的，没有人知道。我们也没有实验可以测量这个过程。

我们能做的是用模型逐渐逼*这个过程。模型可以告诉我们一些可能永远无法在真人身上实测的信息输入，并基于此探索哪些是形成高级意识的基础信息源。

同时，我们还需要在真人身上进行相应实验，以确保模型与真人运动过程本身是相符的，没有显著偏差。

这就是我们从世界模型到自身模型，最终实现自身控制的过程。大家可以看到，我们可以控制模型来模仿一个特定人的步态。

左上角是我们的模型，四个图都是我们的模型，但只有左上角是我们的方法。我们最初希望模型构建出来后，现有方法就能有效驱动它，但后来发现显然不是这样。

无论是自然行走，还是让人穿上外骨骼，将来大家可能会想，在自己进行各种与环境交互的测试之前，我们可以先做这样的模拟尝试。

对于一些残障人士，例如需要安装假肢的人，我们可以模拟假肢安装后，他使用起来是否舒适、能否行走、在整个过程中的信息（本体感觉的所有信息）如何向上传递。基于这些，我们或许能了解如何形成相应的运动相关意识。

这些都要求我们能够有效地控制系统。

前面涉及算法类的工作，我们略过。这里涉及大量机器学习和优化以及高性能计算。因此，在右下角我们致谢了AMD为我们提供高性能计算*台。

最终，我们自下而上构建的自我意识，正如开篇所示，整个蓝色背景闪烁，让人看不清标题。这实际上是一个人在实现左边步态（10秒过程）时，其本体感觉向上传递的*3000维信息。当然，我们进行了简化，因为每块肌肉我们做了有限维度的处理。

下面红色的矩阵随时间变化，是我们给所有肌肉的控制信号。必须有这样的控制信号，它才能动起来，否则可能会立刻摔倒。请注意，这是基于动力学的真实控制方式，不是计算机图形学的动画效果，而是真实可驱动的物理过程。

在这个层面上，我们可以进一步将其与人类向上的神经系统结合，观察如何对意识自下而上、一步一步的形成进行量化描述。

因此，左边我们点明了今天的主题：这是我们的自身模型，也是通往AGI之路上的重要一步。今天我们觉得AGI只是时间问题，而非有无问题。

我们整个背景是：如何潜入自我意识的海洋。

最后，我做简单总结。今天的报告主要聚焦于具身智能中自身模型的构建，希望通过这种自下而上的方式，构建一个意识的量化描述。

我们从世界模型到自身模型，最终到自我意识可能的呈现方式。在这个过程中，我们希望在可预见的将来，与大家一起迎接人类智能聚变的时代。这里的“聚变”是fusion，意指融合，而非仅仅是剧变或快速变化。

人类智能的融合，是我们在今天强烈感受到正在发生并将持续快速发生的事情。

我的报告到此结束。

课程名称：可计算的自控感 🧠🤖

课程编号：P4

在本节课中，我们将学习“自控感”这一核心概念。自控感是我们对自己行为与外部结果之间因果关系的主观感受，它是意识、自由意志乃至社会道德与法律责任的重要基础。我们将探讨自控感是什么、如何测量、如何在计算上实现，以及它为何对构建负责任的人工智能至关重要。

什么是自控感？

控制感是我们拥有主观意愿，采取行动，并导致外部结果时的一种感受。例如，你每天回家按开关开灯，这一过程流畅自然。但如果开关不在原位，或灯在你触碰前突然亮起，你会感到“一惊”。这种瞬间的警觉信号便是控制感的丧失。

简单来说，控制感是一种“我来、我见、我征服”的主观体验。我们知道自己在做什么，并知晓行为的后果。这种对自身行为与外部世界的掌控，是自由意志与意识的重要基石。

自控感的生理基础

上一节我们介绍了自控感的概念，本节中我们来看看它的生理基础。自主运动与非自主运动在神经系统层面存在根本区别。

以下是一个课堂演示：

当你想抬起自己的手时，大脑运动皮层会发出指令，通过脊髓传递到手臂。
手臂上的电极可以截取到这个电信号，经放大器放大后操纵一个机械臂同步运动。
但如果由他人抬起你的手（非自主运动），你的运动皮层不会发出指令，电极无法截取信号，机械臂也不会运动。

这个例子表明，我们能够不依赖外部反馈（如观察机械臂），仅凭内在感受就能判断一个运动是否由自己自主产生。这种判断能力不仅限于运动，也延伸到言语、思维乃至对本能和情绪的抑制。

为何自控感对AI至关重要？

理解了自控感的生理表现后，我们探讨其社会意义。我们认为，构建具备自主控制能力的人工智能，可能是创建有社会道德、负责任的AI的必要条件。

在法律上，“刑事责任能力”指自然人需具备辨认和控制自己行为的能力，否则不承担法律责任。这正是儿童、部分精神疾病患者或因脑瘤丧失控制力的人免于刑责的原因。同样，教唆犯比被教唆者责任更大；无意之举（如打喷嚏引发事故）比蓄意行为的道德谴责更小。

这一切都基于“我意识到并能控制自己行为”的感受。它是所有社会责任、道德与法律的基础。没有自控感，奖励与惩罚便失去意义。

因此，若想构建有社会责任的AI，仅靠对齐奖励系统（让AI学习人类好恶）可能不够。我们可能需要让系统能够将自己的行为与后果建立连接，从而发展出类似人类的道德感。

自控感可以测量与计算吗？

既然自控感如此重要，一个关键问题是：它能否被客观测量并在计算上实现？答案是肯定的。

心理学家通过经典实验发现，自控感可能是一种“脑补”。在实验中，两名被试面对面用鼠标控制屏幕光标。实际上，光标有时由对面的“假被试”控制。当真被试做出的动作与假被试一致时，他常会“脑补”认为是自己控制了光标。

更极端的实验中，被试通过屏幕观看“自己”的手势，但屏幕实际播放的是他人做同样手势的录像。当手势复杂时，被试有很大概率认为看到的是自己的手。若大脑左侧顶叶受损，这种错误会更明显。

这些例子揭示的是一种“回顾性控制感”：大脑在看到行为结果时，会实时推断“这个结果是否由我造成？”我们选择研究这种回顾性感受，原因有二：

它可以通过学习获得，从而建构更强大的控制能力。
它可以在计算上实现。

自控感如何通过学习获得？

上一节提到自控感可学习获得，本节我们通过具体例子来看这一过程。

婴儿的策略性微笑
婴儿约在4个月大时发展出“策略性微笑”。研究发现，母亲微笑的策略是最大化母子共同微笑的时间；而婴儿的策略是最大化母亲对自己微笑的时间。婴儿会在母亲可能停止微笑时（如图中零点后约1-2秒）再次微笑，以延续母亲的微笑。这展示了通过控制自身肌肉运动（微笑）来操控外部世界（母亲行为）的能力。

学习操控外部工具
我们还能学习操控非身体部分，如工具或脑机接口。

一个里程碑实验中，猴子通过操纵杆移动屏幕光标来获取果汁。科学家同时记录其运动皮层神经元活动，并训练机器学习算法解码其运动意图。随后，猴子被允许仅通过“意念”（即解码后的神经信号控制机械臂）来移动光标获取奖励。猴子最终学会了这种控制方式。

这说明智能体（包括猴子）可以通过学习，获得对假肢、工具等外部对象的控制感，实现更强大的智能。后来，这只猴子甚至能用意念实时操控大洋彼岸的一个巨型机器人。

自控感的计算原理：归因理论

既然自控感可学习，我们是如何获得的？神经科学的一个经典假说认为，大脑是一个持续进行推理、预测和归因的机器。

以视觉为例：光线在视网膜成像，大脑通过一个“生成模型”来推断最可能的物体。例如，大脑比较“如果是苹果，视网膜感受如何”与“如果是橘子，感受如何”，从而判断所见之物。

类似地，“脑补”出的控制感也可能是一种归因计算。我们看到行为结果（果），大脑通过生成模型推断最可能的原因（因），并判断该原因是否是自己。例如，获得巨大成功后，大脑会评估“因运气好而成功”与“因努力而成功”的概率，从而反推成功是否源于自身。

用公式表示这一归因过程的核心：

P(原因=自我 | 观察到的结果) ∝ P(观察到的结果 | 原因=自我) * P(原因=自我)

即，判断结果是否由自我导致的概率，正比于“自我导致该结果的可能性”乘以“自我作为原因的先验概率”。

归因计算的系统性偏差

然而，这种归因计算会产生系统性错误。斯金纳的鸽子实验是一个著名例子。

鸽子学会啄键以获得食物（正常的条件反射）。
随后，食物改为随机掉落，与鸽子行为无关。
但鸽子并未学会“等待”，反而持续啄键，并“迷信”地认为是自己的行为导致了食物出现。

从强化学习角度看，这很奇怪：如果行为（啄键）不再带来更高奖励，智能体应调整策略，停止该行为。但鸽子却形成了“虚妄的控制感”。

一种解释是，归因算法可能存在基于“事件稀疏性”的偏差。鸽子可能并非在每次行为后归因，而是在每次获得奖励（稀疏事件）后，回溯之前的行为并建立连接。它推断：“因为我啄键，所以得到奖励的概率高”，从而持续该行为。

这种基于结果（而非行为）的归因模式，在老鼠实验和神经层面（如多巴胺神经元活动）得到了证据支持。

自我归因与一般归因的区别

你可能会问：将控制感视为归因是否准确？毕竟它特指“关于自我的归因”。研究表明，自我归因与一般归因存在系统性差异。

在多臂老丨虎丨机任务中，人们通过试错寻找奖励概率最高的机器。研究发现：

当获得奖励时，人们倾向于归因于自我（“我选对了机器”）。
当未获得奖励时，人们倾向于归因于外界（“运气不好，小概率事件”）。

即：成功归内因，失败归外因。这可以解释一些社会现象，如某些成功者将自己的成就主要归功于努力，而旁观者则可能认为他们只是“在上升的电梯里做俯卧撑”。

相反，抑郁症患者的归因模式常与此相反：将失败归内因，成功归外因。精神分裂症患者则表现出更系统性的归因偏差。这说明，关于自我与一般性的归因，由神经系统进行着系统性的不同计算。

总结与展望

在本节课中，我们一起学习了“自控感”这一构建意识与负责任AI的核心概念。

维特根斯坦曾提出一个问题：“我的胳膊被抬起”与“我举起胳膊”有何区别？我们猜测，其区别可能就在于“自我控制感”。

我们了解到：

自控感可通过学习获得，使智能体能控制外部世界乃至虚拟社会，变得更强大。
自控感可通过归因算法实现，在生物和人工智能中均可计算。
自控感是道德与责任的基础，对构建有社会性的AI至关重要。
生物智能的自控感存在系统性偏差，如基于稀疏性的归因、自我与非自我归因的不对称性。

这引出了新的问题：如果未来我们希望AI拥有自控感，我们应让它具有与人类相同的偏差，还是不同的偏差？抑或它会产生自身独有的新偏差？这些问题值得我们在通往通用人工智能的道路上持续探索。

课程名称：意识与通用人工智能 - 第五讲：意识是可计算的吗？ 🧠💻

概述

在本节课中，我们将探讨一个核心问题：意识是否可以被计算？我们将从不同学科的观点出发，分析意识的本质，并探讨通过计算建模来理解和模拟意识的可能性。课程将结合哲学、计算机科学、神经科学以及具体的计算模型案例，旨在为初学者提供一个清晰、全面的理解框架。

一、问题的提出与初步探索

报告者最初提出了一个宏大的问题：“意识是可计算的吗？”。为了寻求答案，他首先咨询了大型语言模型GPT。GPT的回答虽然全面，但并未给出明确结论，只是指出了问题的复杂性。

GPT的回答主要分为三类观点：

哲学观点：意识是一种主观体验（现象性）。有人认为其具有独特性质，无法简化为物理或计算过程；也有人认为可以通过某种形式进行计算。
计算机科学与人工智能观点：研究者试图通过模拟大脑的计算过程来创建具有某种意识的人工系统（例如图灵测试），但目前仍面临技术和理论障碍。
神经科学观点：意识是大脑活动的产物。通过研究大脑的结构与功能，可以理解其机制。随着科技发展，我们可能更好地理解并模拟意识。

然而，GPT的总结是：目前尚无被广泛接受的方法能完全解释或计算意识，其本质可能超出了当前科学与技术的范畴。这个回答并未解决问题，因此需要我们自己深入思考。

二、核心概念的澄清：什么是“可计算”？

在探讨意识是否可计算之前，必须澄清“意识”和“可计算”这两个概念的含义。

长久以来，主观体验（意识） 与 科学方法 存在脱节。科学追求可量化、可实证、可预测的客观规律；而主观体验是个人真切的、有时难以言说的感受。报告者认为，既然主观体验是真实存在的，我们就应该像对待其他科学问题一样，尝试对其进行更清晰、更量化的描述。

那么，这里的“可计算”具体指什么？早期的认知科学有“认知即计算”的观点，将认知过程类比为计算机的符号加工系统，认为大脑是遵循理性法则处理感官输入的信息处理器。但这种“软件（认知）与硬件（身体）分离”的观点可能是不准确的。

报告者提出的“可计算”，指的是 神经计算建模。具体而言，就是用计算建模的方法来模拟或解析主观经验背后的神经机制。这是一种 涌现的计算。

涌现是指一个复杂系统通过自组织产生出与组成元素截然不同的复杂行为和功能。其特点是无法根据局部性质预测整体行为。生活中的鸟群、蚁群以及当前的大语言模型，都展现出涌现现象。

大脑的计算正是典型的涌现计算。大脑由约 10^11 个神经元和 10^15 个连接组成，单个神经元功能简单，但构成的复杂网络能产生无法从局部预测的整体功能。这就是 心智网络 的观点：网络状态在外部输入和内部先验知识（储存在神经元连接中）的共同驱动下演化，最终达到一个稳态（心智状态），涌现出特定功能。

这种基于网络状态演化的涌现计算，与现代计算机的串行计算有本质不同。报告者团队长期关注的 连续吸引子网络 就是大脑信息表征的一种标准模块，它能将先验知识储存在网络连接中，从而表征物体及其之间的复杂关系。

总结来说，报告者认为，意识或主观体验可能是大脑神经网络通过涌现的动力学方式产生的。

三、涌现计算与主观体验的例证

为了说明大脑的涌现计算如何可能产生主观体验，报告者引用了一个经典的计算神经科学工作。

研究者训练一个神经网络完成分类任务。他们发现，随着训练数据量的增加，网络分类误差的下降并非*滑的。在某个临界点，误差会突然急剧下降，精度大幅提升。研究者将这种现象与禅宗的“顿悟”体验类比。

这个模型的关键在于，神经元的连接模式是类似“0/1”的二值模式。这提示我们，像“顿悟”这样的主观体验，其神经基础可能就源于大脑中复杂的、类似二值模式的突触连接网络在完成学习任务时表现出的涌现特性。

这个例子表明，大脑特定的结构和计算方式，可能赋予了我们神奇的主观体验。

四、无意识下的高效计算

在探讨意识之前，我们先看看大脑在 无意识 状态下能完成哪些高效计算。一个典型的例子是 多模态信息整合。

我们通过眼、耳、口、鼻等多种感官感知世界，大脑会无意识地将这些信息整合起来，从而获得比单一感官更优的感知结果。例如，在听报告时，我们不仅听声音，还会看演讲者的口型（唇读），这种视听整合能显著提高语音识别的清晰度。

神经科学家通过实验（如研究猴子如何整合视觉和前庭觉信息来判断运动方向）证明，在无意识状态下，大脑进行的是一种 统计上最优的贝叶斯推理。相比之下，在有意识时，我们反而容易犯各种非理性的错误。

报告者团队用计算建模（两个相互连接的连续吸引子网络）成功地复现并解释了这一机制。模型不仅完美地执行了贝叶斯推理式的信息整合，还能进行信息分离。这说明，无意识下的计算可能更为高效和优化，这是生物长期进化的结果。

五、从空间认知到具身认知

空间认知 是我们获取、组织、利用和更新空间信息的基础能力。哲学家康德认为，空间和时间是我们认识世界的基本形式。空间认知的重要性在于，它可能是理解 具身认知 的突破口。

具身认知 认为，我们的身体结构、活动方式以及感觉运动体验，决定了我们如何认识世界。例如，我们以身体为中心定义了上下、左右、远*等空间关系，随后又将这种空间隐喻拓展到描述更抽象的关系和情感上，如“拔高”地位、“贬低”他人、“关系亲密”或“思想边缘化”。

从神经生物学看，这可能源于进化的保守性。低等动物负责空间感知的脑区（如海马体），在高等动物进化出新皮层处理更复杂的语言、文化时被“复用”了。我们利用已有的空间处理“工具”来处理抽象关系。

在空间认知的神经机制研究中，海马体的 位置细胞 和内嗅皮层的 网格细胞 构成了大脑的“GPS”系统，这项发现获得了诺贝尔奖。这两套系统是互补的：

海马位置细胞：依赖环境线索（视觉、嗅觉），编码具体、局部的位置信息，形成环境依赖的地图（如北京市地图）。其编码鲁棒但低效。
内嗅皮层网格细胞：依赖自身运动线索，编码抽象、全局的空间关系，形成度量地图（如经纬度坐标）。其编码高效但对噪声敏感。

通过计算建模（如连续吸引子网络），可以将这两套系统整合，模拟大脑同时进行 同步定位与地图构建 的过程。大脑的神奇之处在于，它同时构建了具体的环境地图和抽象的空间概念地图。

更令人惊奇的是，有研究尝试用模拟海马-内嗅皮层的计算环路，去学习非空间的、抽象的关系（如家族谱系）。结果发现，海马环路学会了表征具体关系，而内嗅皮层环路则学会了表征抽象关系。这强有力地支持了“进化保守性与复用”的假说，也表明我们复杂的认知和关系表征，可能建立在空间认知的神经基础之上。

六、意识理论的计算建模前景

回到“意识是否可计算”的主题，报告者分析了当前两个主流的意识理论，并认为它们都具备用计算建模进行探索的潜力。

信息整合理论：该理论认为，当大脑各区域间的信息被高度整合时，意识就产生了。例如，观察一张被分割的图片时可能无法理解，一旦图片拼合，意识瞬间让你“看出”是什么。报告者认为，可以扩展之前多模态信息整合的模型，用多个连续吸引子网络模拟不同脑区，从数学上探索信息整合达到意识状态的机制。
全局工作空间理论：该理论认为，大脑有多个专门模块，意识产生于信息被广播到一个“全局工作空间”供各模块访问。这种架构同样可以用现有的计算建模工具进行构建和模拟，尽管目前尚未在大尺度模型上实现。

七、总结与展望

本节课我们一起探讨了“意识是否可计算”这一深刻问题。

报告者的观点总结如下：

意识是可计算的吗？ 答案是 肯定的。这是一种基于当前AI和脑科学发展现状的信念。对比大脑，现有大语言模型的动力学已经简单很多，却能产生令人惊讶的类智能行为。如果构建更贴*大脑结构与动力学的模型，产生意识是可能的。
实现的路径是什么？ 路径在于构建 “类脑认知大模型” 。这比当前的语言模型更接*真实的大脑，因为意识源于大脑。
现在是合适的时机吗？ 是的。过去意识研究曾是禁区，但如今AI、脑科学和计算建模的飞速发展，使我们有可能正式对主观体验进行科学的、计算化的解释。
从哪里入手？ 应从 具身认知 入手，特别是从已有大量实验证据、神经机制相对清晰的 空间认知 开始。通过计算建模理解这个基础，有望在未来逐步揭开更复杂的主观体验与意识之谜。

本节课中，我们一起学习了：从多学科视角审视意识问题，理解了“涌现计算”和“神经计算建模”的核心概念，通过顿悟、无意识整合、空间认知等实例看到了用计算模型解释心智现象的可行性，并展望了通过构建类脑模型来探索意识前沿的理论前景。

课程名称：意识与通用人工智能圆桌讨论精要 🧠🤖

概述

在本节课中，我们将一起回顾一场关于“意识”与“通用人工智能”的深度圆桌讨论。多位顶尖科学家围绕AGI的定义、意识的内涵、AI与人类智能的差异以及未来发展路径等核心议题，展开了激烈而富有洞见的思辨。我们将梳理并提炼其中的关键观点，以帮助初学者理解这些复杂而前沿的概念。

一、重新审视AGI中的“G”：通用还是生成？

主持人首先抛出了一个根本性问题：AGI中的“G”究竟意味着什么？它是否等同于“意识”？

刘嘉老师首先给出了标准定义：G代表“通用”，即在一个开放环境中处理各种任务的能力。但他进一步提出了一个更具启发性的观点：G或许也代表“生成式”。 正是人类的“生成”能力，使我们能够不断创造，甚至可能创造出全新的智能“物种”。

罗欢老师则从人类认知的视角提出了质疑。她认为，“通用智能”这个概念可能源于人类对自身独特性的捍卫——每当出现超越我们当前理解的智能行为，我们便用“不够通用”来界定它。她指出，真正的“通用”或许应指向强大的泛化能力，即能根据瞬息万变的环境动态调整策略。

陆思老师补充道，AGI的经典定义源于“先解决AI，再用AI解决一切问题”的愿景。它隐含的目标是解决人类能力集合所涵盖的所有问题。她倾向于认为，在实现这一目标的过程中，意识可能已经自然涌现。

朱露莎老师对“全人类知识集合”的定义提出了挑战：如果以此为标准，那么任何人类个体都不具备“通用智能”。她认为，AGI更应从能力上定义：它是一个能够自主学习并适应以完成各种任务的智能体，能主动寻找所需知识。

吴思老师直言自己从未严肃对待过AGI的定义问题，因为“智能”本身的定义就充满人类中心主义偏见。我们常将自身不擅长（如围棋）而机器擅长的事视为“智能”，却忽略了人人擅长的手眼协调等本能行为其实极其复杂。他认为，人类最核心的能力是强大的学习与适应能力。

杜凯老师给出了一个不同的答案：G代表“知识外推”的能力。他以大模型解答未见过的数学题为例，指出当前AI在需要逻辑推理和知识迁移的任务上仍有明显缺陷。真正的通用智能应能进行有效的知识外推。

核心概念小结：

通用能力：在开放环境中处理广泛任务。
生成能力：创造新内容、新解决方案。
泛化与适应：根据新环境、新信息动态调整。
知识外推：将已有知识应用于全新场景。

二、实现路径之争：极致压缩 vs. 具身交互

上一节我们探讨了AGI的目标，本节我们来看看实现路径上的一个关键分歧：AGI是否需要与真实世界进行具身交互？

杜凯老师提出了这个尖锐问题：以OpenAI为代表的流派认为，通过对海量数据的极致压缩就能学到世界的全部规律，无需交互；而以“具身智能”为代表的流派则认为，与真实世界的交互不可或缺。

隋老师认为两者并不矛盾。一个完美的模拟器本身就是对复杂环境的极致压缩。之所以需要与真实世界交互，正是因为当前的模拟器还不够完美，压缩得不够好。智能之所以能解决复杂问题，正是因为世界在某种程度上是可压缩并可被表征的。

朱露莎老师从神经科学角度指出，人脑确实对知识进行压缩，但智能行为包含完整流程：压缩 → 存储 → 解压缩并应用于新环境。仅仅压缩是故事的一半，如何在新情境下有效“解压缩”并生成可用的新表征，同样至关重要。

吴思老师赞同智能包含内部模型（压缩）和与外界交互两部分。压缩是抓住数据本质的统计规律，但智能的根本在于适应环境变化，这必然需要与环境的互动和效应器的参与。

刘嘉老师进一步阐述了两种“压缩”观：一种是寻找概率关联，另一种是形成关于世界如何运作的“世界模型”。要判断AI属于哪一种，需要比较生物与人工神经网络在表征上的异同。他强烈认为，真正的类人智能需要具身学习。“读万卷书”与“行万里路”的感受截然不同，没有身体的AI无法获得后者那种反馈。因此，当前大模型只是AGI的“火花”或雏形。

罗欢老师明确反对用“压缩”观点解释智能。她认为世界是动态、不确定的，知识并非静态存在且总量固定。智能，如同婴儿的成长，更是一种通过与世界互动而获得适应能力的过程，而非将已知世界装入脑中。

核心概念小结：

数据压缩：从海量数据中提取本质规律与统计模式。
世界模型：对世界运行法则的内部表征与理解。
具身交互：通过物理身体与环境互动，获得多模态反馈。
压缩-解压缩循环：智能不仅关乎知识存储（压缩），更关乎在新环境下的灵活应用（解压缩）。

三、人类智能的独特壁垒：意识、内驱力与死亡

在比较AI与人类智能时，一个核心问题是：人类拥有哪些AI难以复制的特质？

吴思老师认为差异太多，人类社会极其复杂，当前AI（如GPT）仅在语言等特定方面表现突出，但缺乏众多基础能力，尤其是具身能力。

当被问及“人类最难被AI复制的特质”时，罗欢老师坦言这是一个容易“被打脸”的问题，因为AI正在不断攻克人类曾自认为独有的疆域（如情感、语言）。她认为，“意识”作为集大成者的“皇冠问题”，以及元认知（对自身思维的审视与追问）能力，可能是当前尚未被攻克的堡垒。

刘嘉老师提出了一个鲜明的观点：死亡意识。他认为，人类是唯一明确知晓自己终将死亡的物种。这种对死亡的恐惧与超越死亡的渴望，构成了人类文明不断“内卷”、探索与创造的根本内驱力。而AI没有生命期限，缺乏这种源于生命本能的、恐惧驱动的进化动力。这是人类与AI目前一个关键且难以弥合的区别。

隋老师从另一个角度呼应：人类有相对固定的生存周期，这深刻影响了我们的智能演化与社会形态。而AI系统没有这样的周期，这是一个根本性差异。虽然可以设计奖励系统来模拟，但“该不该做”是另一个问题。

朱露莎老师认为，即使技术上可以尝试对齐，但死亡意识等大量内驱力是潜意识层面的，无法被人类主观汇报，因此难以通过现有的“人类反馈”对齐机制让AI习得。

杜凯老师的补充视角是：人类有许多行为没有明确的损失函数，如爱、悲伤、自发的探索行为。这些随机、自发、非功利的行为，是人类跳出局部最优、实现关键进化的要素，但很难用当前AI依赖的明确优化目标来指导。

核心概念小结：

死亡意识与内驱力：对生命有限的认知所激发的创造与进化动力。
元认知：对自身思维过程进行监控、评估与调整的能力。
潜意识与内感觉：无法被语言精确描述，但指导行为的内在状态。
无损失函数行为：爱、好奇、自发探索等非功利、难以被量化目标驱动行为。

四、对齐、进化与未来：加速还是减速？

面对AI可能超越人类的未来，我们应采取何种态度？是加速发展还是谨慎减速？

朱露莎老师提出一种乐观路径：利用AI作为工具来实现人类更有效的对齐，促进沟通与理解。

刘嘉老师是“有效加速主义”的支持者，主张“边造船边开船”。他展望了一个更激进的未来：将人类的意识、记忆、性格上传至机器，实现另一种形式的“永生”，从而摆脱肉体和死亡的限制，让文明进入新境界。他认为脑科学与AI的结合是当前最重要的科学问题。

吴思老师态度更为超然。他认为当前AI仍是“混合智能”，离不开人的参与。至于超级智能的威胁，他认为是“谋事在人，成事在天”。他个人更关注利用AI帮助我们在有生之年回答“灵魂三问”等终极问题。

隋老师指出，发展速度不仅是意愿问题，更是能力问题，我们可能没有太多选择空间。他深刻理解先驱们的担忧：在人类社会那套基于漫长历史迭代出的价值体系还未来得及调整时，AI的快速发展已带来巨大挑战。AI在取代岗位的同时，新创造岗位的“质”与“量”需要审慎评估。

罗欢老师认为，源于“求新求异”的人性本质决定了人类不可能完全对齐。每个人都希望既合群又独特，这种内在张力是社会活力的来源。

核心概念小结：

有效加速主义：在发展过程中同步解决出现的问题，而非停滞等待。
意识上传：将人类心智数字化以实现永生的科幻构想。
价值体系挑战：AI的快速发展对传统社会结构与伦理价值的冲击。
人性与对齐：人类追求独特性与差异化的本能，与完全“对齐”目标存在内在矛盾。

五、观众问答精选

以下是讨论中观众提出的两个代表性问题和老师的解答：

问题一：是否存在培养内驱力的“标准程序”？

背景：一位有工程与教育背景的观众询问，是否存在一套科学方法，能帮助青少年建立稳定的内在驱动力。
罗欢老师解答：这类似于教育部的核心课题。她认为，单纯的知识灌输不够，关键在于通过项目式探索学习。让学生在完成具体项目、获得反馈、主动补充知识、再获得反馈的循环中，内驱力会自然建立起来。这非常类似“具身认知”的理念。

问题二：为何不优先开发人类自身潜能？

背景：一位观众质疑，为何不集中精力开发人类自身（传说大脑仅开发6%），而要大力发展AI。
刘嘉老师解答：“大脑仅开发6%”是误区，我们100%在使用大脑。但人类智能存在生理上限：大脑约3.5斤，受制于心肺供能，其算力已被“锁死”。仅靠自然进化，一百万年後人类的智力基础可能并无飞跃。发展AI是人类突破自身生物限制，让文明进入更高境界的必然选择。

六、 AGI何时到来？—— 科学家的时间表

课程最后，我们以各位科学家对AGI实现时间的预测作为结尾，与去年的预测对比，饶有趣味：

隋老师：认为在某种定义下已经基本实现，但出于安全等综合考虑，其完整能力尚未全面开放。
罗欢老师：如果它已经到来，社会应学会与其和谐共处，将其作为思想工具。
吴思老师：如果作为国家重大立项课题投入，约5年内可能在清晰定义下取得解决。
朱露莎老师：取决于“简单定义”还是“难的定义”。后者（如具备意识、自驱力）可能需要十年以上。
杜凯老师：对比去年模型进步速度，略有失望，预测从原来的5-10年倾向10年。
刘嘉老师：认为主要技术障碍已清除，剩下多是工程问题。实现是“有生之年系列”，甚至明年就可能由AGI来做报告。他去年的预测是2030年。

总结

本节课中，我们一起学习了关于意识与通用人工智能的多维度思考。我们探讨了AGI内涵的争议（通用 vs. 生成），比较了不同的实现路径（压缩 vs. 具身），剖析了人类智能可能独特的壁垒（死亡意识、元认知等），并审视了面对AI未来的不同态度（加速 vs. 反思）。最后，我们也看到了科学家们对AGI降临时间的不同预期。这场讨论揭示，AGI不仅是技术工程，更是深刻的科学、哲学乃至社会命题。理解这些思辨，将帮助我们更好地迎接与智能共存的未来。

课程01：2024智源大会智慧医疗论坛背景与嘉宾介绍 🏥

在本节课中，我们将学习2024年北京智源大会“智慧医疗和生物系统”主题论坛的背景信息，并了解本次论坛的核心议题与参会的重要嘉宾。

人工智能的迅速发展，为智慧医疗和生命计算领域带来了新的机遇。相关研究已成为计算科学、生物医学工程以及临床医学等交叉学科的前沿热点。

同时，该领域的发展也面临着许多亟待解决的重大挑战。因此，我们召开了本次论坛。

本次论坛将聚焦于智慧医学研究的相关热点，探讨人工智能在医学与生物医学工程方面的研究进展、当前成果与未来规划。

为了深入探讨这些议题，我们邀请到了国内外多位著名专家。

以下是今天与会的主要专家名单：

英国皇家工程院院士、曼彻斯特大学教授 FRANGE
欧洲科学院院士、西湖大学金要储教授
牛津大学雷明教授
北京大学第一医院李建* 教授
北京安贞医院龙德勇教授
北京大学人民医院朱天刚教授
哈尔滨工业大学王宽泉教授
中山大学张赫叶教授
浙江大学夏林教授
北京大学鸿森达教授
北京航空航天大学李帅教授
北京航空航天大学潘建清教授
哈尔滨工业大学李清澈副研究员
智源学者、北京大学马雷副研究员
北京大学第一医院李玉曦教授
北京建筑大学随栋副教授

以及各位列席专家。

本次论坛的另一个重要初衷，是吸引更多有志之士关注并加入智慧医疗这一充满潜力的研究领域。

本节课中，我们一起学习了2024智源大会智慧医疗论坛召开的背景、核心讨论议题以及强大的嘉宾阵容。论坛旨在汇聚顶尖智慧，共同应对挑战，推动人工智能在医疗健康领域的创新与发展。

课程名称：隐私保护机器学习在医疗健康领域的应用 🛡️💊

概述

在本节课中，我们将学习金耀初教授关于隐私保护机器学习在医疗健康领域应用的分享。课程将涵盖联邦学习的基本框架、面临的挑战，以及三个具体的研究案例，旨在探讨如何在保护数据隐私的前提下，充分利用分散的医疗数据进行机器学习。

演讲嘉宾介绍 🎤

金耀初教授分别于1988年、1991年和1996年获得浙江大学学士、硕士和博士学位，并于2001年获德国洪堡大学工学博士学位。他是欧洲科学院院士、IEEE Fellow，同时也是国家级高层次海外人才计划入选者。现任西湖大学人工智能讲席教授、可信及通用人工智能实验室负责人。

金教授长期致力于人工智能与计算智能的理论、算法和工程应用研究，已发表论文500余篇，被引5万多次，h-index为108。自2019年以来，连续五次被列为全球高被引科学家。

课程内容

1. 研究背景与动机 🤖

上一节我们介绍了演讲嘉宾，本节中我们来看看课程的研究背景。当前人工智能的成功很大程度上依赖于大数据，其前提是能够随意获取数据。然而，随着欧盟GDPR等法规的出台，数据的隐私和所有权问题日益受到重视。传统的集中式学习需要收集数据，存在隐私泄露风险。

传统集中式学习框架：

数据收集 -> 中央服务器存储 -> 训练全局模型

其局限性在于数据收集需经同意，且数据离开本地后存在隐私与安全隐患。

一种替代方案是在每个终端设备上单独训练模型，但受限于单个设备的数据量和分布，无法充分利用所有数据的价值。

因此，核心矛盾是：既要充分利用所有数据的价值，又要保护数据的隐私和安全。

2. 隐私保护技术概览 🔒

为了解决上述矛盾，业界提出了多种隐私保护计算技术。

以下是几种主要的技术：

多方安全计算： 允许多方在不泄露各自输入信息的情况下共同计算一个函数。
差分隐私： 在数据中加入特定噪声，使得外部无法推断出单个数据点的来源。其挑战在于噪声大小需要权衡：噪声小则隐私保护弱，噪声大则模型质量下降。
同态加密： 对加密数据进行计算，解密后的结果与对明文数据进行相同计算的结果一致。其局限性在于计算复杂度高，且通常只对加法和乘法同态，对机器学习中的非线性操作支持有限。

3. 联邦学习框架详解 🌐

本节我们将深入探讨本次课程的核心框架——联邦学习。联邦学习由谷歌于2016年提出，是一种分布式机器学习框架，其核心理念是 “数据可用不可见”。

联邦学习基本流程（横向联邦）：

服务器初始化一个全局模型，并将参数分发给各客户端（如医院、手机）。
各客户端用本地私有数据训练接收到的模型。
客户端将训练更新后的模型参数（或梯度）上传回服务器。
服务器聚合所有客户端的参数更新（例如，使用加权*均公式：W_global = Σ (n_k / N) * W_k，其中 n_k 是第k个客户端的数据量，N 是总数据量，W_k 是第k个客户端的模型参数）。
服务器将聚合后的新全局模型参数再次分发给各客户端，重复步骤2-4，直至模型收敛。

除了数据条目不同的横向分割，还存在纵向分割场景，即不同客户端拥有同一批样本的不同特征。例如，银行拥有用户的财务特征，医院A拥有用户的肝脏检查特征，医院B拥有用户的胃部检查特征。这种情况更为复杂。

4. 联邦学习面临的挑战 ⚠️

尽管联邦学习能保护隐私，但也带来了新的挑战。

以下是几个主要的挑战：

通信开销： 模型参数在多轮迭代中需要频繁在服务器与客户端间传输，对于大模型而言通信成本高昂。
数据异构性： 不同客户端的数据分布（非独立同分布，Non-IID）、标签分布可能差异巨大，影响全局模型的收敛与性能。
隐私泄露风险： 仅传递参数或梯度仍可能被恶意客户端通过模型反演等攻击推断出原始数据信息，因此常需结合差分隐私、加密等技术，但这会增加计算成本。
系统异构性： 客户端的计算能力、通信带宽、在线时间各不相同，难以实现完美的同步训练。
公*性与个性化： 统一的全局模型可能无法满足所有客户端的个性化需求，如何在保证性能的同时兼顾公*性与个性化是一大挑战。

5. 应用案例一：联邦生成对抗网络用于医学影像合成 🧠🖼️

上一节我们了解了联邦学习的挑战，本节我们来看第一个应用案例。在医疗领域，获取多模态、高质量的医学影像（如MRI、PET）成本高昂，且不同医院间因隐私问题难以共享数据。

研究动机： 能否在联邦学习框架下，利用多家医院的分散数据，协作训练一个生成对抗网络，以合成高质量的缺失模态影像，同时不泄露各医院的原始数据隐私？

方法框架：

采用CycleGAN等生成对抗网络结构。
在联邦设置中，仅对生成器进行联邦训练。各医院本地训练生成器，上传参数至服务器聚合，再下载更新后的生成器。
判别器仅在本地使用私有数据训练，不参与联邦聚合。
为增强隐私保护，在本地训练中引入了差分隐私随机梯度下降方法，对梯度进行裁剪和加噪处理。

核心公式（差分隐私SGD步骤简化）：

计算梯度 g。
梯度裁剪：g ← g / max(1, ||g||_2 / C)，其中 C 是裁剪阈值。
添加噪声：g ← g + N(0, σ^2 C^2 I)，其中 σ 与隐私预算 ε 相关。

实验表明，在数据非独立同分布程度较高时，该方法相比传统联邦学习方法能有效提升模型收敛性和生成图像的质量。

6. 应用案例二：增强判别器训练以处理未配准数据 🔄

本节是上一个案例的延伸。在实际医疗场景中，部分影像数据可能因患者移动等原因存在未配准（如旋转、*移、缩放）的问题，这些“有瑕疵”的数据通常被弃用。

研究动机： 能否在训练判别器时，有效利用这些未严格配准的数据，提升判别器的判别能力，从而间接改善整个生成对抗网络的性能？

方法：

在训练本地判别器时，除了使用原始数据，额外构造三种数据增强版本：旋转、*移、缩放。
在损失函数中，不仅包含原始数据的损失项，额外加入针对这三种增强数据的损失项，迫使判别器学习更鲁棒的特征。
损失函数形式化表示为：L_total = L_original + λ_1 * L_rotate + λ_2 * L_translate + λ_3 * L_scale

实验证明，这种融合多种几何变换增强的训练策略，能显著提升模型在处理未配准数据时的鲁棒性和生成效果。

7. 应用案例三：联邦学习用于生物医学文本关系抽取 📄🔗

最后，我们来看一个在自然语言处理领域的应用。从生物医学文献或电子病历中抽取实体间的关系（如“药物治疗疾病”）是构建知识图谱的关键。这些文本数据分散在不同机构且包含敏感信息。

研究动机： 如何在保护隐私的前提下，利用多家机构的文本数据，共同训练一个高性能的文档级关系抽取模型？

方法：

采用联邦学习框架，各机构在本地训练关系抽取模型，仅共享模型参数。
针对文档级关系抽取中实体对可能多次出现、关系复杂的特点，在模型训练中引入了对比学习思想。
通过设计对比损失函数，使模型更好地学习到真正存在关系的实体对表征与无关实体对表征之间的差异，从而提升抽取精度。

该方法在保护数据隐私的同时，有效聚合了多源知识，提升了关系抽取模型的性能。

总结 🎯

本节课中，我们一起学习了隐私保护机器学习在医疗健康领域的重要性与实践。金耀初教授系统地介绍了联邦学习这一核心框架，剖析了其优势与面临的通信、异构性、隐私安全等挑战。通过三个具体案例——联邦GAN用于医学影像合成、利用未配准数据增强训练、以及联邦学习用于生物医学关系抽取——我们看到了联邦学习与差分隐私等技术结合，在保护数据隐私的前提下，有效提升模型性能的可行性与潜力。这为在医疗、金融等强隐私要求领域开展协作式人工智能研究提供了重要的思路与工具。

课程名称：基于机器学习的心脏影像处理 🫀

概述

在本节课中，我们将跟随张贺烨教授的报告，学习如何将机器学习技术应用于心脏影像处理。课程将涵盖从研究动机、技术挑战到具体应用案例的完整流程，重点介绍如何利用人工智能技术提升心血管疾病的诊断与治疗水*。

心血管疾病的研究意义

心血管疾病在全球范围内，尤其是在中国，依然是导致死亡的主要原因。然而，研究数据显示，自2012年起，中国农村地区的心血管疾病死亡率开始显著高于城市地区。这一差异提示我们，开发先进的图像处理算法和无创诊断方法，并将其应用于医疗条件相对落后的农村地区，具有重要的社会意义和研究价值。

关注心脏影像的原因

在心血管疾病诊断中，除了非影像筛查方法（如心电图、血压测量），影像诊断技术（如超声、CT、MRI）能够提供更丰富的心脏结构和功能信息。因此，将机器学习应用于这些影像的分析，可以极大地提升图像识别与理解的效率，从而辅助医生进行更精准的诊断。

医学图像处理的挑战与机遇

很自然地，在医学图像处理领域，我们首先会借鉴计算机视觉的技术。计算机视觉中的目标定位、目标分割和视频运动追踪等任务，与医学图像分析有诸多相似之处。

以下是计算机视觉技术在医学图像中的一些应用对应关系：

目标定位：对应心脏在影像中的定位。
目标分割：对应血管内/外膜的分割。
运动追踪：对应超声影像中的斑点追踪技术。
多视角分析：对应血管造影中不同角度的识别。

然而，直接将计算机视觉模型应用于医学图像并非总能成功。例如，尝试使用Meta的SAM模型处理心脏超声或OCT图像时，效果并不理想，需要进行大量调试。

医学图像处理面临的核心挑战在于成像机制的巨大差异。超声依靠声波反射，CT依靠X射线透射衰减，MRI依靠电磁共振，这与计算机视觉主要处理的自然光成像原理完全不同。成像机制的不同必然对图像处理方法提出独特挑战。

更重要的是，在心血管图像分析中，我们不能仅仅关注结构信息，还必须关注功能学信息，例如血管内的血流速度和压力状态。如何从结构图像中无创地计算出这些功能参数，是医生非常关注的焦点，也是研究的难点。

引入新知识以应对数据稀缺

通过对计算机领域和医学图像领域的调研，我们发现，在自然图像处理中实现模型泛化性的常用方法是改进学习模型，例如增加数据量、训练大模型。

在医学图像领域，我们当然可以从计算机视觉中学习新技术来构建新模型。但受限于医院的数据量，医学影像通常难以获得大规模的训练样本。在训练样本本身受限的情况下，如何实现模型的泛化性成为一个极具挑战性的问题。

因此，我们课题组的一个重要思路是引入新的知识。这些新知识包括与结构相关的先验信息，以及我们*期重点关注的物理信息。

具体而言，我们探索如何将流体力学方程、固体力学方程以及电动力学方程嵌入到学习模型中。将这些物理信息模型整合进来，有助于降低模型对海量样本数据的需求。当你把新的知识加入到模型中后，很自然地，你需要针对小样本量的场景进行模型设计。这时你会发现，你不再需要为应对样本量不足而进行特殊设计。

应用案例一：低剂量造影剂下的高质量成像

我们*期关注的一个方向是造影剂的使用。在CT成像中，通常需要向静脉注射造影剂以获得清晰图像。然而，造影剂对肾功能不全或有过敏风险的患者存在影响。医生自然希望使用尽可能少的造影剂来获得高质量的成像效果。

为此，我们与安贞医院影像科合作，在符合伦理要求的前提下，对同一病人进行了多次扫描：一次使用少量碘对比剂，另一次使用正常剂量。我们的目标是研究能否从低剂量造影剂图像中重建出高质量的冠状动脉图像。

在我们的方法中，采用了CycleGAN模型进行图像对比和重建。这是因为我们拥有的数据部分是配对的（同一病人有两种剂量图像），部分是不配对的（不同病人只有一种剂量图像），CycleGAN适合处理这类情况。

在146名患者的数据集上，我们进行了量化评估。从图像质量上看，将重建后的低剂量图像放入安贞医院的标准影像工作站进行主动脉重建后，结果显示，诊断所需的主动脉结构非常清晰，完全处于临床可接受的状态。这项视觉上与质量上都成功的重建工作，证明了人工智能确实能够提高成像质量，并降低患者对造影剂的摄入。相关成果已发表在 European Radiology 期刊上。

应用案例二：多模态心脏影像分割

图像分割是许多后续辅助诊断工作的基础。我们重点关注如何利用多种模态的心血管影像。正如前面金老师提到的，不同医院可能拥有不同模态的优势数据（如超声、MRI），但单个中心的数据往往稀疏。能否利用不同人、不同模态的数据进行多模态分割，对于结构性心脏病或心脏再同步化治疗具有重要意义。

在术前，医生希望将不同模态的心脏影像分割结果融合到同一患者的解剖结构上，以制定更好的治疗策略。这面临一个现实问题：不同检查费用差异大（超声约200元，CT约1000元，MRI约1000-2000元），导致单一中心收集全模态数据非常困难。

我们的思路是采用元学习的方式，利用不同模态数据共有的信息——心脏结构。无论模态如何，人的心脏都具有四个腔室（两个心室、两个心房）这一共同结构。将这种结构先验知识融合到模型中，可以帮助模型理解不同模态、不同视角下的心脏结构信息。

我们设计了一个相对简单的元学习网络结构。在两个数据集上进行了验证：一个是2018年的公开小数据集，另一个是我们合作的安贞医院（CT）、深圳医院和广州陆军总医院（超声）的私有数据。结果显示，模型在MRI、CT和超声影像上对心内膜、心外膜的分割结果吻合度很好，分割精度令人满意。

应用案例三：功能学定量评估——以冠脉血流储备分数为例

我们课题组另一个重要方向是如何进行功能学的定量评估。从数学角度看，这通常是一个逆问题：功能决定了结构和临床观察，但临床上我们通常只能得到观察数据，如何从中反推出功能参数挑战很大，且常是病态问题，难以求解。

这里我们以冠脉血流储备分数为例。FFR的定义很简单，是狭窄处远端压力与*端压力的比值。公式为：
FFR = P_distal / P_proximal
正常情况下若无狭窄，FFR应等于1。若存在狭窄导致FFR降至0.8以下，则通常需要植入支架治疗。

美国HeartFlow公司采用计算流体力学仿真的技术，基于术前的CTA扫描图像，通过仿真计算FFR值，而无需使用介入导丝进行有创压力测量，这项技术很有意义。

我们首先尝试并改进了这项仿真技术，调整了流体边界条件。在221名患者（实际为301例数据）的测试中，我们的仿真结果与金标准吻合度较好，相关成果作为封面文章发表在 Medical Physics 期刊上。

完成仿真后，我们产生了一个更有趣的想法：能否用深度学习替代仿真，让模型学习物理行为？这在计算机视觉领域已有探索，例如学习小球运动或流体力学模式。

在我们的工作中，我们利用前面构建好的流体力学仿真模型来生成训练样本。请注意，所有训练样本均来自仿真模型，未使用任何真实患者数据。 在训练时，我们使用树状LSTM网络来提取血管的形态特征。训练数据是仿真的血管结构及其对应的压力数据。测试时，则完全使用真实患者的血管数据。这对于计算机模型而言很有意思，因为它的训练数据和测试数据完全来源不同，更能证明模型的泛化能力。

这项与深圳科亚医疗合作的工作，在13000例仿真数据上训练，并在180例真实血管数据上测试。结果显示，无论以0.75还是0.8为临界值，模型的AUC（曲线下面积）效果都很好。后续科亚公司使用了更大规模的数据进行训练，在泛化能力上取得了更优的结果。我们基于较小数据量完成的初期工作已发表在 Neural Networks 期刊上。

我们后续在冠状动脉功能多参数评估（如IMR）方面，以及与西南医院、北京大学第一医院合作在主动脉方面的研究工作，也即将投稿。欢迎大家关注我们的后续工作，并期待更多的合作机会。

总结

本节课我们一起学习了基于机器学习的心脏影像处理。我们从心血管疾病的研究意义出发，探讨了将计算机视觉技术应用于医学图像时面临的独特挑战，特别是数据稀缺和成像机制差异的问题。我们介绍了通过引入物理信息等新知识来应对这些挑战的思路，并具体展示了三个应用案例：低剂量造影剂下的高质量图像重建、多模态心脏影像分割，以及利用深度学习模型从结构图像中无创计算血流储备分数等功能参数。这些工作表明，人工智能技术有望在提升心血管疾病诊疗水*、降低医疗成本方面发挥重要作用。

课程名称：临床心肌缺血预测手段及困难 🫀

概述

在本节课中，我们将学习冠心病诊断的临床需求、现有预测心肌缺血的技术手段，以及在实际应用中面临的困难与挑战。课程内容基于李建*院长的报告，旨在帮助初学者理解心血管疾病诊断的核心概念与流程。

冠心病诊断的临床需求与分类 🏥

上一节概述了课程目标，本节中我们来看看冠心病诊断的基本背景。冠心病主要分为两大类型。

稳定型冠心病：临床预后相对较好，但诊断较为困难。
急性冠脉综合征：包括急性心肌梗死等危重类型，诊断相对容易，但治疗和预后管理挑战大。

临床上面临的核心问题是，如何为大量症状不典型或稳定的患者选择最合适的检查方法，避免不必要的医疗行为，同时确保诊断的准确性。

稳定性冠心病的诊断路径与挑战 🗺️

上一节我们介绍了冠心病的分类，本节中我们来看看针对稳定性冠心病的具体诊断流程。国际指南提供了清晰的诊断路径，但在实际操作中存在困难。

诊断流程通常始于对患者症状的评估。以下是基于欧洲指南的一个典型诊断步骤：

症状评估：首先判断心绞痛症状是否典型。经验丰富的医生通过问诊，对疾病存在与否有较高的初步把握度。
风险评估：根据症状评估结果，将患者得病的可能性分为不同等级（如 >15%， 5%-15%）。
无创功能学检查：根据风险等级，推荐进行下一步检查。例如，通过运动或药物诱发心肌耗氧量增加，同时进行监测。
- 运动负荷试验：患者在运动时进行心电图监测，观察是否出现缺血性改变。
- 其他负荷影像学检查：包括负荷超声心动图、负荷核素心肌灌注显像等，用于评估心脏功能。

尽管路径明确，但如何精准执行每一步，并选择最合适的检查手段，是临床实践中的主要挑战。

冠状动脉病变与功能学评估的重要性 🔍

上一节我们讨论了诊断路径，本节中我们来看看为什么单纯的影像学检查有时不够，以及“功能学评估”的概念为何至关重要。

冠状动脉系统远比影像上看到的复杂。我们通过CTA或造影看到的较大血管只占整个冠脉循环的不到10%，而更远端、连接心肌细胞的微血管床占90%以上。这套微血管系统具有强大的自我调节能力。

核心概念：当某处大血管出现狭窄时，远端微血管可能代偿性扩张，以维持心肌供血。这意味着，存在解剖学狭窄（有斑块）不等于心肌一定缺血。

因此，如果仅依据影像学发现的狭窄进行治疗，可能导致 “治疗过度” （对不引起缺血的狭窄进行干预）或 “治疗不足” （忽略了其他导致缺血的原因）。这就是为什么大型临床研究发现，对稳定性冠心病患者，在优化药物治疗基础上常规植入支架，并未在降低心梗、死亡等“硬终点”事件上显示出显著额外获益。

解决问题的关键，在于进行 “功能学评估” ，即直接评估冠状动脉狭窄是否真的导致了心肌缺血。

心肌缺血的功能学评估技术 🛠️

上一节我们明确了功能学评估的意义，本节中我们来看看具体有哪些技术手段。功能学评估旨在量化冠状动脉狭窄对血流的影响。

以下是几种主要的功能学评估方法：

有创压力导丝测量（FFR）：这是过去的金标准。将一根带有压力传感器的导丝送入冠状动脉，跨越狭窄病变。在药物诱发微血管最大扩张的状态下，测量病变远端的压力与主动脉根部压力的比值。公式：FFR = Pd / Pa（Pd为狭窄远端压力，Pa为主动脉压力）。FFR ≤ 0.80 通常认为存在有临床意义的缺血。
基于造影的计算FFR（caFFR）：无需压力导丝，通过冠状动脉造影的影像数据进行血流动力学计算，得出FFR值。这是一种无导丝的功能学评估方法。
基于CTA的计算FFR（CT-FFR）：更进一步的无创评估方法。直接利用冠状动脉CTA的影像数据，通过复杂的流体力学算法模拟计算出血流储备分数。代码逻辑示意：CT-FFR = 基于CTA影像进行三维重建 + 应用计算流体力学(CFD)模拟血流 + 计算特定点的压力比值。

这些技术共同的目标是，更精准地识别那些真正因冠状动脉狭窄而导致心肌缺血、从而可能从血运重建（如支架）治疗中获益的患者。

新兴评估手段：心肌应变与人工智能 🤖

上一节我们介绍了基于冠脉影像的功能学评估，本节中我们来看看从心脏本身功能入手的新兴评估手段——心肌应变分析，以及人工智能在其中扮演的角色。

心脏收缩并非像气球一样简单膨大缩小，而是心肌纤维复杂、协调的力学运动，类似于“拧毛巾”，这是最有效的泵血方式。心肌应变 即是测量心肌纤维在收缩期发生形变（缩短）程度的指标，能敏感地反映心肌缺血导致的局部收缩功能异常。

传统超声心动图即可测量心肌应变。如今，结合人工智能技术，可以更高效、精准地分析应变数据，并建立预测模型。例如，研究团队利用AI算法分析心肌应变参数，旨在开发无创预测心肌缺血的新工具。研究逻辑：收集患者心肌应变数据 + 配对金标准缺血证据（如FFR）→ 使用AI模型（如深度学习）进行训练 → 验证模型预测缺血的准确性。

这代表了从“评估血管”到“评估心肌”的视角拓展，为心肌缺血的综合评估提供了新的可能性。

总结与展望 🌟

本节课中，我们一起学习了临床心肌缺血预测的完整图景。

我们首先了解了冠心病诊断的临床需求与分类，指出了稳定性冠心病诊断的难点。随后，梳理了从症状评估到无创负荷试验的标准诊断路径及其挑战。课程的核心在于阐述了 “功能学评估” 的重要性，解释了为何解剖学狭窄不等于心肌缺血，并介绍了从有创FFR到无创CT-FFR等一系列评估技术。最后，我们展望了通过心肌应变分析和人工智能等新兴手段，从评估心肌本身功能的角度来预测缺血的前沿方向。

总之，心肌缺血的精准预测是心血管领域的重大临床需求。它需要综合解剖学与功能学信息，并依赖于心血管医学、影像学、工程学和人工智能等多学科的深度融合与创新合作。

课程名称：基于可信执行环境的AI医学影像挑战赛发布 🏥💡

概述

在本节课中，我们将学习由北京大学第一医院李玉溪主任介绍的“基于可信执行环境的AI医学影像挑战赛”。我们将了解该挑战赛发起的背景、核心痛点、技术解决方案以及具体的竞赛任务。课程将重点阐述如何利用隐私计算技术，在保护医疗数据安全的前提下，推动人工智能在医学影像领域的应用与发展。

一、挑战赛背景与痛点

感谢李建*主任的精彩报告。接下来由李玉溪主任介绍基于可信执行环境的AI医学影像挑战赛。李玉溪是北京大学第一医院信息中心副主任、心内科副主任医师，擅长常见心血管疾病的临床评估与诊治。

他尤其专注冠脉及高血压介入治疗，参与多篇心血管疾病大型临床研究项目，以第一作者发表SCI论文十余篇。

医院的数据非常宝贵。中国的专家可能没有这个感受，但如果真的去欧美，要跟医院合作使用数据真的很难。国家整体的战略数据，将来是新的生产要素。拥有大量医疗数据的医疗机构，有意愿拥抱人工智能，让这些数据真正发挥作用。

但是这里面有需求，也有痛点。医院很有意愿与人工智能的研究机构、公司合作，但这里面存在数据安全问题。中国的医疗机构很缺乏数据安全的防范能力。

数据价值如何去保护也是一个问题。一旦这些数据，哪怕是脱敏的数据给到了任何第三方，未来实际上就失去了这份数据本来可能有的价值。

合作模式也存在困难。到底谁做得好，很难有一个条件来证实。因为大家都说做得好，但到底好不好，其中的验证成本很高。

这导致的一个后果就是，医院会要求所有人必须来医院内部合作。很多工作都必须到医院里面去做。这对于研究机构和公司而言，无疑增加了成本。公司也会有顾虑，担心把自己的核心算法模型放在医院，会有被其他竞争者接触的风险。

二、解决方案：可信执行环境（TEE）

在这样的背景下，国家提出了可能实现“原始数据不出域，数据可用但不可见”的目标。

从这样的过程中，我们提出了一个大胆的想法。好在有张教授和智源研究院的支持，使得我们能够利用这样的一个机会。

我们最初的想法，是想利用众多人工智能学会开展的测评竞赛模式。这是一种很成熟的模式：提出一个任务，让参与者在同一个公*的*台上竞争，看看到底谁做得好。但关键是如何解决上述痛点。

现在，智源研究院以及提供技术支持的荣安数科公司，提出了基于可信执行环境（TEE）的技术路线。

在这个技术路线之上，我们希望通过这个小小的尝试，能够打造未来的生态模式。例如，医院将来可以对内建设医学影像数据资产管理*台。这些数据可以很好地去隐私化，我们可以整理出数据的维度、病人的临床资料、随访时长等信息。

对外，我们可以形成一个交易或查询*台。未来任何第三方，如公司、药厂、保险企业，需要了解医院数据时，我们可以提供信息。这就有可能进行后续的数据确权以及良性的合作。

最后，如果有这样一个隐私计算*台，就能够提供一个更公*的竞争和选型环境，甚至有可能改变未来很多招标的流程和模式。

三、竞赛初衷：肾动脉功能学评估

这次的竞赛前期特别感谢张教授、智源研究院以及今天在座的各位专家团队的大力支持。

下面我以简短的时间，跟大家汇报一下我们这个竞赛发起的初衷和一些简单的细则。

背景是冠脉功能学很重要。我们这次的竞赛其实是围绕肾动脉。肾动脉是引起高血压和缺血性肾脏病的一个非常重要的病因。

肾动脉狭窄的治疗方式就是药物和支架。但介入治疗到目前为止，几个大规模的随机对照试验（RCT）研究也都是阴性结果，这与稳定性冠心病的情况如出一辙。

过去这些研究回过头来分析，肯定有一些可能的偏移问题。例如，纳入了很多狭窄程度并不重的患者。另外，那些非常严重的患者，因为这是随机对照研究，医生和患者都不愿意参与。因为一旦参与，可能会被随机分到药物治疗组，但医生和患者都觉得应该放支架。这些病人的数据并没有进入RCT。

这导致的一个直接后果是，欧美现在基层的医生基本不再给大医院推荐做肾动脉支架的病人。最后一篇RCT研究是2014年发表的，到现在已经过去了10年。

在去年，欧美的专家认识到，这个RCT其实影响了很多病人，很多病人可能耽误了最佳救治时机。所以在去年，发表了一篇最新的关于肾血管性高血压血运重建的专家立场声明。其中说明不是所有的病人都不该做，而应该去挑选合适的病人。

问题来了：我们怎么去挑选？目前无论是中国、美国还是欧洲的指南，都没有一个特别确定的标准来界定什么病人该放支架，什么病人不该放。

我们回想到，冠脉是走过了这样一个循证的历程。最早我们就是基于造影，超过70%狭窄就放支架，70%以下不放。但一系列的研究，甚至用假手术对比的随机对照研究，都没有看到阳性结果。

随着压力导丝，到后续基于冠脉造影的人工智能技术（如QFR、CFR、FFR），现在积累了大量的循证医学证据，证明基于功能学的支架治疗优于过去基于造影的判断，甚至优于单纯的药物治疗。

我们的这个工作，就是希望看看能不能把同样的功能学理念引入到肾动脉评估中。

在这个基础上，我们在临床中已经开始了探索。我们最早的一例病人是2019年开始做。当时这个病人通过了功能学的评估，也获得了非常良好的预后，到现在随访超过5年，他的血压和肾功能都保护得很好。

我们就想把它转化成为一个循证的证据。在李院长牵头下，我们开展了所谓“FIRE Pilot”的一个研究。这个研究完全是一个随机对照研究的设计。我们有很好的前期的研究方法，中间也给病人进行了多模态的影像评估，包括肾动脉超声、磁共振，当然也有我们术中的造影和FFR测量的肾动脉压力参数。我们就是希望看看这样的方法是否可行。

在Pilot研究中，目前我们已经完成了所有病人的入组，正在进行随访。我们总共随机了106例患者。现在已经有了一些初步的数据分析。今年这个主要研究可能也要在今年的欧洲心脏病学年会上进行汇报。

四、挑战赛任务与数据

在这个过程中，我们就希望能够开展这样一个临床挑战赛。

它的背景和初衷有两个：
第一，将来一定要像冠脉一样，跨过压力导丝，进入利用影像和人工智能算法直接得出肾动脉功能学指标的阶段。
第二，就是刚才的背景，有没有可能通过隐私计算的方式，探索出一个新的创新合作模式。

我们把Pilot研究的106个病人的数据全部进行了汇总。我们提供了一批样例数据，希望大家能够在这个基础上开展人工智能算法的研发工作。

这些数据我们提供了几类样例：

术中的肾动脉造影图像：动态的DICOM原始格式、去隐私化的数据。并且在这里面我们进行了QCA软件的标注，由专业医生完成了狭窄程度和狭窄部位的标注。
手术过程中的压力导丝数据：测得的肾动脉的FFR值，包括远端的*均压、病变*端的*均压以及基线的压力数据。

在这个过程中，我们很遗憾确实只能提供少量的数据。在医学领域，很多场景下我们只有小数据，还没有大数据。但是我相信，在人工智能非常专业的专家团队的带领下，即便用这些小数据，也应该能够探索出未来的方法。

我们初步计划会提供10例标注好的样例数据。每一例都有病人肾动脉的详细直径、狭窄、病变的直径、参考血管数据，以及FFR值、术中的压力结果和我们的影像。

最终我们希望拆分成三个任务：

任务一：识别血管狭窄的关键帧。因为一个造影图像从空白到填充造影剂，里面有很多帧，需要识别出最能体现狭窄的关键帧。
任务二：根据关键帧的图像，完成图像中狭窄区域的勾勒和分割。
任务三：完成肾动脉FFR值的人工智能算法预测。

智源研究院以及我们合作的隐私计算团队，给大家提供了运行的硬件和软件环境。后续期待各位专家如果有兴趣，可以跟我们进一步合作。

五、总结与启动

关于整个挑战赛的背景和任务，我简单就汇报到这。

最后，我们再次邀请张恒贵教授、李建*副院长以及李亚聪老师，一起来进行一个简短的挑战赛发布仪式。

我们特别感谢大家见证我们这个“肾动脉功能学计算的、基于隐私环境下的计算挑战赛”的正式宣布启动。

总结

本节课中，我们一起学习了“基于可信执行环境的AI医学影像挑战赛”的完整介绍。我们了解了医疗数据共享的痛点、可信执行环境（TEE）作为“数据可用不可见”的解决方案、以及本次竞赛聚焦的肾动脉功能学评估的临床背景。竞赛旨在利用少量但高质量的标注数据（包括造影图像和压力导丝FFR值），通过三个具体任务（关键帧识别、狭窄分割、FFR预测），推动AI在肾动脉疾病精准治疗中的应用，并探索一种基于隐私计算的新合作生态模式。

课程名称：个体化心脏建模仿真技术及其临床应用前景 - P6

📘 概述

在本节课中，我们将学习个体化心脏建模仿真技术的基本原理及其在心律失常治疗中的临床应用前景。我们将了解如何利用患者的心脏磁共振影像构建三维数字心脏模型，并通过计算机仿真来预测心律失常的起源、规划消融靶点以及评估猝死风险。这项技术旨在解决传统电生理标测的局限性，实现更精准、高效的心脏疾病诊疗。

🧠 第一部分：心律失常治疗的挑战与现状

上一节我们概述了课程内容，本节中我们来看看当前心律失常临床诊疗面临的主要挑战。

心律失常是心脏疾病诊治的难点。其他心脏疾病（如结构性心脏病）可通过影像检查直接观察病灶，但心律失常与心脏电活动异常相关，在常规影像中“看不见”。

正常心律与失常心律对比：
- 正常心脏的兴奋传导非常有规律。
- 当心脏特定区域（如心尖）受到异常刺激时，电活动会变得紊乱，导致心跳过快（心动过速）甚至心室颤动。心室颤动是致命的，必须立即进行电除颤。

治疗心律失常的关键在于找到并消融异常电活动的起源点（靶点）。目前的主流方法是经导管射频消融术。医生将导管经血管送入心脏，通过释放射频能量破坏异常组织。

然而，确定消融靶点本身是一大挑战。临床上主要依赖心内电生理标测系统（如强生公司的CARTO系统或雅培的EnSite系统）来逐点测量心脏内膜的电活动。

当前标测技术存在以下问题：

耗时：手术中需要反复诱发心律失常并进行标测，这个过程占据了大量时间。
维度局限：虽然系统显示三维心脏模型，但导管主要接触心内膜，因此标测实质上是二维的。对于位于心外膜或心肌中层（心肌壁内）的靶点难以探测。
可能遗漏潜在靶点：临床诱发通常只在少数几个预设点进行刺激，可能无法诱发出所有潜在的异常通路，导致消融不彻底，复发率较高。

🏗️ 第二部分：个体化心脏建模的原理与方法

上一节我们介绍了传统标测技术的局限，本节中我们来看看个体化心脏建模仿真技术如何提供新的解决方案。

该技术的核心思想是：为每位患者构建一个专属的、包含解剖结构与电生理特性的数字心脏模型，并在计算机中进行仿真，预测心律失常的发生机制。

以下是构建与使用个体化心脏模型的关键步骤：

数据获取与模型构建：
- 对患者进行心脏磁共振扫描，特别是使用钆对比剂延迟增强序列。这项技术可以清晰显示心肌的疤痕组织（完全坏死的细胞）和灰区（存活但功能受损的细胞）。
- 利用人工智能技术，全自动地从影像中分割出心脏的三维几何结构，并区分健康心肌、疤痕和灰区。这大大提升了建模效率。
- 公式示例：模型构建可视为一个图像分割与三维重建的过程，其输出是一个包含不同组织标签的网格模型 M = {vertices, faces, labels}，其中 labels ∈ {健康心肌, 疤痕, 灰区}。
赋予电生理属性：
- 在结构模型的基础上，为其赋予生物物理特性。
- 这包括心肌纤维的走向（各向异性），以及不同类型心肌细胞（如心内膜层、中层、心外膜层）的动作电位模型。
- 代码示例：电传导仿真常使用反应-扩散方程来描述，例如 ∂u/∂t = ∇·(D∇u) + I_ion(u, w)，其中 u 是膜电位，D 是扩散张量（反映纤维走向），I_ion 是离子电流。
虚拟刺激与仿真计算：
- 在数字模型上，按照美国心脏协会的标准，在多个位置（如19个点）施加虚拟的电刺激（模拟引发心律失常的早搏）。
- 运行仿真计算，观察电波在包含疤痕和灰区的复杂结构中的传导情况，看是否会形成导致心动过速的折返环路。

💡 第三部分：临床应用场景与案例

上一节我们讲解了如何构建和仿真心脏模型，本节中我们通过具体案例来看看这项技术的三大临床应用方向。

场景一：指导室性心动过速消融

目标：精准定位消融靶点，实现一次性彻底消融。
过程：通过仿真，可以计算出维持心动过速的关键峡部（通常是疤痕与健康组织交界处的缓慢传导区）。这些位置可能位于心内膜、中层或心外膜。
案例效果：仿真计算出的消融靶点（青色区域）与临床医生实际手术中确定的靶点（红色区域）高度吻合。仿真还能发现传统标测可能遗漏的潜在靶点，有望降低复发率。

场景二：预测心脏性猝死风险，指导ICD植入

目标：更准确地判断患者是否需要植入植入式心律转复除颤器（ICD）。
现状问题：目前主要依据左心室射血分数（LVEF<35%）来决定是否植入ICD，准确率有限（约20-30%），导致该植入的未植入，不该植入的反而植入。
仿真方法：在患者模型上进行广泛诱发测试。如果在多个刺激点都能诱发出恶性心律失常（如室速/室颤），则判定为高风险。
案例效果：
- 正向案例：对一例扩张型心肌病患者仿真，诱发出频率为178次/分的室速，与实际心电图记录的180次/分高度一致。该患者随后植入ICD，并在数月后成功放电除颤，验证了预测的准确性。
- 反向案例：一例房颤术后患者，仿真显示其猝死风险极高，但未接受ICD植入建议，数月后猝死。
- 统计：在北京安贞医院的初步研究中，该方法的预测准确率达到了96%。

场景三：优化房颤消融策略

目标：为房颤患者规划更彻底的消融线路，降低复发率。
方法：利用心脏磁共振识别心房纤维化区域。在包含纤维化结构的左心房模型中进行仿真，找出所有可能维持房颤的折返环路或关键驱动灶。
案例效果：针对一位多次消融后复发的难治性房颤患者，仿真发现了多个位于左心房和右心耳的折返环。据此规划了新的消融线路（包括必要的肺静脉隔离和其他线性消融），术后患者长期未复发。
优势总结：该方法有望实现 快速、准确、彻底 的消融。
- 快速：术前完成仿真规划，节省术中标测时间。
- 准确：仿真能发现心内膜、中层、心外膜等各层的靶点。
- 彻底：通过在电脑上对多个区域进行虚拟诱发，尽可能找出所有潜在靶点，力争一次手术解决。

🎯 总结

本节课中我们一起学习了：

个体化心脏建模仿真技术 通过整合患者的心脏磁共振影像与计算生理学，构建出能反映个人心脏结构（疤痕、灰区）和电功能的三维数字模型。
该技术主要应用于三大临床场景：指导室速的精准消融、预测猝死风险以优化ICD植入决策、以及规划更彻底的房颤消融策略。
其核心价值在于弥补传统心内标测的不足（如维度局限、耗时、可能漏靶点），通过 “在电脑上先模拟” 的方式，实现更快速、准确、彻底的心脏电生理治疗，最终目标是降低手术复发率和改善患者预后。

这项技术代表了计算医学在心血管领域的前沿应用，是连接基础研究、工程技术与临床实践的重要桥梁。

课程名称：智慧医疗与生物系统 - P7：硅试验的挑战与机遇 🧪

概述

在本节课中，我们将学习 Alejandro Frangi 教授关于医疗产品创新中“硅试验”的演讲。我们将探讨如何利用计算建模与仿真技术，以更快、更可持续的方式开发更安全的医疗器械，并理解其在现代医疗监管与研发中的关键作用。

医疗产品创新的现状与挑战

当前，医疗产品（无论是药品还是医疗器械）的创新过程非常漫长，需要经历多个阶段以确保安全性和有效性。这些阶段包括台架试验、动物试验和人体测试。然而，每种方法都存在局限性，它们并不总能像我们预期的那样有效确保安全。

在医疗器械领域，开发一个新设备的*均成本约为四到五百万美元，且从概念验证到上市后研究的每个阶段都有很高的损耗率和失败概率。一项研究指出，超过50%的医疗器械召回是由于设备设计问题。例如，在美国，过去十年中许多通过FDA许可的设备导致了大量死亡和严重不良事件。这表明我们面临一个严重的问题。

硅试验：一种新的范式

上一节我们介绍了当前医疗产品创新面临的挑战，本节中我们来看看一种潜在的解决方案：硅试验。

硅试验是指在高度受控的虚拟条件下，使用基于计算机的测试和详细的预测模型，来模拟真实世界的情况。其核心思想是“首先，不要伤害到模拟”。在许多其他行业（如汽车和航空航天），在实体制造和测试之前，大部分工作都依赖于模拟。这些行业同样面临多尺度、高度监管和充满不确定性的复杂问题，但它们已经成功实现了从实体到虚拟的转型。

我的问题是：为什么我们不能在医疗保健领域做同样的事情？

硅试验的优势与目标

硅试验的目标不是取代一切，也不是将人体随机对照试验视为完美的黄金标准。我们知道随机对照试验本身也存在局限性，例如选择偏差，以及在罕见病、儿科或联合治疗等领域实施的实际或伦理困难。

我们提倡的是整合多种证据来源。如果你有三个证据来源，就应该结合它们；如果有四个，就更应该如此。通过结合硅试验、台架试验、动物试验和人体试验的证据，我们可以更全面地评估一项技术，从而可能减少所需的人体试验规模，甚至在某些情况下替代部分试验。

以下是硅试验可能带来的具体影响：

优化试验设计：通过更好地理解效应大小，可以设计出更高效的人体试验。
降低风险：识别出注定失败的技术，避免让患者暴露于不必要的风险，也节省公司的研发资本。
补充证据：在缺乏足够患者数据的领域（如罕见病），硅试验可以提供关键的补充证据。

一个著名的案例显示，一家制造商通过硅试验方法，使其产品提前两年上市，减少了约250名不必要的患者参与试验，节省了约一千万美元的试验费用，并让更多患者提前获得了治疗。

实施硅试验的现状与障碍

目前，硅试验正处于发展的活跃期。监管机构如美国FDA已开始更新指南，将建模与仿真纳入考量和证据生成框架。英国和欧洲也出现了相关的实践社区，致力于制定良好的模拟实践标准。

然而，广泛采用仍面临一些障碍：

监管不确定性：行业对建模与仿真的监管要求存在不确定性。
模型质量参差不齐：现有模型的成熟度和可信度标准不一。
人才短缺：缺乏具备足够建模、仿真及证据评估技能的专业人员。

案例研究：脑动脉瘤分流装置的硅试验

现在，我们通过一个完整的端到端案例，来看看硅试验如何付诸实践。这个案例围绕用于治疗脑动脉瘤的分流装置展开。该装置像一个密集的网状支架，植入载瘤动脉后，可以改变血流，促使动脉瘤内形成血栓并最终闭合。

传统的研发路径中，每种新装置都需要进行漫长的随机对照试验，整个过程可能长达七年，而技术迭代很快。在硅试验中，我们可以采取不同的方法。

首先，我们需要一个代表目标人群的解剖模型库。例如，在英国，我们正尝试在地区层面建立这样的库，以获得成千上万的解剖模型。

对于每个解剖模型，我们执行以下步骤：

植入设备：在虚拟模型中植入目标装置。
定义成功指标：例如，“最大时间*均速度减少百分比”，用于衡量动脉瘤颈部血流减少的程度。
模拟不同生理状态：如休息、运动（压力）和高血压状态，观察同一装置在不同条件下的表现。
模拟物理与生化过程：计算血流动力学，并模拟与凝血相关的生化途径。

通过这种管道，我们可以进行大规模的虚拟实验。在一项发表于《自然通讯》的研究中，我们成功地用硅试验复现并扩展了传统临床试验的发现。

研究发现，对于同一患者和同一装置，高血压生理状态会导致更显著的血流减少，但也可能引发血栓延伸至重要的分支血管，造成缺血风险。这解释了为什么在某些临床试验中，患者的反应率较低——可能因为许多患者并未得到良好的高血压控制。硅试验帮助我们揭示了这种设备、解剖结构和生理状态共同作用产生的新行为。

此外，硅试验还能用于：

理解标签外使用：评估设备在获批适应症之外患者群体中的效果。
促进健康公*：分析监管证据对不同种族或族裔群体的公*性。
优化治疗策略：例如，在动脉瘤弹簧圈栓塞术中，硅试验可以帮助确定最佳的“填塞密度”，避免过度治疗（增加破裂风险）或治疗不足（导致复发）。

总结与展望

本节课中，我们一起学习了医疗产品创新的现状与挑战，并深入探讨了“硅试验”这一新兴范式。

我们了解到，医疗产品创新正处在一个拐点，法规需要现代化以跟上技术发展的步伐。建模与仿真在未来监管路径中不可或缺，这既是技术挑战（需要开发正确的模型），也是一场文化转变（需要建立患者和监管机构对模拟证据的信任）。

起点虽小但很重要。我们应该在那些硅试验能产生最大影响的领域率先开始。对于企业而言，理想的研发路径应优先考虑模拟，只有当无法通过模拟得出结论时，再转向传统的台架、动物和人体试验。

希望本次课程能让你对硅试验感到兴奋，并考虑加入这一领域的探索。通过共同努力，我们有望以更快、更安全、更公*的方式，将创新的医疗产品带给患者。

掌声鼓励 👏

课程名称：智慧医学与生命系统：影像、功能与仿真 - 课程编号：P8

概述 📘

在本节课中，我们将学习智慧医学与生命系统领域当前面临的挑战与应对策略。课程内容涵盖心脏影像学、人工智能辅助诊断、心律失常的计算机模拟、心脏医学图像智能分析、医疗时序数据处理以及数字人体孪生技术等多个前沿方向。我们将探讨如何将人工智能、大数据和计算模型与临床医学深度结合，以推动精准医疗的发展。

第一部分：超声医学人工智能辅助诊断的困惑与挑战 🩺

尊敬的各位专家，我们进入下一个专题：智慧医学与生命系统的挑战与应对策略。第一位讲者是来自北京大学人民医院的朱天刚教授。朱教授长期从事心血管疾病的临床、科研和教学工作，在顶级期刊发表论文150余篇。

朱教授的报告题目是《超声医学人工智能辅助诊断的困惑与挑战》。朱教授首先指出，当前医疗领域的数据存在“数据大”而非“大数据”的问题。他以一个体检中心的数据为例，说明大量数据因质量问题而无法有效利用。

人工智能在医学领域的应用热点主要集中在服务管理、辅助诊断和智能知识提升层面。驱动人工智能发展需要三大要素：大数据、大模型和大算力。

在医学影像领域，人工智能在放射科（如肺结节、肺部感染CT诊断）的应用已较为成熟。然而，在心脏诊疗场景中，检查手段（如心电图、心脏超声、CT、心肌核磁、冠脉造影等）往往是“铁路警察各管一段”，而心脏是一个包含电传导、机械、内分泌和管道系统的整体。理想的人工智能诊断*台需要融合这些多模态数据。

目前，国内外医学影像AI公司主要集中在放射科和病理领域，致力于心脏超声AI研究的公司较少。心脏超声AI的发展面临诸多挑战。

以下是心脏超声AI面临的主要挑战列表：

图像数据量大：超声影像数据存储需求巨大，曾导致医院服务器过载。
流程与标准不统一：不同医院、不同医生的图像采集流程、测量参数和报告格式差异很大，缺乏统一标准。
数据质量与标注：缺乏高质量、标准化的图像标注数据集，数据同质性差。
算法与模型局限：不同疾病需要不同的计算模型，现有模型的泛化能力和结果可解释性有限。
临床数据整合困难：单一影像数据不足以支撑复杂疾病的诊断，需要整合临床、检验等多源数据。

面对这些挑战，朱教授提出了未来的发展方向：推动工作流程、数据获取和图文报告的标准化与规范化。同时，开发不依赖心电图、能自动识别心脏周期并进行内膜勾画的技术，以适应中国临床高效的工作节奏。最终目标是构建一个融合多模态影像数据的云*台与AI大模型系统。

第二部分：计算机模拟技术在心律失常诊疗中的应用 ⚡

上一节我们探讨了心脏影像AI的挑战，本节中我们来看看计算机模拟技术在心律失常领域的应用。第二位讲者是来自北京安贞医院的龙德勇教授。龙教授主要从事心房颤动等心律失常的导管消融治疗。

龙教授的报告题目是《计算机模拟技术在心律失常诊疗中的应用》。他指出，心脏电生理研究与生物电原理相同。心电图是诊断心律失常的主要工具，它反映了心脏电活动的时间和空间向量。

人工智能在心电图分析领域展现出巨大潜力。它不仅能进行快速准确的房颤识别，还能通过一份心电图预测患者的性别、体型甚至未来数年发生房颤或猝死的风险。国内已有团队证明，AI读心电图的水*可以超过心电图医师。

在心律失常机制研究方面，计算机模拟技术至关重要。例如，折返（reentry）是许多心动过速的机制，其概念最早便来源于计算机模拟。通过将密集电极置于心脏表面，可以重建心脏的等势图，分析电激动的顺序，这类似于分析地形图或气象图。

以下是计算机模拟与AI在电生理领域的应用方向列表：

体表心电图深度分析：超越传统参数，实现疾病预测与风险分层。
腔内电信号标测：利用导管电极和计算机技术，重建心脏三维激动顺序，精准定位心律失常起源。
三维导航系统：基于磁场或电场定位原理（类似GPS），构建心脏三维模型，实现无X射线的精准手术。
智能急诊辅助系统：开发能达到专科医生水*的AI系统，辅助基层医生快速诊断心律失常，降低院外猝死率。
机器人导管导航：研究磁导航等机器人技术，实现导管的精准全向运动。

龙教授总结道，医生非常希望拥抱计算机和人工智能技术，这在医疗领域有巨大的应用前景，未来有望替代许多急诊和门诊的初级工作。

第三部分：多病理阶段心肌缺血的多尺度建模与药物作用机制研究 🔬

上一节我们了解了心律失常的计算机模拟，本节我们将深入细胞和分子层面，探讨心肌缺血的仿真建模。第三位讲者是来自哈尔滨工业大学的李清策研究员。李研究员致力于利用计算科学方法解决生物医学问题。

李研究员的报告题目是《多病理阶段心肌缺血的多尺度建模与药物作用机制研究》。心肌梗死或缺血的发展包含多个阶段（如缺血早期、晚期、短期心梗、长期心梗），不同阶段心肌细胞的生理功能不同。

研究团队通过多尺度建模方法来研究其机制：首先从心肌细胞离子通道的生理功能出发，用数学模型描述其电活动；然后整合缺血病变过程中的各种生物化学变化因素；最后将细胞模型扩展到组织和整个心脏层面，仿真电信号的传导。

通过构建包含多病理阶段的心脏电生理模型，并在二维、三维组织以及真实心脏几何上进行仿真，他们成功模拟了心肌缺血后折返性心律失常（如螺旋波）的产生过程。分析发现，即使在没有结构性传导障碍的情况下，由于缺血区域细胞兴奋性改变与快速刺激的共同作用，也可能引发折返。

基于此模型，团队进一步筛选抗心律失常药物的作用靶点。他们测试了胺碘酮等多靶点药物，发现其在缺血条件下效果不佳。通过敏感性分析，他们找到了几个关键靶点，并发现降糖药格列苯脲（通过作用于IKATP通道和降低细胞外钾浓度）在仿真中表现出优秀的抗心律失常效果，这为药物新用途的发现提供了线索。

第四部分：心脏医学图像智能分析方法研究 🖼️

前面我们讨论了生理仿真模型，本节我们聚焦于医学影像本身的人工智能分析方法。第四位讲者是来自哈尔滨工业大学的王宽全教授。王教授团队主要从事计算心脏学和医学图像分析研究。

王教授的报告题目是《心脏医学图像智能分析方法研究》。心脏影像分析是AI在医疗领域的重要应用方向，涉及超声、核磁共振（MRI）、CT等多种模态。

王教授团队在多个心脏结构（心室、心房、冠脉）的影像分析上取得了系列成果。在心脏MRI方面，他们研究了左心室自动检测、无需分割直接估计心室容积和射血分数的方法，以及左心房的高精度分割和图像配准技术。

在心脏超声方面，他们开发了三维左心室分割的半监督学习框架，将先验图谱知识集成到模型中，提升了在有限标注数据下的分割性能。

在冠脉CTA分析方面，他们利用强化学习技术自动追踪冠脉中心线，并采用Transformer与卷积网络融合的模型，自动检测和定量分析冠脉狭窄程度。

在血管内光学相干断层成像（OCT）方面，他们实现了斑块的自动跟踪和导管伪影的去除。这些工作大多已开源，并集成了可用的系统*台，推动了心脏影像AI向临床应用的转化。

第五部分：医疗时序数据的人工智能算法及其应用 ⌚

从影像回到信号，本节我们关注另一类重要的医疗数据——时序数据。第五位讲者是来自北京大学的洪申达教授。洪教授的研究方向是医疗时序数据的人工智能算法及其在临床和可穿戴设备中的应用。

洪教授的报告题目是《医疗时序数据的人工智能算法研究及其在临床和智能可穿戴的应用》。心电信号（ECG）是典型的医疗时序数据，具有无创、一致、稳定的特点，有望成为进入千家万户的健康监测手段。

人工智能正在拓展心电信号分析的边界。传统方法主要分析波形特征诊断心律失常，而基于深度学习的AI模型能够从心电信号中挖掘出前所未有的信息，例如预测左心室功能、房颤风险、甚至全因死亡风险。

洪教授团队在算法层面进行了多方面探索：开发了灵活的心电信号专用卷积神经网络骨架；研究了结合专家特征的模型、适用于小数据的自监督学习算法；并探索了心电信号与大语言模型的对齐，实现零样本学习和报告生成。

团队致力于将算法转化为实际应用：开发了获得医疗器械注册证的单导联心电仪和长程心电监测设备；在设备上集成了心室功能评估、心脏年龄预测、阵发性房颤管理等多种创新功能。他们的目标是让已有百年历史的心电图技术重新焕发活力，弥补院外健康管理的空白。

第六部分：数字人体孪生及其在医学中的应用 👤

最后，我们将视角从单个器官或系统提升到整个人体。第六位讲者是来自北京航空航天大学的潘俊君教授。潘教授的研究方向是虚拟现实、计算机动画和手术导航。

潘教授的报告题目是《数字人体孪生及其在医学中的应用》。数字人体孪生是通过几何、物理、生理建模，在数字空间中构建的真实人体的虚拟副本，是虚拟现实技术在医学领域的高级目标。

数字人体可以从抽象层次（几何、物理、生理、智能人体）和空间尺度（从原子、分子、细胞到组织、器官、系统）进行构建。其终极愿景是为个体创建从微观到宏观的数字化备份，用于个性化的药物测试、手术预演，甚至延长“数字生命”。

在现阶段，数字人体孪生技术已广泛应用于医学领域：

手术规划与预演：在虚拟*台上规划手术路径、预演手术流程，提高成功率。
手术训练与评价：通过高仿真的虚拟手术模拟器训练外科医生，减少对动物和尸体的依赖。
新术式研究与转化：验证和推广新型手术技术（如经自然腔道手术）。
增强现实手术导航：将虚拟模型与真实手术视野融合，精准引导手术操作。

潘教授团队在腹腔镜手术模拟、脊柱微创手术AR导航、角膜移植手术导航等方面取得了多项成果，并实现了部分技术的产业化转化，体现了虚拟现实与医学紧密结合的巨大价值。

总结 🎯

本节课中，我们一起学习了智慧医学在心脏与生命系统领域的前沿进展与挑战。我们从朱天刚教授那里了解到心脏超声AI面临的标准化、数据整合等现实困境；跟随龙德勇教授探索了计算机模拟在揭示心律失常机制和辅助精准治疗中的作用；通过李清策研究员的工作，看到了多尺度建模在理解疾病机制和发现药物新靶点方面的威力；在王宽全教授的分享中，领略了AI在心脏多模态影像分析中的强大能力；洪申达教授向我们展示了如何将心电AI算法落地到可穿戴设备，服务院外健康管理；最后，潘俊君教授为我们描绘了数字人体孪生这一未来医学的宏伟蓝图。

这些报告共同揭示了一个趋势：智慧医学的发展需要医学专家与人工智能、计算科学、工程学等领域的研究者紧密协作，共同攻克数据、算法、模型和临床转化中的难题，最终实现从疾病诊断、机制理解到治疗规划、健康管理的全链条智能化，造福人类健康。

课程一：智能驾驶论坛背景与嘉宾介绍 🚗

在本节课中，我们将了解2024年北京智源大会智能驾驶论坛的背景、核心议题以及与会的重要嘉宾。我们将探讨人工智能与大模型如何为自动驾驶领域带来变革，并梳理当前产业面临的机遇与挑战。

尊敬的黄院长、各位嘉宾、论坛现场及线上的各位专家、同行和媒体朋友们，大家下午好。感谢组委会的邀请，我很荣幸再次主持今年的智能驾驶论坛。首先，请允许我代表论坛组委会，感谢大家在百忙之中抽出时间前来参加。

2024年北京智源大会智能驾驶论坛的召开具有重要背景。2023年9月，全国新型工业化推进大会在京召开，对加快推进新型工业化作出全面部署。目前，各省市、各行业领域都在热烈探讨并深入推进新型工业化。

汽车产业作为国民经济的重要支柱产业，其产业链长、涉及面宽、市场规模大、连接带动效应强。它既是现代化产业体系建设的关键领域，也是人工智能、大模型等创新技术应用的重要载体。今天我们聚焦于人工智能、大模型等技术在智能驾驶领域的应用研究。

我们特别邀请了八位来自企业、高校和科研机构的知名专家，他们将分享在理论研究、技术创新、应用实践等方面的独到见解。我们也希望通过本次会议的交流，大家能够碰撞思想、启迪智慧、共同成长。

客观而言，我们在筹备会议时联系了许多主机厂。虽然大家有各种各样的顾虑，但我观察到，所有主机厂都在探讨人工智能（包括大模型）在汽车上的应用，这是一个基本的潮流。

首先，请允许我介绍八位演讲嘉宾。

以下是嘉宾名单：

长安汽车智能化研究院副总经理，梁鹏华先生。
小鹏汽车自动驾驶中心副总经理，马军先生。
比亚迪汽车新技术研究院智能驾驶研发中心，感知实验室主任，高文博士。
蔚来人工智能*台负责人，资深研发总监，白羽立先生。
毫末智行科技有限公司，数据智能科学家，鹤翔先生。
北京赛目科技股份有限公司总经理，杨贤硕先生。
电子科技大学教授，万少华先生。
上海人工智能实验室青年科学家、智能交通*台组负责人，石波天先生。

今天的论坛，我们特别邀请了北京智源研究院理事长、中国人工智能学会人工智能工委会主任委员、北京大学黄铁军教授。众所周知，黄教授是我国人工智能和大模型领域的顶级专家，他高度关注大模型在智能驾驶领域的应用，并组织开展了大量研究工作。在黄老师的指导下，我也有幸参与了一部分研究工作。

在正式报告开始之前，让我们先以热烈的掌声，有请黄教授做一个简短的致辞，并对论坛的召开提出期望。

感谢刘主任给我这个机会。去年论坛开始时我也讲了几句，不知不觉一年又过去了，世界发展特别快。

我记得我原来讲过，我认为ChatGPT的爆火之后，下一个“ChatGPT时刻”就应该是自动驾驶。我现在仍然这么认为，而且时间的节奏可能比我原先预想的（两三年）还要快。

其背后的基本逻辑是，大模型的出现为我们原来担心或解决不完的Corner Case（极端案例/长尾问题）提供了一个方法论上的彻底解决方案。大模型对万事万物的认知能力，使得它如果“上了车”，就如同一个对人类世界有完整认知的人去学驾驶。我们常说学50个小时就能上路，但这50个小时的训练并非全部，前提是你进驾校前就已经是一个对世界有完整认知的人，再经过一些规则训练就可以上路。大模型要训练的就是这样一个“认知主体”。

当然，这并不是说今天做好一个大模型，配上交通规则就万事大吉，事情肯定没那么简单。但至少它提供了一个很好的基础，在遇到从未出现过的Corner Case时，它能做出一个可能没有完美答案、但大致合理的判断，就像人类驾驶员一样。

最重要的一点是，大模型有望为自动驾驶提供这样的常识和认知能力。在这个意义上，去年特斯拉的FSD（以及今年可能真正进入市场的FSD）方案，其实还不是完全意义上的“大模型”方案。它运用了Transformer等技术要素，但方法论上仍主要依赖海量的真实驾驶数据（多少亿公里）进行训练。这好比是一个零起点的人只跟着老司机学，只能学会司机遇到过的情况，对于未遇到过的情况则难以处理。而大模型思维是学习整个世界（包括图像、视频、互联网数据等），形成认知，从而能对未知情况做出更合理的判断。

因此，我认为后续的发展路径不一定非要像特斯拉那样积累巨量的驾驶数据。如果大模型底座的能力足够强，可能就不需要那么多数据，也能做出比FSD更好的系统。我仍然对大模型加速实现全自动、无人驾驶抱有充分信心，并且认为时间会加快。这对我们中国产业而言是一个机会。

但另一方面，我们也面临许多挑战。例如，今年的投资热点集中在“具身智能”，对自动驾驶领域的投资相对较少或谨慎。这可能是因为主流车厂体量已经很大，投资界的资金规模相对较小，导致不敢投或投不动。然而，一个产业的发展需要更多资源的支持。

另一个问题是数据。尽管我说可能不需要“多少亿公里”的数据，但仍需要一定量的高质量数据。目前数据可能分散在各家企业手中，每家数据量或许还不够大。能否进行一定程度的汇聚与合作，以训练出令人满意的无人驾驶模型，这仍然是一个问题。

此外，产业生态中存在着大型车厂、创业公司、高校实验室等不同体量的参与者，它们之间如何有效合作也是一个比较难的问题。但不合作，问题可能更大。

我个人判断，未来的“自动驾驶大脑”不会像现在这样每个品牌都做一个。市场最终会像计算机或操作系统产业一样，出现少数几个强大的、通用的“大脑”。因为要达到未来消费者对高性能无人驾驶的更高要求，其背后的研发投入将非常巨大，可能会超过任何单一车厂的研发体量。最终会出现专门从事“驾驶脑”研发的公司或合作形态。

所以，今天的论坛既是一个交流的机会，更是为了让我们中国的汽车产业（目前发展得很好，未来希望更好）多思考一下，如何以创新的技术和创新的合作方式，更好地构建产业生态，让智能化的“下半场”比新能源的“上半场”跑得更好。

我就讲这些，谢谢大家。

感谢黄教授的深入思考和精彩分享。借此机会，我也结合本职工作向大家报告两件事。

第一件事是关于自动驾驶车辆的产业化应用。实际上从2018年开始，北京亦庄、上海等地就组织了大量的道路测试和示范应用工作。在产品和技术不断迭代的基础上，去年年底，我们联合相关部门启动了准入和上路通行试点。通过初审和专家评审，截至目前，像长安、比亚迪等企业与试点使用单位组建的联合体，已有九家开始编制测试评估方案，正式启动了准入试点工作。

整个试点工作的核心是保障安全。我们发展自动驾驶的目的是替代人类驾驶，将人解放出来，并且要比人驾驶更安全。但自动驾驶系统与人有着本质区别，正如黄教授所说，两者不是同一个“物种”。我们应该以结果为导向，证明它可以替代人且更安全。如何证明这一点，正是我们一直在探索的体系，包括准入体系和上路通行管理体系。

第二件事是关于黄教授提到的场景与数据资源。场景资源非常重要，我们现在验证自动驾驶系统和算法的好坏，就是要靠场景驱动，看其能否有效应对。客观讲，现在各家主机厂、检测机构都在建设场景库，大家在描述自动驾驶功能时也要附带ODD（运行设计域）。但这些碎片化的场景资源如何才能有效利用起来？

过去几年我们一直在思考这个问题。目前，由我牵头，联合一汽、长安以及在座的各位主机厂同仁和检测机构，一直在探索一个名为“多方协同仿真测试*台”的建设。其思路是，在利用区块链技术进行数据确权的基础上，能否通过安全计算（如联邦学习、多方安全计算）的方式，让这些资源在“可用不可见”的前提下被有效利用起来——数据产权仍归各方，通过调用进行利益分成。在此基础之上，我们未来还希望探索国家基准场景库的建设。这项工作一直在推进，如果大家有兴趣，可以与我们团队的陈真博士交流。

结合我个人的本职工作，先与大家做以上交流和分享。

按照会议安排，下面进入正式报告环节。今天共有八位演讲嘉宾，每位嘉宾的演讲时间请控制在30分钟以内。

第一位演讲嘉宾是长安汽车智能化研究院副总经理，梁鹏华先生。梁先生牵头完成了远程代客泊车等17项关键技术在中国品牌车型上的量产首发，荣获重庆市科技进步一等奖、中国汽车工业科学技术奖一等奖等多项荣誉，并牵头制定了《汽车驾驶自动化分级》国家标准。

请大家掌声欢迎。

本节课中，我们一起学习了2024北京智源大会智能驾驶论坛的背景。我们了解到汽车产业智能化是新型工业化的重要部分，而大模型为自动驾驶解决Corner Case问题提供了新的方法论。黄铁军教授分享了他对大模型驱动自动驾驶发展的乐观预期以及产业在数据、合作与未来生态构建方面面临的挑战。论坛主持人刘法旺也介绍了当前自动驾驶准入试点工作的进展，以及协同利用场景数据资源的探索。接下来，论坛将进入各位专家的专题报告环节。

课程名称：智能驾驶技术趋势与长安实践 🚗

课程概述

在本节课中，我们将学习智能驾驶技术的发展趋势、行业面临的挑战，以及长安汽车在智能驾驶领域的落地实践与思考。课程内容基于长安汽车梁锋华先生在2024北京智源大会上的分享整理而成。

第一部分：智能驾驶的趋势与挑战

智能驾驶整体上是一个场景持续演进的过程。它主要从两个维度展开：一是场景的持续覆盖，二是功能等级从“可用”到“好用”再到“等级提升”的持续进步。

场景覆盖的演进路径

以下是智能驾驶场景覆盖的主要演进方向：

从简单到复杂：技术首先应用于简单的驾驶环境。
从高频到低频：优先解决用户最高频使用的场景。
从单车道到全场景：具体路径为：单车道 -> 高速公路 -> 城区道路 -> 停车场。

当前，行业在场景覆盖上已进入后期阶段，尤其是以城区领航为代表。现在行业进入了“精耕细作”的阶段，主要围绕两个核心：

持续提升用户体验，以建立用户对系统的信任感和购买意愿。
不断提升安全性，这是智能驾驶最关键的基石。

随着这些问题被解决，高等级自动驾驶（L3级以上）的商业化已进入前夜，其典型标志是智能网联汽车的准入试点。

用户需求与行业现状

从用户需求侧观察，智能驾驶的渗透率正在快速提升。这体现在两个维度：一是用户基数在扩展（L2级功能正成为标配），二是用户的实际使用时长和月活跃度在快速提升。

数据显示，单用户的*均月活相比2021年已翻倍。同时，对于车企而言，用户总使用时长的增长是数量级的变化。这庞大的用户体量对智能驾驶的安全和体验提出了更高要求，也让开发过程“如履薄冰”。

技术层面的核心挑战

当前主流的“经典智能驾驶”路线在技术上面临诸多挑战：

模型泛化能力：AI模型处理复杂、罕见场景的能力有限。
规控（PNC）维护难度：传统规划与控制算法需要针对大量特殊案例（Corner Case）逐一解决，效率低下。
高精地图成本：制作与维护高精度地图的成本高昂。
拟人化程度：系统驾驶风格与人类习惯的贴合度有待提高。
数据难题：包括数据采集、标注生产成本高，效率低。
研发与部署效率：整体研发和将算法部署到车端的效率需要提升。

数据、地图与成本问题

数据是当前行业的巨大痛点。数据生产效率低，存在重复采集和标注问题。数据之所以尚未成为真正的“资产”，核心在于标准不统一导致数据无法在行业间流动和复用。

我们希望国家能完善数据法规、统一标准，并发挥国家级数据*台的作用，尤其在解决长尾场景问题时，行业协同至关重要。

在地图方面，需要建立图商与整车厂之间的新型协同模式。车企拥有天然的车辆数据采集能力，应将其价值发挥出来，以提升地图鲜度并降低成本。

在成本结构上，人力（算法）、算力、数据是三大成本中心。目前，人力成本占比在下降，而算力和数据成本持续扩大。行业需要在专用芯片、算力*台共建以及更高效的算法上共同努力，推动成本优化。

上一部分我们探讨了行业面临的普遍挑战，接下来我们看看长安汽车是如何应对这些挑战并推进技术落地的。

第二部分：长安汽车的智能驾驶实践

长安汽车自2017年启动“第三次创业——创新创业计划”，并持续迭代至7.0版本。公司核心战略包括“香格里拉”新能源战略、“北斗天枢”智能化战略和“海纳百川”全球化战略，旨在构建“新汽车、新生态”。

发展里程碑与自研历程

长安在智能驾驶领域取得了多项里程碑：

进入首批L3级智能网联汽车准入试点。
牵头制定了《汽车驾驶自动化分级》国家标准（2021年版）。

在自研方面，长安已完成四代智能驾驶*台的研发：

第一代（2018年）：实现L2级辅助驾驶，首发集成式自适应巡航（IACC）与遥控代客泊车（APA）。
第二代（2020年）：推出NID 1.0高速公路辅助驾驶系统，并全球首发量产远程智能泊车系统。
第三代（2022年）：量产高速领航（NID） 与远程代客泊车（AVP） 系统。此系统具备L3级能力，是本次准入试点的基础。该*台创新性地采用了预碰撞安全系统，为极限工况提供安全保障。
第四代（研发中）：SDA高阶智能驾驶*台，旨在彻底解决城市领航等全场景问题，计划于今年量产。

长安的自研比例持续提升，从第三代*台开始，核心算法已全部由长安自主开发。

技术架构与算法能力

智能驾驶必须基于优秀的整车架构。长安打造了面向“未来智能机器人”的六层架构*台：

L1 机械层：对应车辆的物理执行机构。
L2 能源动力层：对应车辆的动力系统。
L3 电子电气架构与硬件：对应车辆的“神经网络”和硬件基础。
L4 操作系统：对应车辆的“小脑”，负责底层调度。
L5 应用算法层：对应车辆的“大脑”，承载智能驾驶等核心算法。
L6 云端大数据层：对应车辆的“云端智慧”，用于持续学习和进化。

在算法上，长安已掌握经典智能驾驶所需的全套核心算法，并正在跨越式构建以端到端智能驾驶为特征的新一代算法。我们认为，在可见的未来，经典架构与端到端架构将并存，经典架构主要负责保障系统性能的“下限”安全。

长安的算法实力也通过国际赛事得到验证，例如曾在UCS榜单获得第一，并在2024年CVPR会议上的端到端大模型赛道获得创新奖。

数据闭环与测试验证体系

长安建立了相对完备的数据闭环体系，通过自动化工具提升数据挖掘、4D-BEV数据产线、自动标注等环节的效率，其中静态真值自动化效率提升了95%。

在测试验证方面，长安构建了新的测试体系以确保安全可靠，其核心包括多支柱协同测试策略和系统性能安全模型。重庆复杂的“8D”城市交通环境为长安提供了天然的、高效的测试场地。同时，体系引入了 UN R157法规中的驾驶员模型，用于对自动驾驶系统进行标准化的性能安全评估。

安全与体验评价体系

安全是智能驾驶稳健落地的基石。长安构建的新安全体系旨在实现 “全车全生命周期” 和 “复杂人机耦合系统” 的伴生安全。这意味着安全不仅仅是智能驾驶系统本身的安全，更是与整车结构安全、功能安全、预期功能安全、网络安全一体化的系统工程。长安已获得多项相关体系认证（如ASPICE、功能安全ASIL D等）。

在体验评价上，核心是让系统驾驶比人更安全、更舒适、更符合人类习惯。长安将评价指标客观化、工具化、自动化，让系统能够自我评估，以持续提升用户体验。

开放合作的理念

智能驾驶是一个超级系统工程。长安坚持开放、互信、共赢，与全球伙伴开展“产品合伙、技术合伙、前沿合伙”等多领域深度合作，包括联合开发、数据共享与标准统一等，以期降低行业整体成本，共同推动技术进步。

课程总结

本节课我们一起学习了智能驾驶从场景覆盖到等级提升的发展趋势，剖析了行业在数据、成本、技术泛化等方面面临的挑战。同时，我们也深入了解了长安汽车在智能驾驶领域的自研历程、技术架构布局，以及在数据闭环、测试验证、安全体系构建和开放合作方面的具体实践。智能驾驶的发展道阻且长，需要产业链上下游的共同努力与深度协同。

课程名称：AI大模型在智能驾驶领域的量产实践 🚗💡

概述

在本节课中，我们将学习小鹏汽车如何将AI大模型技术应用于智能驾驶的量产实践。课程将探讨AI大模型为汽车行业带来的历史性机遇、面临的核心挑战，以及小鹏汽车在感知、规划、座舱等领域的实际落地案例与技术架构。

AI大模型：汽车行业的历史性机遇

上一节我们介绍了课程的整体框架，本节中我们来看看AI大模型为何被视为汽车行业的重大机遇。

AI大模型成功的实质是技术驱动市场。回顾科技发展史，工业革命等重大变革均由技术驱动，而非市场预先感知。以ChatGPT和Sora为代表的AI大模型技术正展现出类似的颠覆性潜力，其发展速度日新月异。

目前，几乎所有科技巨头都已进入AI大模型领域。更重要的是，大模型正在从云端走向用户终端。例如，Apple Intelligence的出现标志着大模型开始与用户日常使用的设备（如手机）深度集成。考虑到汽车是个人与家庭最重要的移动终端之一，AI大模型在手机行业的爆发式发展，预计也将在汽车行业快速复制。

从国家层面看，AI大模型也受到高度重视，相关示范应用正在推进，标准体系开始建设。这为技术落地提供了良好的宏观环境。

AI大模型赋能智能驾驶的核心价值

上一节我们探讨了宏观机遇，本节中我们聚焦于智能驾驶这一具体领域，看看AI大模型能带来哪些根本性改变。

AI大模型带来了走向全场景无人驾驶的历史性机遇。原因如下：

技术特征契合：大模型的核心技术，如自回归、基于提示词和上下文的理解、长序列注意力机制等，与人类司机的观测和决策行为模式高度相似。这为其迁移到自动驾驶场景提供了天然优势。
智能涌现能力：大模型具备“智能涌现”的特性，即能产生超越预设规则的、更优的解决方案。在智能驾驶中，这意味着车辆可能做出更拟人、更巧妙的操作。
学术与工程基础：目前，AI大模型在自动驾驶领域已有优秀的学术成果（如相关CVPR最佳论文）和企业的量产探索，证明了其落地的可行性。

AI大模型车载量产的六大挑战

前景虽然美好，但将庞大的AI大模型部署到资源有限的车载系统上面临严峻挑战。上一节我们看到了价值，本节我们来剖析必须克服的困难。

将AI大模型成功应用于汽车，必须满足两大前提：前装量产与全链条应用。具体挑战可分为以下六点：

以下是实现前装量产必须解决的三大工程挑战：

有限车规算力的适配与优化：车载芯片和域控制器的算力与云端服务器相比非常有限。必须对AI大模型进行裁剪和优化，以适应车规级硬件。
先进网络的车端部署适配：大模型的复杂网络结构和算子（operator）需要在车端硬件上得到支持，并满足严格的延迟（latency）要求，这涉及大量的工程适配工作。
有限性能系统的总体调优：车载系统是一个性能受限的整体，不仅包括AI算力（TOPS），还涉及CPU、内存带宽、传感器、各类总线（如PCIe、以太网）等。需要进行系统级的总体调优，并在成本可控的前提下做出取舍。

以下是实现全链条全场景应用必须构建的三大能力：

全自动数据标注：大模型处理的是长序列视频数据，传统人工标注方式成本高昂、效率低下。必须建立高效的全自动标注能力。例如，小鹏的实践将某项标注任务从2000人年缩短至16.7人天，效率提升约45000倍。
高效计算训练基础设施：训练大模型需要高效的智算中心。关键不在于单纯堆叠GPU数量（“万卡”），而在于如何通过高效的集群互联、网络优化和AI基础设施（AI Infra）建设，最大化训练效率。
自动化仿真与工程验证：作为主机厂，必须建立自动化的仿真测试体系，并经过严格的分步骤实车验证，确保功能的安全与可靠，才能最终推向量产。

小鹏汽车的量产实践：XNet、XPlanner与XBrain

在理解了挑战之后，本节我们深入小鹏汽车的具体实践，看如何通过架构革新将大模型落地。

小鹏汽车将传统的串联式感知-规划-控制链路，进化为了基于神经网络的端到端架构，即 XNet、XPlanner 和 XBrain 三位一体的网络。这个架构仿生了人类司机的眼睛、大脑和小脑。

XNet（感知之眼）：基于BEV（鸟瞰图）和Transformer的深度视觉感知网络。它实现了：
- 感知范围达1.8个足球场面积。
- 支持50+类目标物分类。
- 搭载占据网络（Occupancy Network），实现通用障碍物检测。
XPlanner（规划之脑）：基于大模型的路径规划网络。上线后效果显著：
- 前后顿挫减少 50%。
- 速度卡死减少 40%。
- 安全接管减少 60%。
XBrain（场景理解之脑）：负责复杂场景与语义识别。例如：
- 隧道、高架桥场景识别。
- 潮汐车道、待转区、特殊路牌文字识别。

通过这三大模型的端到端协同，小鹏汽车的智能驾驶能力获得了跨越式提升。

数据驱动与持续迭代体系

模型上车只是第一步，如何让它持续学习和进化至关重要。上一节介绍了静态模型，本节我们来看动态的成长体系。

小鹏汽车构建了高效的数据驱动迭代闭环：

快速模型迭代：可实现两天一次的模型迭代，预计18个月内智能驾驶能力提升30倍。
海量数据积累：学习人类驾驶精华里程已超10亿公里，每日新增高质量Clip（视频片段）约10万公里。
严苛验证体系：
- 实车验证：超过 646万公里，覆盖全国 1972个 城市和区县。
- 仿真测试：积累超过 2亿公里，并利用生成式大模型技术（如“Anything in Anything”）制造罕见Corner Case（极端场景），丰富测试场景。

量产效果展示与应用扩展

经过系统的工程化落地，AI大模型在实际道路上的表现如何？本节我们通过实例来看效果，并了解其应用范围的扩展。

在实际量产车辆上，AI大模型系统展现出强大优势：

复杂场景应对：在夜间、窄路等复杂环境下，能实现360度无死角感知，精准识别动静态障碍物。
拟人化规划：在立交桥下、电动车逆行等混乱场景中，能规划出流畅、自然、拟人化的行驶路径，体现出良好的博弈能力。

此外，AI大模型的能力已扩展到智能驾驶全场景：

AI泊车：实现全球首个量产的离车泊入、迎宾出库功能。
AI代驾：用户可自定义路线（最多10条，每条最长100km），系统通过云端学习实现精准记忆与复现。
无图XNGP：基于大模型，计划在后续OTA中实现“全国都能开，每条路都能开”的无图高阶智能驾驶。

展望2025年，小鹏汽车目标是在AI大模型加持下，在中国实现类L4级的智能驾驶体验，并将技术推广至海外市场。

AI大模型在智能座舱的应用：AI天玑

AI大模型的赋能不仅限于驾驶，也深刻改变了人车交互。本节我们看看它在智能座舱领域的应用。

小鹏汽车在最新的OTA中，发布了全球首个在智能座舱落地的全域大语言模型——AI天玑系统。

新一代的“小P”语音助手，在云端和车端大模型的共同加持下，能力得到全方位提升：

用车管家：深度理解车辆功能与状态。
百科问答：拥有丰富的知识库。
内容创作：协助用户进行文本创作。
场景识别：结合视觉感知，识别前方物体并进行提醒。

其交互更加自然、智能，能够准确理解用户的多轮、复杂指令（例如：“先去中关村，再去望京，最后到首都机场”），并直接规划路线。

总结

本节课中，我们一起学习了小鹏汽车AI大模型的量产实践全景。我们从历史机遇出发，分析了AI大模型为智能驾驶带来的技术革命，并深入探讨了车载量产面临的六大核心挑战。随后，我们详细拆解了小鹏的解决方案：通过 XNet、XPlanner、XBrain 三位一体的端到端架构实现技术落地，并依托数据驱动和快速迭代体系让系统持续进化。最后，我们看到了该技术在行车、泊车、记忆驾驶等全场景的优异表现，以及向智能座舱领域的成功扩展。这一切实践表明，AI大模型正成为推动智能驾驶迈向全场景、拟人化体验的关键驱动力。

2024北京智源大会-智能驾驶 - P4：比亚迪智驾与智舱开发工作实践 🚗💡

在本节课中，我们将学习比亚迪在智能驾驶与智能座舱开发方面的具体实践。课程内容将涵盖感知传感技术、智能驾驶功能趋势以及智能显示应用，旨在为初学者清晰地展示智能汽车技术的发展脉络与核心概念。

概述

感谢刘主任的介绍和组委会的邀请。很高兴与大家在智源相聚。此前，黄教授阐述了人类完成驾驶任务的认知过程，以及大模型思维在智驾中的作用与未来展望。法旺主任同步了智能驾驶汽车产业的现状与发展方向。梁总和马总分享了长安汽车与小鹏在智驾及AI大模型方面的实践。接下来，将由我带来比亚迪在智驾和座舱开发工作方面的实践分享。

从1876年奥托发明往复活塞式四冲程内燃机，到1885年本茨发明世界上第一辆汽车，再到1886年戴姆勒成功发明世界上第一辆四轮汽车，汽车诞生之初的使命是代步工具。经过138年的发展，汽车的产品属性增加了许多，其中最重要的两个是安全和体验。其使命也转变为兼具智慧与温度的伙伴。下面我将从三个方面进行分享。

第一部分：感知传感

我们与车辆作为一个整体，需要感知什么？这大致可分为三个方面。

以下是需要感知的三个主要方面：

环境感知：感知道路交通标识、障碍物、交通参与者等动静态目标，做到“看得清环境”。
自身感知：感知自车的位置、速度、方向、姿态，以及驾驶员与乘车人的生理心理状态、动作、手势、语音、空气等，做到“看得清自己”。
物联感知：感知实时路况、道路信息、行人信息等，实现车路云协同，“看得清交通”。

谈到感知，就必须提及传感器。以摄像头为代表的视觉传感器、GNSS和V2X定位传感器、激光雷达/毫米波/超声波雷达等雷达传感器、麦克风/压力/嗅觉等感官传感器，以及惯性测量单元、角编码器等姿态传感器，共同构成了感知传感链。

车载摄像头正从市场角、波段等多方向、多维度发展，以提升探测距离、弱光环境适应能力及动态响应速度。其技术从单目基础识别演进到双目立体测距，再集成红外成像以应对夜间场景，并引入事件相机快速捕捉动态变化，逐步增强智能驾驶的感知能力。

上一节我们介绍了视觉感知，本节中我们来看看毫米波雷达的发展。其发展可从两个里程碑角度观察。

发展里程碑：

萌芽期（约1940年起）：始于实验室，主要应用于军工领域。
开发期（上世纪80年代起）：各国积极投入研发，尤以欧美为主。
普及期：毫米波雷达进入应用阶段。中国起步较晚，但现已逐步实现国产化。

技术里程碑：
毫米波雷达共经历了七代迭代。工艺上从砷化镓到锗硅，再到CMOS的进化，性能更优，集成度更高，体积更小，重量更轻。功能上从测距、测速加水*角的3D，发展到测距、测速、水*角、俯仰角的4D，再到增加抗干扰能力的4.5D，角度分辨率越来越高，抗干扰能力也越来越强。

接下来，我们探讨另一种重要的传感器——激光雷达。激光雷达利用脉冲激光的飞行时间进行物体距离探测。

以下是激光雷达的关键发展节点：

20世纪60年代：休斯实验室研制出世界上第一台激光器。
80年代：加入了扫描机构。
2005年：在第二届DARPA无人车挑战赛上，参赛车辆出现了360度多线束旋转式激光雷达方案。七支完赛队伍中有六支搭载了64线旋转式激光雷达，激光雷达自此“一战成名”。
2017年：全球第一款车规级激光雷达（四线一维转镜方案）量产交付。
2022年：国产半固态激光雷达量产，价格逐渐下降，正向千元内迈进。

同时，激光雷达在功能上进行了细分，如前视、补盲、高线数长距等。经过20年发展，其光场生成方式与收发单元技术路线趋于收敛，但Flash固态、OPA以及FMCW等技术仍在蓬勃发展。

第二部分：智能驾驶功能及趋势

智能驾驶技术从定位、感知、规划到通信，都经历了全面的革新与更迭。从减少驾驶负担到逐渐释放双手，技术的每一步都向着更安全、更智能的方向迈进。智能驾驶技术以预防为主，通过全天候监控和即时响应，为用户编织一张无形的安全网。

比亚迪的DiPilot智能驾驶辅助系统，以“天神之眼”为设计理念，以安全为设计初衷。它依托先进的电子电气架构和全栈自研能力，为智驾提供整车系统级解决方案，实现整车全场景的陪伴、辅助和救助。

该系统以安全为核心，结合电机、云辇等控制技术，实现起步制动更*稳，大曲率弯道行驶更丝滑。其功能包括全场景智能领航、全球独有的易四方泊车、行业领先的窄道通行、双速泊车模式以及断头路泊车等，为用户带来极致舒适与极致安全。

行业普遍理解的L3级别相较于L2，核心区别在于安全要求是控制冗余。而仰望U8的易四方技术，不仅实现了控制冗余，更实现了机械冗余。

易四方概念车是行业首款无制动踏板、无转向柱结构、无转向电机的汽车，实现了驱动、制动和转向三合一。它首次实现了车辆在传统制动和转向系统都失效的情况下，仍具备制动和转向的能力，体现了强大的易四方机械冗余能力，超越了L3级别的冗余要求。因此，仰望U8成为全球首款具备L3技术底座的量产车。

第三部分：智能显示

最后，我们来看智能显示技术如何为增强安全、车内娱乐及人机交互带来新方式。

舱内显示屏从最初的仪表，演进到中控屏、副驾屏、后排屏、空调屏、车门旋钮屏等，这些主要是从用户体验出发。

而从极致安全体验出发的技术包括：

透明A柱：补充驾驶视野盲区。
电子后视镜：减少视野遮挡，增强夜视感知效果。
AR-HUD（增强现实抬头显示）：将导航等信息投影到驾驶员前视区域，避免驾驶员视线频繁切换至中控屏，降低风险。结合AI可实现导航增强显示、多功能补盲等。
全息投影显示技术：在紧急情况下，将虚拟方向盘等操作设备投影到必要位置，驾乘人员可在全息空间操控汽车，确保安全。

此外，智能显示还能让主驾、副驾及后排共享屏幕，让欢乐在家庭间传递；完美兼容手机生态，让车载应用开发更便捷，实现人-车-手机无缝互联；通过3D显示技术打造沉浸式体验，让汽车成为用户的“第三生活空间”；混合现实技术则能打破虚实边界，为用户带来前所未有的科幻感受。

总结

本节课中，我们一起学习了比亚迪在智能驾驶与智能座舱领域的实践。我们从感知传感技术入手，了解了环境、自身及物联感知的范畴，以及摄像头、毫米波雷达、激光雷达等传感器的发展。接着，我们探讨了智能驾驶功能的发展趋势，并以DiPilot系统和仰望U8的易四方技术为例，深入理解了安全冗余的核心概念。最后，我们看到了智能显示技术如何在提升安全与体验方面发挥关键作用。

从未来科技驶入现实，回想1995年译制片《霹雳游侠》中的KITT，它不仅无坚不摧，能说多国语言，陪伴主人公的喜怒哀乐，还能完全接管汽车进行自动驾驶，是一个兼具智慧与温度的伙伴。那时的想象，如今正通过物联网、自动驾驶、有温度的人机交互、环境感知追踪、多维感官监测与氛围提醒相结合，逐步升级为现实。

汽车不再仅仅是硬件为主的工业化产品，更是一个自学习、自进化、自成长的软硬兼备的智能化终端。心有所信，方能远行。让我们汽车人一道共同努力，创造美好的明天。

自动驾驶大规模应用的挑战及展望 🚗💡

课程概述

在本节课中，我们将学习蔚来汽车智能驾驶负责人白宇利分享的内容，探讨自动驾驶技术在大规模应用过程中面临的核心挑战，以及未来的技术发展方向。我们将从计算、数据和成本三个维度深入分析，并展望端到端大模型、全栈AI*台和群体智能等前沿技术。

1. 蔚来汽车与蔚来智能驾驶简介

首先，感谢组委会的邀请和刘主任的介绍。各位下午好，我是来自蔚来人工智能*台的白宇利。今天下午有机会与大家交流自动驾驶，聊一聊大规模应用下的挑战和展望。

我的风格可能与前面几位嘉宾有所不同，更偏向于量产工程落地，而非纯学术探讨，时间也比较简短。我先简单介绍一下蔚来汽车和蔚来智能驾驶。

蔚来汽车是一家全球领先的电动汽车品牌，致力于为用户创造愉悦的生活方式。蔚来智能驾驶旨在解放精力、减少事故，提供安全、放松的点到点智能驾驶体验。

2023年，汽车界最权威的安全测试机构Euro NCAP启用了新规。在主动安全新增的百余项场景测试中，蔚来智能驾驶表现出色，助力蔚来成为首个达成五星安全评估的汽车品牌。

下面介绍蔚来智能驾驶的组成，主要包含四个部分：感知系统、车端超算、核心算法以及整车*台。这里要着重介绍两块内容。

第一块是感知系统。蔚来的感知系统拥有33个高性能传感器，分辨率非常高，并且全系标配了激光雷达。

第二块是车端超算。蔚来是第一家在车上全系标配四颗Orin X芯片的企业，算力总量达到1016 TOPS。第二代整车*台NT2.0全系标配了这些配置。这不仅在当前，即便放眼现在，也重新定义了量产车的智能驾驶系统，树立了高端智驾的新标准。

2. 蔚来智能驾驶发展历程

接下来，我想介绍几个蔚来智能驾驶的关键时间点。

2021年1月，蔚来发布了NT2*台的首款车ET7，这标志着蔚来走向了全栈自研智能驾驶的新时代。

2022年4月，ET7上市。我们仅用了一年多时间，就交付了智能驾驶功能。同年9月，NOP+在高速场景开始交付。

2023年10月，NOP+从高速拓展到城区。到2024年4月，全域领航辅助就向所有NT2*台的车主全量推送了。从全量推送的过程来看，我们仅花了六个月，而特斯拉的FSD整整花费了3年时间。当然，我们还在持续更新，不断优化智能驾驶的技术和功能体验。

3. 定义“大规模应用”的挑战

既然今天要讲大规模应用的挑战，我们首先需要定义一下“大规模”是什么。

我认为“大规模”主要有两个方面的含义：一是使用规模，二是功能范围。

首先，从用户量上看。在我们的第二代*台，用户量从2022年的8万，增长到2023年的15万，进而到2024年预计将远超30万，基本上每年翻一番。

其次，从覆盖的范围和区域上看。2022年，ET7在中国交付，同年也在欧洲完成了交付。2023-2024年，我们进一步拓展了欧洲多个国家，并新增了中东地区。

再次，我们聊聊里程。从2022年高速城快约36万公里，到2023年10月发布城区时目标为68万公里。如今，我们全域领航辅助的可用里程已经超过了140万公里。

最后，要讲的是车型和*台。2021年以前，我们的NT1*台是经典的“886”车型。到2022年，我们新增了NT2*台。现在，九款在售的全系车型都已更新到第二代车载*台上。2024年，搭载NT3自研*台的蔚来第二品牌“乐道”也即将开始交付。

这些都是从“量”的维度来看。从功能上看，蔚来智能驾驶体系也开始支持多个车型、新老三代*台同台、多个国家、多个区域的功能交付，挑战其实非常大。

我们来看功能规模，从最简单的独立功能，到后面更复杂的融合系统。例如我们经常谈到的AEB（自动紧急制动）功能，发展到现在的NOP+全域领航辅助功能。

从最开始数据每秒百兆字节的大小，到现在每秒可以产生10GB的数据。10GB每秒相当于一秒钟看完两部4K电影。

我们端侧的算力也在急剧增长。从最开始可能小于10 TOPS的算力，到现在蔚来车载*台上有上千TOPS的算力。在这个算力规模下，跑一个100B参数的大语言模型都绰绰有余，我们的车载*台完全有能力支持。

从研发任务看，以前可能小到几十项，现在大到上百项。从最开始感知侧重车辆、行人、障碍物的检测，到现在大家开始讨论GOD（通用障碍物检测）、MAI（多智能体交互）等复杂的融合系统，从功能上都是一个大幅的提升。

从评测任务看，最开始小到几百项，现在大到上万项。不仅是评测种类多，验证里程的要求也逐渐增加。

说到这里，大家可能会想，这么大的规模，这么多的场景，背后有哪些挑战？以及如何支持这么大的场景变化？接下来，我将与大家一起深入探讨蔚来是如何应对这些问题的。

4. 核心挑战一：计算

我将后面的挑战分为几块来讨论，主要是计算、数据和成本。我们先说一下计算的挑战。

蔚来自动驾驶研发每天要进行数百个实验、数千次构建、数十万个挖掘任务的执行。这些高并发任务都需要一个非常强大的计算*台来支持。

我们自研的高性能计算*台能够支撑200万次任务的日间峰值吞吐，并且可以支持瞬时并发超过1.5万个节点。大家也常说“天下武功，唯快不破”。从发现问题到解决问题、发布版本，更短周期的迭代是我们一直优化的目标。

为了解决超大型任务的性能瓶颈，我们自己设计并研发了一套大规模分布式训练计算集群。在这个集群里，我们可以做到单任务量级超过EFLOPS。我觉得在行业里，这个集群的规模一定是顶级的。

当然，在规模之外，性能和稳定性是非常重要的。我们的整个训练集群性能也非常好。以我们在云端训练大模型为例，我们能做到训练加速比达到91%，有效训练时长大于98%。

为了支持这样高性能的训练集群，我们也需要上下游组件的支持。为此，我们也有自研的缓存系统。以缓存系统为例，我们可以做到横向扩展性能超过同类商业存储软件的*四倍。

整体上，智驾研发任务差异非常大，又在不同的硬件上运行。如何让它们都能高效、合理地运行，也需要花费巨大时间来优化。我们可以通过性能剖析工具、协同优化，实现异构调度、任务拆分和传输优化，包括流水线并行等多方面的努力，动态地把负载均衡做好，大幅提升整体的有效利用率。

5. 核心挑战二：数据

当然，强大的算力只是一方面。没有大量数据的支持，计算就无从谈起。

智驾的场景数据，我愿意简单分成三类：训练数据、验证数据和反馈数据。

对于训练数据，随着自动驾驶的发展，每年对数据的需求都是几十倍的增长。*三年来，我们有*万倍的增长。量产车上的海量、高质量数据是蔚来智能驾驶的护城河。每秒产生PB级的数据，让我们从不担心数据供应。但是，如何通过自动化产线、自动化标注，使得这些数据参与到云端模型的训练和功能迭代之中，是面临的难题。

为此，我们建立了500多种标准化的标注工艺和100多条自动化产线。通过云端的世界模型参与到自动化流程之中，将整个标注的自动化效率提升到99.9%以上。

第二块是验证数据。像刚才前面的同事也讲到，对于整车上的测试，尤其是软件测试，传统的测试模式最终功能还是要上实车验证，方法大多数是通过自建车队。而如今，在多版本、快节奏的并行验证需求下，区区几百辆车是远远不能满足需求的。

为此，我们以NOP+开城拓路为例。一般情况下是要一个城一个城地开，开完之后用车去验证。但是，我们可以结合自有车队，利用车上额外的一颗Orin芯片，用群体智能的方式，大批量验证这些道路的可用性。原定于三个月要完成的NOP+开城拓路验证任务，我们缩短到更短的时间就能完成。

在这里，我们也要强调一下，大规模、十万量级规模的并行测试任务对于*台的压力是什么。我们需要能做到在小时级别（这里我们能做到四小时级别）完成十万规模车辆、98%任务下发的成功率，立刻能展开测试任务。数据验证也无需回传到云端，大幅提升了验证效率，降低了数据传输成本。

我们的群体智能可以同时支持150万个验证任务的并行测试，每日可以验证的里程数超过1500万公里。

最后要讲的是反馈数据。量产车每天能产生数百万条接管事件和潜在接管事件。但是，如何有效地完成筛选和压缩，将最有价值的数据上传到云端，并且通过自动化分析，是数据闭环里最关键的一步。

我们通过车端复杂的价值筛选算法和缓存机制，将万分之一最有价值的数据上传到云端进行分析。并且，我们通过5%以上的自动分拣率，促使反馈迭代的数据飞轮真正运转起来。

6. 核心挑战三：成本

当然，行业总会调侃蔚来的研发成本高。但我们实际上在研发过程中，还是非常在意成本效率的。因为我们知道，长期主义需要建立在短期成本可行性之上。因此，在研发上的巨大投入，并不是无节制的支出，而是对长期技术布局的重要要求。

面对百倍的算力需求，我们打通了车端边缘计算的能力，使得端云总算力达到260亿TOPS。这个算力规模相当于100个分布式的千卡计算集群。通过我们车端的计算和筛选、生命周期管理，以及车端的缓存和数据压缩技术，可以大大减少数据回传量，降低流量成本。

另外，智驾的研发周期性强，波动很大。碰到发版的时候，大家一定都遇到过资源上的波峰。蔚来人工智能*台在规划之初就是一个混合云架构。我们在自研的智算中心之外，也接入了多个混合云节点，能通过弹性上云、分时定价来优化调度，有效地将波峰波谷控制到10%以下。

最后，我们要讲研发任务的种类多、节奏快，如何*衡研发交付和资源的有效利用，解决资源占用高但利用率低的问题。我们通过多维的成本分析工具和运营机制，有效地将研发价值和资源利用率做了关联。通过运营机制，我们每年能优化研发运营成本数千万元。

在这里我要表达的是，很大程度上，做相同的事情，用一倍的成本跟用一半的成本是完全不一样的。研发体系对于研发成本的在意，本质上是对技术上更高的要求。

7. 未来展望：端到端大模型

谈完了挑战，我们也可以展望未来。在脚踏实地的同时，我们也仰望星空。自动驾驶的发展充满了无限的可能。接下来，我愿意分享几个关键方向的看法，包括端到端的大模型、全栈的AI*台以及群体智能技术。

第一点，端到端大模型大家听得很多。但是，它不是什么灵丹妙药。如果以目前的模型架构只能做到70分，你无法通过把端到端大模型上了车就能做到100分。因为这说明你现在的工程效率还远没有使你的模型架构达到上限，问题还很多。

其次，现在的模型架构转换也无法一夜之间完成。在我看来，要做到端到端大模型，需要满足以下几个关键的先决条件。

首先是数据飞轮。大家讲数据飞轮讲得很多，但落地效果好的寥寥无几。飞轮真的转起来了吗？里面的核心就是数据验证体系的自动化率。我认为在这里至少要能达到99.9%以上才能“飞”起来。在各个模块上也是，尤其在讲端到端之前，规控是不是能全面模型化了？感知是不是可以上BEV Transformer去量产了？地图是不是可以实现有图无图的全面自由切换？

另外，我们在讲大模型时，更愿意给它定义为云端的环境模型、云端的世界模型。在这里，模型架构和研发方式的转变，需要有初步能力去验证，并且把模型应用到研发和验证流程之中，发挥作用。

最后，我们要讲千卡集群。我最*看到有同事引用了马斯克的一条推特。在6月4号，马斯克在社交媒体上讲了一件事情：特斯拉在部署英伟达芯片，但没有地方放置，只能放在仓库里。后来，特斯拉也在新的德州工厂里开辟了新的空间，用于容纳5万片H100芯片用于FSD的训练。

5万片H100对大家来讲只是听起来很疯狂。我们说如果想要做端到端大模型，1万块H100总是需要的。在这里，如果你不能做到千卡级别的并行训练，那万卡的训练基本是不可能的。

举我前面的例子，在我们优化之前，千卡训练的有效时长只有85%，加速比只有60%。考虑故障率和加速比，万卡的真实性能乘上去就只有不到1200卡了。但是，有效的训练时长提升到98%，加速比提高到91%，这样才有可能扩展到万卡，大概也能做到八九千卡的规模，我们才能去使用它。

毋庸置疑，在数据量足够大、算力也足够充足的情况下，端到端模块的联合优化，是有可能整体提升系统功能和体验上限的。但是，正如千卡和万卡的例子一样，如果没有很好的工程化效率和质量，端到端带来的研发链路简化、闭环效率的红利，其实都会被低效的工程效率吃掉。

8. 未来展望：全栈AI*台

第二块要讲AI*台。不仅在智能驾驶的大背景下，最*我们也看到大语言模型出圈了，AI*台开始受到更广泛的关注和讨论。随着基础模型能力的通用化，我们也看到了一个机会，就是全栈AI研发*台的可能性。

全栈AI*台，我理解，不仅仅可以支持自动驾驶的研发任务。最*我们还支持了集团之内的NOMI（蔚来内部的智能座舱助手），还有内部的NEO GPT应用*台、客服专属群。

正如我们可以跨*台、跨地区、多车型地进行模型产线交付一样，实现了85%以上的模块复用度，让我们也成为国内第一个可以跨洲量产智驾的汽车企业。2022年3月，我们在国内量产的ET7交付了自研的NOP功能。在同年的9月，我们的智驾算法就上线了欧洲的ET7，并且建立了功能安全、智驾安全等大规模量产的能力。这也得益于我们有高度可复用的全栈AI能力。

全栈AI*台统一管理，优化数据、AI技术应用的整合，提升了效率，并且降低了整个研发成本，才能真正实现我们所谓的MLOps。大家也应该知道，MLOps在绝大多数企业落地时其实都不是特别好。因为一个好的研发工具，在我们看来，不仅仅要适应于企业内部的研发流程，还应该适应于它的不同阶段。生搬硬套地把这些工具强塞给企业的AI研发里是不太现实的。

我们在设计全栈AI*台时，特别注重它的灵活性和适应性，确保满足各个阶段的需求。就像是建一个高效的引擎，各个部件可以完美配合，可以有效地最大限度提升性能和效率。

9. 未来展望：群体智能

2023年9月，蔚来第一次的未来科技日上，我们首次介绍了群体智能技术。群体智能是蔚来智能驾驶技术未来发展的重要方向。

蔚来群体智能具备强大的计算能力，达到670亿TOPS，能够每秒处理2.1PB的数据。通过优化并发和实验，一定程度上我们实现了真正的车云一体化，进行分布式的验证和协同学习。

正如我前面提到的，在AEB的道路验证、NOP+全域领航开城拓路，包括世界大模型的数据迭代上，群体智能都发挥了其强大优势和无限潜力。它让我们量产的功能可以持续、高效地迭代，不断为用户提供更安全、更舒适、更加个性化的智驾功能体验。

就像在赛车队在赛道上可以通过协同作战实现最佳战绩，我们的量产车队也可以通过协同学习不断进步和提升。

我们也相信在不远的将来，我们自己的自研芯片会进一步整合、定制这些功能和能力，以推动智能驾驶和通用AI技术的发展。

让我们设想，智能驾驶汽车在没有执行智驾任务时，其余时间也是可以进行推理计算的。通过闲时复用，将算力共享给其他智能应用，就像分布式的云一样。那将为整个智能驾驶，乃至整个人工智能行业带来巨大的算力提升，真正实现车联网和云计算的结合。

10. 课程总结

我今天的分享就到这里结束，感谢大家聆听。最后，我给大家播放一部小小的影片，让大家感受一下我们在蔚来是如何做智能驾驶的，包括他们的结果是怎样的。

感谢大家。

（影片内容：领航开始，即将开始领航换电...）

在本节课中，我们一起学习了自动驾驶大规模应用所面临的三大核心挑战：计算、数据和成本，并探讨了蔚来汽车通过自研高性能计算*台、自动化数据产线和混合云架构等工程实践来应对这些挑战。同时，我们也展望了未来发展的三个关键方向：端到端大模型、全栈AI*台和群体智能，认识到强大的工程化能力和高效的研发体系是实现技术突破和规模化应用的根本保障。

自动驾驶大模型技术演进与实践教程 🚗💡

课程概述

在本节课中，我们将学习自动驾驶技术从硬件驱动到数据驱动的演进历程，并深入探讨如何利用大模型技术构建一个具备“完美感知”与“人类级决策”能力的自动驾驶系统。课程将分享实践中的核心思路、技术架构、遇到的挑战以及具体的解决方案。

自动驾驶技术演进的三阶段 📈

根据过去几年自动驾驶技术的发展历程，我们可以将其演进路线分为三个阶段。

第一阶段：硬件驱动
此阶段的核心是依赖硬件堆叠，特别是激光雷达等传感器。

第二阶段：小数据与小模型驱动
目前绝大多数公司处在此阶段，主要使用有限的数据和较小的模型来解决感知、认知和决策规划问题。

第三阶段：数据驱动（自动驾驶3.0）
我们判断未来将进入此阶段，其核心特点是大数据、大算力、大模型。

上一节我们介绍了自动驾驶技术的三个演进阶段，本节中我们来看看在3.0时代，我们应该聚焦于做什么。

自动驾驶3.0时代的核心任务 🎯

在3.0时代，我们应聚焦于三个关键词：大数据、大模型、大算力。本节课将主要分享大模型的具体实践，包括如何构建以及如何应用于整个数据系统。算力部分将不详细展开。

我们为何会选择生成式技术路径？这背后有一段研发历史，我们将在课程最后回顾。

我们选中的路径是：通过生成式方式，并基于BEV（鸟瞰图）生成来解决自动驾驶问题。

然而，在研发过程中我们遇到了许多挑战。最初我们设想简单：利用大量量产车回传的数据，将世界表达为BEV视图，再通过生成式大模型预测未来的BEV，从而解决自动驾驶任务。公式可简化为：
未来BEV = 生成式模型(当前BEV序列)

但在长达半年的训练中，我们发现了两个主要问题。

以下是我们在训练中遇到的核心挑战：

数据质量问题：量产车回传的数据主要是感知结果，而非原始视频（成本限制）。这些感知结果基于传统的“白名单”标注方式，并不完美，存在漏检、误检，例如在城市中车道线模糊或逆光条件下识别不佳。基于不完美的感知结果去学习驾驶决策，存在先天不足。
数据分布与成本挑战：量产车数据的地域和场景分布非常好，覆盖各种复杂情况。这既是优势，也是巨大挑战。要训练一个能应对如此复杂场景的“老司机”模型，成本极高。例如，特斯拉训练类似模型花费约1000亿美元。作为资源有限的公司，我们必须找到大幅降低成本的路径。

面对这些挑战，我们重新思考了自动驾驶大模型的任务定义。

重构任务：自动驾驶大模型的三大目标 🧩

在经历初期尝试后，我们将自动驾驶大模型的任务调整为循序渐进的三个阶段。

第一阶段：构建通用感知能力
首先需要解决感知不完美的问题。我们目标是构建一个“通用感知”模型，与传统基于固定类别标注的感知不同，它应具备：

2D能力：能看懂图片纹理。
3D能力：能理解三维空间。
4D能力：能融合时序信息。
识别万物：能理解物体是什么，接*人类的感知水*。

第二阶段：实现人类级驾驶决策
在拥有完美感知的基础上，目标是实现类似人类的驾驶决策。其与规则式决策的核心差异在于具备世界知识，能够理解交通规则、场景上下文并进行推理，而非依赖大量人工定义的静态规则。

第三阶段：全链条全局优化
在前两者都实现后，将它们整合进行端到端训练，以追求全系统性能的全局最优。

基于以上目标，我们设计了整体的技术架构。

整体架构设计：感知与决策的双轮驱动 ⚙️

我们的整体架构分为两大部分：

左侧 - 感知大模型：本质上是一个4D编码器（4D Encoder），负责将看到的现实世界编码到一个四维（空间+时间）的特征空间中。
右侧 - 认知决策模型：在获得对世界的完美认知后，模型需要利用这些信息做出驾驶决策。我们初期采用BEV生成作为表现形式。

为了应对之前提到的高昂训练成本挑战，我们在架构中引入了两个关键的“外挂”模型，以利用外界已有的知识：

感知大模型中的多模态大模型：用于对齐图像特征与文本特征，使模型获得“识别万物”的能力，而不仅仅是看懂纹理。
认知决策模型中的大语言模型（LLM）：用于注入“世界知识”（如交通标志含义、驾驶常识），使决策模型能够理解人类世界的运作规律，这是成为“老司机”的必要条件。

通过这种设计，我们得以用数千张GPU卡完成训练，这是一条在算力有限情况下的可行路径。

接下来，我们具体看看感知大模型是如何构建的。

感知大模型：如何实现“完美感知” 👁️

我们的感知大模型构建流程如下，目标是实现之前定义的2D、3D、4D及识别万物能力。

以下是构建感知大模型的具体步骤：

输入与2D编码：将摄像头视频序列输入。首先通过一个自监督的图片编码器提取图像纹理特征，得到2D编码。
多模态对齐（识别万物）：将上述2D编码与外部多模态大模型（如CLIP） 的文本特征进行对齐。这使得模型获得的特征具备了语义理解能力，能够识别万物。
升维至4D空间（3D+时序）：利用视频下一帧预测任务，强制模型学习3D空间和时序信息。核心思想是：如果模型能准确预测车辆移动后的下一帧图像，它必然理解了3D场景几何和运动。我们通过NeRF等渲染技术实现下一帧的生成，并与真实帧对比。公式可表示为：
预测帧 = 渲染模型(当前帧特征, 相机运动)
通过最小化预测帧与真实帧的差异，模型学会了4D空间编码。
输出：最终，我们得到一个对世界的4D编码，它包含了丰富的几何、语义和时序信息，实现了“完美感知”。

我们可以通过一个实际案例来观察效果。

实践案例：感知大模型效果演示 🎬

我们使用量产车回传的数据进行测试（示例中展示了前视和后视摄像头画面）。模型能够输出多种结果：

三维重建：可生成鸟瞰图（BEV）和前视角三维场景，并支持自由视角切换。
全要素输出：在单一模型中同时完成语义分割、实例分割、光流估计、深度估计等任务。
复杂场景处理：即使在复杂的路口绑定场景中，也能稳定输出分割、光流、深度等信息。

这为后续的自动标注、仿真等任务提供了强大基础。

上一节我们构建了“完美感知”，本节中我们来看看如何在此基础上进行决策。

认知决策模型：从BEV生成到世界模型 🧠

我们延续了生成式（GPT）的思路，但改进了输入。

改进输入：将之前效果不佳的、来自量产车的感知结果，替换为我们新建的“完美感知”模型的输出。我们将4D空间编码拍扁为BEV图，并Token化，作为生成模型的输入。
引入世界知识：将感知模型“看到”的世界描述（Token序列）输入给大语言模型（LLM）。LLM扮演“副驾驶老司机”的角色，解释场景并给出驾驶建议。这为决策模型注入了宝贵的世界知识和常识推理能力。
训练目标：模型的任务是生成未来的BEV Token序列。通过这种方式，决策模型能够基于对未来的预测来规划动作，更接*人类驾驶逻辑。

这种结合显著降低了训练难度和成本，加速了模型收敛。

我们同样有一个实际案例来展示其理解能力。

实践案例：认知决策模型理解交通场景 🚦

在一个复杂路口场景中，模型需要理解各种交通标志牌。纯粹用自动驾驶数据训练很难理解这些标志的含义，因为缺乏对应的语义标注。

借助大语言模型的外挂，我们可以轻松地将视觉感知与标志牌语义关联起来。例如，模型可以识别出“禁止驶入”、“限速”等标志的含义。虽然目前对汉字的理解仍有提升空间，但对通用符号的理解已相当不错。

今年，我们将生成任务进行了重要扩展。

技术前沿：从BEV生成到3D世界生成 🌐

我们意识到，仅生成BEV或2D图像还不够。真正的自动驾驶基础模型应该能建模和生成3D世界。

多视角图像生成：我们已经实现将4D空间编码解码为图像Token，并用GPT式生成器生成环视的多摄像头下一帧图像。这比Sora等通用视频生成模型更难，因为它要求多视角间保持严格的几何一致性。目前生成图像质量很高，但文字（如标志牌）生成仍是乱码，这是一个待攻克的难题。
3D Token生成（进行中）：这是更本质的挑战。我们正在研究能否直接生成未来世界的3D Token，即预测车辆行动后整个3D场景的变化。这需要保持三维空间和时序的高度一致性。只有解决了3D世界生成，才能渲染出可用于训练和评测的、符合物理规律的一致性多视角视频。

以下是我们目前已实现的部分效果演示。

效果演示：BEV生成与图像生成 🖼️

BEV生成：输入当前时刻的BEV图，模型可以预测未来几秒的BEV序列。这已经能解决自动驾驶中的许多预测与规划问题。
多视角图像生成：生成的多摄像头图像视觉效果逼真，除文字部分为乱码外，其他细节肉眼难以区分真伪。这证明了模型对场景纹理、光照、几何的强大理解能力。

目前，视频级别的生成仍在攻关中。

大模型不仅用于最终驾驶，在上车之前，它更能赋能整个数据闭环系统。

大模型赋能数据智能体系 🔄

目前将参数量巨大的多模态和语言模型直接部署在车端仍有困难。因此，我们主要用大模型赋能云端的工具链，构建数据智能体系。

我们的MaaS（模型即服务）数据智能体系覆盖数据采集、管理、标注、筛选、标签化全流程，底层均由大模型驱动。

以下是引入大模型后，数据工作流效率提升的几个例子：

智能数据检索：在海量数据（如十亿级图片）中，可以用自然语言描述复杂场景（如“六个行人走过斑马线”）进行精准检索，无需预先定义标签。
定向数据生成：可以手绘几条车道线，指定生成不同天气（晴天、雪天）、不同场景（环岛、弯道）的数据，极大丰富训练集。
数据风格迁移：对采集的真实数据，可进行天气、光照、纹理的风格迁移，增加数据多样性。
场景理解与解释：大模型可以对驾驶场景进行描述，提炼关键元素（如“路口”、“公交车”、“行人”），用于场景聚类、特征分析和问题诊断。

让我们回到最初的那个“模糊车道线”案例，看大模型如何解决问题。

案例闭环：用大模型解决“模糊车道线”问题 🔁

面对传统感知在模糊车道线场景下效果差的问题，大模型赋能的数据系统可以如下解决：

智能检索：输入“城市模糊车道线”等描述，系统从海量数据中找出所有类似场景。
数据补充：如果检索到的数据量不足，可以使用定向生成功能，通过Prompt生成大量类似场景的合成数据。
高效训练：利用检索和生成的数据，快速训练或微调感知模型，从而解决该长尾问题。

最后，让我们回顾一下整个研发历程，分享走过的弯路。

研发历史回顾与经验总结 🛣️

我们的自动驾驶大模型研发始于2022年，历程如下：

初期尝试（Seq2Seq）：受互联网机器翻译启发，最初将自动驾驶视为序列到序列任务（图像序列到驾驶动作），但发现任务过于复杂。
第一次简化（BERT风格）：改用量产车回传的对齐数据（感知结果+驾驶动作），以BERT方式训练，让模型预测被掩码的驾驶动作。效果有所提升，但将决策原因归结于当前感知，这与人类基于未来预测做决策的逻辑不符。
转向生成式（GPT-1.0）：将任务重新定义为生成未来的BEV，这更符合人类驾驶的预测性思维。这就是我们最初发布的自动驾驶生成式大模型1.0版本。
发现瓶颈，提出“完美感知”：在1.0版本实践中发现，如果感知输入不完美，决策模型上限很低。因此在2023年初，我们启动了“完美感知”大模型的研发，并最终实现了2D/3D/4D/识别万物的统一模型。
当前与未来：目前我们正在将“完美感知”与“认知决策”模型进行端到端整合训练，目标是实现从感知到决策的全局最优，让自动驾驶系统真正具备像老司机一样理解世界、应对复杂场景的能力。

课程总结 📚

本节课中我们一起学习了：

自动驾驶技术从硬件驱动到数据驱动（3.0时代）的演进脉络。
在3.0时代，构建自动驾驶系统的核心在于利用大数据、大算力、大模型，并重点分享了大模型的实践路径。
我们将任务分解为构建通用感知大模型和人类级认知决策模型两大目标。
详细介绍了感知大模型如何通过自监督学习、多模态对齐、下一帧预测来实现2D、3D、4D及识别万物的能力。
阐述了认知决策模型如何基于生成式架构，并引入大语言模型作为世界知识外挂，来做出更智能的驾驶决策。
探讨了从BEV生成向更本质的3D世界生成演进的技术前沿。
展示了大模型如何赋能数据智能体系，实现高效的数据检索、生成与管理，形成解决问题的闭环。
回顾了研发历史上从Seq2Seq到BERT再到GPT思路的转变，以及“完美感知”提出的必要性，为实践者提供了宝贵的经验参考。

通过本课程，希望你能够理解构建新一代数据驱动自动驾驶系统的核心思想、关键技术挑战与可能的解决路径。

课程名称：智能网联汽车安全验证策略与仿真工具链 🚗💻

课程编号：P7

在本节课中，我们将学习智能驾驶系统安全验证所面临的挑战，并深入探讨赛木科技提出的两种核心验证策略：针对连续测试空间的量化风险评估方法，以及针对离散测试空间的大规模AI交通流随机测试方法。

智能驾驶系统安全验证的挑战

上一节我们了解了课程的整体框架，本节中我们来看看智能驾驶系统在安全验证方面面临哪些具体挑战。

随着自动驾驶等级提升至L3及以上，安全责任的认定发生了变化。自动驾驶系统需要通过设计和验证来确保安全，这带来了一系列要求。

功能安全标准ISO 26262旨在解决系统内部硬件随机性失效和系统性失效的问题。其目标是确保系统本身内部没有问题。

网络安全标准ISO/SAE 21434则关注外部攻击风险。由于自动驾驶系统是联网的，可能存在外部攻击，需要通过相关安全设计来抵御。

预期功能安全（SOTIF）关注的是系统设计层面的天然缺陷。例如，感知传感器对某些光照条件或识别范围存在局限。SOTIF的安全分析和设计旨在验证这一领域的安全性。

同时，自动驾驶系统的软硬件非常复杂，难以通过分解各个模块来彻底解决安全问题。

此外，自动驾驶安全验证的一个重大难点在于“长尾问题”。我们很难通过有效的方法去枚举所有测试场景。传统软硬件测试的场景通常是确定的，因此能较好地确保安全性。而自动驾驶系统的一大挑战在于其工况的不确定性，难以枚举。

结合ISO 21448标准，在安全验证领域提出了一个重要问题：如何制定自动驾驶系统残余风险的验证方法和工具链。

安全验证的核心策略：测试空间划分

上一节我们探讨了安全验证的挑战，本节中我们来看看赛木科技提出的核心解决思路。

基于场景的测试是验证自动驾驶系统安全性的有效方法，但如何构建场景至关重要。

对于L2级系统，通过专家经验或手工搭建场景，基本可以确保其安全等级。但对于L3及以上级别，很难通过手动方式或专家经验来构建一个全面、有效的场景集合。因此，需要寻找一套系统性的方法来解决场景构建问题。

借助SOTIF的四象限分析，重点关注如何验证危险场景。对于已知的危险场景，可以将其归入已知-已知范畴，基本可以确保覆盖。但对于未知的风险场景，验证则非常困难，因为很难找到这些场景的边界。

我们的思路是将对自动驾驶系统的测试验证，转化为一个测试空间探索的问题。测试空间参数探索在航天航空等领域应用较多。

测试空间可以进一步细分为连续空间和离散空间。

连续空间是有边界的。例如，一个测试场地虽然很大，但总能在一定范围内限定其边界。

离散空间则很难通过建模找到系统的边界。

针对这两种不同的测试空间，我们的方案是：

针对连续空间：通过SOTIF安全分析定义一个带有边界的逻辑场景。这个逻辑场景可以被视为一个边界明确的空间。然后结合我们的测试空间分析工具及场景生成器，生成具体场景进行测试。
针对离散空间：通过构建大规模的AI交通流，进行随机测试。

总结来说，我们将测试空间划分为两大类型，并制定相应的验证策略和仿真工具链。

连续测试空间的风险量化评估方案

上一节我们介绍了测试空间划分的策略，本节中我们详细看看针对连续空间的风险量化评估方案。

以下是该方案的实施步骤：

安全分析与逻辑场景定义：首先通过SOTIF安全分析构建逻辑场景。安全分析分为安全设计（通过修改系统规避风险）和验证（对无法调整的潜在危险进行测试）两部分。安全工程师将识别的危害转化为仿真工程师可用的逻辑场景。逻辑场景是一个带有边界和参数分布的空间，例如 逻辑场景 = {参数1: [最小值, 最大值], 参数2: [最小值, 最大值], ...}。

实验设计与采样：获得逻辑场景后，需要进行采样。均匀采样（如蒙特卡洛）覆盖率高，但对高维空间需要极多样本，即使利用云端并发仿真，测试成本也过高。因此，我们需要一种高效的实验设计方法，用少量样本点覆盖空间，并估算系统失败概率。
具体场景生成与仿真测试：完成实验设计后，基于逻辑场景生成具体场景，并利用云端大算力仿真*台进行测试。
参数敏感性分析：获得仿真数据后，进行参数敏感性分析。目的是消除对自动驾驶系统关键性能指标影响不大的因子，实现降维。
可靠性分析迭代：敏感性分析后，进入下一轮仿真测试迭代，进行可靠性分析。可靠性分析旨在通过系统失败概率（如碰撞或TTC违规）来估算自动驾驶系统未来的失败概率。如果一个系统的失败概率是 10^-4 或 10^-5，则认为不够安全；如果达到 10^-7 或更低，则认为在实车路测中基本不会发生。

整个方案针对连续空间，提供了一套可从数学上论证、在工程上可量化输出风险评估指标的方法。

测试空间分析工具链详解

上一节概述了连续空间的评估流程，本节中我们深入讲解支撑该流程的测试空间分析工具链。

整个验证思路分为几个核心环节：

模型定义：即定义逻辑场景，借助安全分析工具完成。
敏感性分析：在定义好的测试空间中，通过高采样或拟合代理模型对参数进行分析，实现降维。
可靠性分析：在高维连续空间中，有效搜寻所有失败域，并对系统整体失败概率进行估算。
鲁棒性分析：在已识别失败风险的区域，增加扰动（噪声），测试系统的鲁棒性。

通过敏感性、可靠性、鲁棒性分析，对从ODD分析中给定的一个特定区域或空间进行全面的安全验证，最终输出失败概率。

敏感性分析

敏感性分析主要做什么？它借助仿真，分为两个阶段：

第一阶段：Model-Free 分析：对相关敏感性参数进行排序，但不决定参数是否影响自动驾驶系统的KPI。
第二阶段：Model-Based 分析：结合机器学习算法，最终筛选出对整个自动驾驶行为有影响的场景因子（例如前车距离、自车速度等）。

重点是，我们基于敏感性分析算法，用较低的样本点填充整个空间，并结合统计和机器学习方法，确定因变量中不确定因子对整体空间的影响。

第一阶段通过统计分析找到应变量的优先级。
第二阶段（Model-Based）要解决的问题是：当增加新的影响因子或场景定义时，它对结果的影响有多大。如果增加因子后模型精度提升，则该参数重要；如果模型精度指标下降，则该参数无用。经过敏感性分析，我们可以得到重要的场景参数，为后续仿真测试降维。

可靠性分析

可靠性分析旨在通过对测试空间失败域的搜寻（覆盖所有失败域），结合样本点设计和仿真测试，估算系统的失败概率。

传统方法如蒙特卡洛采样所需样本点极多。对于一个成熟系统，其失败概率可能低至 10^-6 或 10^-7，蒙特卡洛采样会面临“维数灾难”，工程上无法实现。因此，需要可靠性分析算法来评估极低失败概率。

以下是几种常用的可靠性分析算法：

方向性采样：沿各个维度进行采样和失败率搜索。
自适应重要性采样：通过不断迭代，依据上一轮结果搜寻下一个可能存在的失败域，从而全面覆盖整个参数空间。

我们进行了一个实验对比。使用一个失败概率为 10^-7 的测试函数。从对比表格可以看出，当失败概率低至 10^-7 时，可靠性分析算法大约需要5000次仿真即可估算出概率，而蒙特卡洛采样则需要超过6700万次。可靠性分析算法将效率提升了四个数量级。

鲁棒性分析

鲁棒性分析是在完成可靠性分析、已搜寻到失败域临界面的基础上，通过增加扰动来观察系统的安全裕度。如果安全裕度落在六西格玛范围，则认为鲁棒性很好；如果是三西格玛，则定义了系统在未来可能存在扰动下的安全边界范围。

基于工具链的仿真验证流程

上一节我们深入分析了各项工具，本节中我们来看看如何将它们整合成完整的仿真工具链。

基于测试空间分析工具（敏感性、可靠性、鲁棒性分析）的理论，我们制定了整套仿真工具链：

安全分析工具（Safety Pro）：输出逻辑场景。
云端仿真*台：接收逻辑场景。
测试空间分析工具：制定测试策略（如采样、实验设计），生成具体场景。
云端仿真*台（大算力）：执行大规模并发仿真测试。我们自研的仿真引擎支持最高1000Hz仿真，覆盖毫米波、激光、摄像头等物理传感器（模拟不同光照、噪点），并结合27自由度动力学模型进行闭环测试。
结果反馈：仿真结果返回给测试空间分析工具进行可靠性与鲁棒性分析，最终结果再反馈回安全分析阶段。例如，若失败概率为 10^-4，则需重新进行系统设计；若为 10^-7，则认为在该场景下足够安全。

整套工具链已在云端集成，并实现商业落地。我们的安全分析工具Safety Pro和仿真引擎SYMPO已通过功能安全ASIL D等级认证，确保了工具链的可靠性和置信度。

离散测试空间的风险评估：AI交通流

上一节我们完成了对连续空间验证的讨论，本节我们转向离散测试空间的解决方案。

离散空间相比于连续测试空间，很难通过数学方式建模并求解边界。我们的解决方案思路是引入随机交通流。

在构建交通流时，我们思考是采用传统的基于规则的模型，还是数据驱动的模型。我们的理解是，传统的交通流模型（多源自国外）很少包含中国本土交通规则，其变道、跟车等模型难以逼*真实的中国交通流。因此，我们认为应该构建基于中国实际交通流数据的AI模型，包括宏观和微观交通流模型。

我们的方案是：

采集宏观和微观交通流数据。
基于数据训练AI模型。
结合云端仿真*台进行闭环测试验证。

宏观交通流模型预测整个城区不同道路的车流密度、速度和流量。微观交通流模型（可理解为数据驱动的驾驶员模型）预测单车在复杂工况下的行为（如变道、超车、减速）。

确定交通流模型后，结合云端解决方案（虚拟城市）进行测试。虚拟城市类似于数字孪生，基于高精度地图和高拟真度3D模型构建。对于L3及以上城区自动驾驶验证，除了在特定片段场景下测试，还需要在连续空间下进行验证。AI交通流模型正是为了解决这个问题。

AI交通流模型设计

宏观模型：结合道路拓扑信息和交通流动态，采用非线性时空图神经网络。模型输入为地图信息和宏观交通流数据，主干网络采用四种不同的时空图神经网络，通过Stacking后融合算法输出对特定道路流量、密度、速度的预测。
微观模型：是一个数据驱动的驾驶员模型。网络结构包括光栅化、主干网络（基于BEV+Transformer架构）、编码解码器，最终输出多模态预测（如直行、左转、右转的概率），选择最高概率的轨迹。模型还加入了后优化模块来提升推理准确性。

离散空间验证工具链

针对离散空间的验证工具链如下：
图的左边结合了基于真实数据训练的AI交通流模型和虚拟城市，生成海量交通流数据。
数据输入到分布式的仿真节点。我们采用分布式仿真，将计算量大的传感器感知信息计算分解到每个并行容器中，实现实时仿真。
目前性能可支持5000+交通车和100+主车进行并发测试。虽然基于规则的模型可能支持更多车辆，但AI模型在推理逼真度上更具优势，且我们正在进行大量并行计算优化。
最终，整个*台能进行实时分析，提取关键NG场景。

总结

本节课中我们一起学习了智能驾驶系统安全验证的策略与工具链。

我们首先分析了自动驾驶安全验证在功能安全、网络安全和预期功能安全等方面面临的挑战，特别是“长尾问题”和场景枚举困难。

针对这些挑战，赛木科技提出了基于测试空间划分的验证策略：对于连续测试空间，采用从SOTIF分析、实验设计、敏感性分析、可靠性分析到鲁棒性分析的量化评估流程，通过高效的算法（如可靠性分析算法）在可接受的仿真次数内评估极低失败概率；对于离散测试空间，则通过构建基于中国真实交通数据训练的AI宏观与微观交通流模型，结合虚拟城市和分布式云仿真*台，进行大规模、高逼真度的随机测试。

这两套方法共同构成了应对预期功能安全中未知危险场景验证的完整解决方案。

课程名称：智能网联汽车深度学习算法 🚗💻

课程编号：P8

在本节课中，我们将要学习智能网联汽车领域深度学习算法的研究背景、现状、挑战以及相关实践工作。课程内容涵盖从单车智能到车路协同的演进，以及如何利用多模态融合、云边端协同等技术解决复杂环境下的感知、决策与计算问题。

研究背景 🌍

人工智能驱动的车联网，是实现智能驾驶的根本保障。随着通信、感知与计算技术的发展，无线通信网络正向更高的移动性和更复杂的场景延伸。云计算与人工智能使得智能网联汽车的计算走出智能座舱，提供了高可靠性、大带宽、低延迟的通信传输。边缘计算降低了服务延迟，使体验能够做到强实时。车路协同是必然趋势，它能够将预训练好的模型卸载到边缘节点，降低延迟，提供定制化与个性化服务，同时降低数据上传至云端带来的隐私泄露风险。

智能驾驶是必然趋势。第一代与第二代人工智能从不同侧面表征了人类智能，各有优势与局限性。单靠某一种理论无法实现真正的拟人智能。需要结合理论，建立新的可解释、鲁棒的AI理论和方法。数据驱动与知识驱动相结合是重要方向。

解决交通安全与拥堵等民生问题是关键。每年都有大量交通事故与交通拥堵发生。例如，特斯拉曾将白色汽车误判为天空导致事故，谷歌也发生过类似事件。因此，实现更加可靠、安全、节能和舒适的智能驾驶是必然趋势。全球都在积极推动，自动驾驶系统的核心技术已成为全球战略制高点。中国制造2025和2035远景规划确定了智能驾驶为核心战略内容。今年6月，智能网联汽车的准入和道路管理规范试运行通知也已发布，加速推动其高质量发展。美国、欧盟和日本也在积极推进。

研究现状与挑战 ⚙️

上一节我们介绍了智能驾驶的背景与趋势，本节中我们来看看当前的研究现状与面临的挑战。

百度专注于路侧感知，因为感知是提供信息的基础，需要做到全方位、多角度、多视角和多模态的感知。中国联通基于移动边缘计算的新架构进行研究。华为基于V2X（车与万物互联）技术，包括车与路侧基础设施的新型部署，实现了多场景下的应用。

车路协同的实现需要分阶段推进，不可能一蹚而就。其中，感知任务在车路系统中具有重要地位，因为它是提供信息的基础，即协同感知。

以下是学术界关于车路协同与协同感知的一些研究概况。

单车智能面临安全性、运行设计域以及经济性方面的挑战。首先，安全性方面，单车智能在特定场景下，其辅助驾驶系统存在应对不足和失效的风险，安全性有待提升。其次，运行设计域方面，在雨天、雾天、雪天等恶劣天气的长尾场景，以及“鬼探头”现象下，感知能力仍有待提升。最后，为了做到全方位、多视角、多模态的融合感知，需要在单车部署更多传感器和高性能通信设备，这自然导致单车成本的增加。

单车智能与车路协同并非完全对立。单车智能指在车辆本身完成自动感知、规划、决策和控制执行的全过程，搭载神经网络进行自动驾驶算法。车路协同则实现车路云一体化，实现感知决策一体化，充分发挥道路、路侧、云和边缘计算的协同配合。这两种技术各有优势与不足，它们的融合是未来的趋势。车路协同能够实现自动驾驶的上限，而在车路系统中，仍然需要单车智能。

科学研究与实践 🧪

上一节我们分析了现状与挑战，本节中我们将介绍针对这些挑战所进行的一些科学研究与实践工作。

以下是本团队研讨的几个核心科学问题：

高移动性与动态拓扑：车辆网络具有高移动性和动态变化的拓扑结构。
异构与海量数据：车端产生异构、海量的数据。
新型体系架构：需要适应通信与计算需求的新型整体体系架构。
精准感知：需要实现多模态、多视角的精准感知。
模型轻量化与可解释性：复杂的深度学习模型需要轻量化、模型分割、压缩等知识蒸馏技术。
低延迟服务：面向数据时效性和缓存卸载，需要实现低延迟、高可靠、强实时的服务，例如将训练好的模型卸载到路侧或边缘服务器。

1. 感知技术：不良天气条件下的感知

我们首先关注感知技术，特别是在不良天气条件下的感知。

工作一：基于多模态融合的未知天气端到端自动驾驶

针对问题：不良天气条件下，多元异构数据难以融合；多阶段自动驾驶存在误差累计。
解决方案：提出了一种新的端到端架构。该架构接受两个输入：二维RGB图像和BEV（鸟瞰图）图像。通过灵活映射和弹性解耦两种方法，以及多头注意力机制和CNN来融合多模态数据，获得更可靠的驾驶环境感知。此外，还输入路径点和车辆速度信息，用于高级导航引导和车辆控制。
核心方法：
- 灵活映射 与 弹性解耦：提高融合特征的鲁棒性，避免不良天气下性能下降或特征丢失。
- 经过联合映射、弹性结构、多层规划机制和多层注意力机制，最终形成灵活的特征向量。
评估：在仿真系统中对端到端自动驾驶算法性能进行评估，在复杂多变场景下验证模型。性能指标包括驾驶得分（DS）、路线完成率（RC）和每公里违规数（IS）。实验在多个区域（Town01-Town05）进行，结果显示本方法在各项指标上均具优势。

工作二：互学引导的语义感知增强

针对问题：恶劣天气下物体检测不可避免。现有研究多集中于区域检测和语义分割，但未考虑两个任务间的相互作用。
解决方案：提出了CEMGN（互学引导的直线度增强互图网络），使两个任务相互激励，提高各自任务的鲁棒性。
核心方法：
- 构建双任务（语义分割和边界区域检测）的直线度增强模块，将特征图转化为图特征，提高任务鲁棒性，降低欧几里得空间的特征损失。
- 使用INTEGRAPH推理来估计任务间差异，提取模块的高级特征。
评估：在Cityscapes和Foggy Cityscapes数据集上验证，交并比（IoU）达到80%左右，在雾天扰动下性能波动低于1%。实验表明，本方法在*均准确率和*均交并比上均占有优势。

工作三：复杂城市环境下的交通要素识别

针对问题：城市环境复杂，交通要素（如车辆）识别困难。
解决方案：改进了YOLO模块，加入通道注意力机制。
核心方法：
- 引入High Resolution模块到YOLO中。
- 低分辨率网络特征与高分辨率网络特征并行连接，以降低低分辨率网络特征的信息丢失。
评估：在Cityscapes数据集和自制数据集上进行性能对比，指标包括误检率和漏检率，结果显示本方法性能更优。

工作四：交通流量预测

针对问题：单一的深度学习方法面临过拟合风险。
解决方案：使用动态权重融合两种模型，提高预测精度和泛化能力。结合了LSTM模型和SAE（堆叠自编码器）模型。
评估：使用MSE（均方误差）指标，值越小表示预测值与真实值差距越小。实验结果显示本方法的MSE值最小。

2. 云边端协同训练关键技术 🖥️📱

接下来，我们看看如何通过云边端协同来优化训练与推理过程。

工作一：车载编码联邦学习

针对问题：联邦学习带来高通信开销，对高隐私数据构成巨大挑战。
解决方案：提出车载编码联邦学习，旨在压缩通信量，降低模型更新频率和大小，从而降低通信成本。
核心策略：
1. 本地训练策略：减少通信轮次。
2. 部分客户端参与：并非所有客户端每轮都参与。
3. 约束上传时间。
4. 高效聚合策略。
评估：验证了通信成本的降低以及收敛速度的提升。

工作二：基于增量训练的DNN计算卸载

针对问题：计算卸载算法存在灾难性遗忘问题，模型需要重新训练以提高准确性。
解决方案：提出一种增量训练方法，减少训练通信成本，提高快速收敛能力。
对比算法：与随机卸载、本地计算、贪心算法（Greedy）等基线方法对比。
优化目标：灵活优化，同时考虑延迟和能量消耗。当参数 β = 0 时优化延迟，β = 1 时优化能量。

工作三：多尺度压缩的DNN推理加速

针对问题：边缘环节的动态性、车辆的动态性以及终端设备的多样性，对模型划分提出了重大挑战。
解决方案：将问题建模为一个混合整数优化问题，灵活优化模型选择（延迟敏感型或计算密集型）、模型分割点以及带宽等资源分配，以最大化推理准确性和延迟之间的权衡。
系统架构：云端进行离线训练，边缘进行在线推理。
决策内容：
1. DNN模型版本选择。
2. 资源分配决策。
3. 根据任务属性（计算量重或延迟敏感）进行动态优化。

工作四：模型分割与轻量化技术

针对问题：在资源受限的车端或边缘端部署计算密集的大模型非常困难。
解决方案：提出模型划分与计算卸载策略。考虑DNN模型的最优分割点随计算资源分配变化的问题，改进粒子群优化（PSO）算法。
轻量化实践：改进YOLO模型，使用Dense Block和Residual Block，并在块之间添加池化层以减少特征丢失。将视频分析任务转移到边缘端。
结果：模型压缩后，准确率略有下降，但检测速度（FPS）得到显著提升。

3. 深度强化学习与计算卸载 🤖

最后，我们探讨如何利用深度强化学习来优化动态环境下的计算卸载。

工作一：移动感知的深度强化学习卸载

针对问题：车辆高动态性、拓扑时变性以及卸载任务的数据依赖性，使得高效卸载面临巨大挑战。
解决方案：构建车路系统计算卸载模型，提出考虑响应时间和能耗的优化问题，并设计基于深度强化学习的移动感知相关任务卸载方案。
方法：将最优任务卸载方案表述为一个受约束的马尔可夫决策过程（CMDP），利用深度强化学习解决感知决策序列问题。

工作二：深度强化学习用于资源分配

针对问题：车内网/车际网资源负载不均衡，资源受限且需求动态。
解决方案：提出多目标资源分配方案，将其建模为多目标优化问题，并开发一种基于非支配排序的遗传算法（NSGA）来解决。
结果：实验表明，该方案能将延迟改进26%，整体资源可用性提高42%。

应用展示与总结 🎯

本节课中我们一起学习了智能网联汽车深度学习算法的多个方面。

我们面向智能驾驶现实场景的需求，围绕以下三个方面的关键技术展开研究：

复杂场景感知：针对不良天气条件（雪、雨、雾），研究多模态融合感知。
高效训练与推理：研究车路云协同的高效训练和推理加速技术。
智能计算卸载：研究基于深度强化学习的计算卸载技术。

未来的智能驾驶希望能够实现：

多模态融合：全视角、多模态、多智能体融合，提高感知精准度。
车路协同深化：实现大小模型协同，促进知识共享。
轻量化部署：结合边缘计算，部署更加轻量级、实时的模型，推动技术落地。

本研究得到了国家自然科学基金和深圳市重点基金的支持。

课程名称：从数据驱动到知识驱动——自动驾驶新路径 🚗💡

课程概述

在本节课中，我们将学习自动驾驶领域的一条新兴技术路线——从数据驱动转向知识驱动。我们将探讨传统数据驱动方法面临的瓶颈，并深入了解如何利用具身智能、大模型和闭环仿真等技术，构建具备自监督、高泛化性和持续学习能力的自动驾驶系统。

自动驾驶的挑战与瓶颈

上一节我们介绍了课程的整体方向，本节中我们来看看自动驾驶发展至今面临的核心挑战。

自动驾驶技术发展已*40年。早在1986年，卡内基梅隆大学的Navlab实验室就推出了原型系统。到1995年左右，他们的第五代系统实现了横跨美国的壮举。然而，整个过程中仍有约2%的场景需要人类驾驶员接管。直到30年后的今天，这最后的2%仍未得到完全解决。

数据驱动的方法似乎遇到了瓶颈。业界原本预期通过增加传感器和数据来实现从L1到L5的迭代。但实际情况是，系统性能在达到L2级别后仿佛遇到了一面墙，难以突破至L3。究其原因，主要在于存在各种各样的长尾场景。这些场景不仅罕见，甚至可能是一辈子都不会遇到一次的数据。

以下是几种真实发生的长尾场景示例：

道路上出现异常物体。
极端或罕见的天气与光照条件。
复杂且不规则的交通参与者行为。

人类学习的启示与新路径特征

面对数据驱动的瓶颈，研究团队开始从人类学习驾驶的过程中寻找灵感。

为什么一个青少年只需要大约20小时的练习就能学会开车？并且大部分人首次遇到从未见过的场景时，也具备一定的解决能力？这是一个值得深思的问题。

数据驱动方法的困境在于其泛化性难题。它通常在固定场景上训练，任务的定义形式限制了其能力上限。例如，传统的目标检测模型通常不会定义去检测“路上是否有飞机”。

知识驱动的方法则不同。它利用跨领域的知识能力，例如多模态大模型或预训练技术。这些技术首先具备对通用场景和物体的理解能力，并且能以较低成本迁移到真实环境中，从而完成一些数据驱动方法难以想象的任务。

基于此，我们认为一条可行的自动驾驶新路径应具备以下几个核心特征：

泛化性：能够处理未见过的场景。
自监督：具备自我反思和从经验中学习的能力。
持续学习：能够不断积累和优化知识。

构建知识驱动自动驾驶：环境与智能体

上一节我们探讨了新路径的特征，本节中我们来看看如何具体构建知识驱动的自动驾驶系统。我们主要从具身智能的视角出发，其核心是环境与智能体的交互。

智能体在环境中进行感知、探索和决策，整个过程在一个闭环下完成。我们团队的研究也围绕这两个方面展开。

构建高保真虚拟环境

训练自动驾驶算法最好的环境是真实世界，但直接训练要么不闭环（仅使用预先采集的数据），要么不安全。因此，构建一个能够高度还原真实世界的虚拟环境至关重要。

我们探索了两条技术路线来构建这样的虚拟环境。

第一条路线：基于神经渲染与交通仿真

这条路线包含三个部分：重建、泛化与生成。

重建：利用真实世界数据，通过神经渲染技术进行三维重建。
泛化：对场景进行编辑，例如利用交通流生成工具创造出真实世界中不存在但合理的交通场景（尤其是长尾场景）。
生成：使用神经渲染技术将编辑后的场景渲染生成出来。

我们提出了一个名为 NeuroSim 的开源框架。它的特色在于采用SDF（有符号距离函数）表征，能够对动态和静态的前后景物体实现解耦的三维重建，并支持多种传感器（如激光雷达）的仿真。

同时，我们开发了 LimeSim，一个开源的高一致性交通流仿真工具，能从真实数据中学习不同驾驶风格。将NeuroSim与LimeSim结合，我们构建了端到端的仿真引擎 OE Sim。

第二条路线：基于生成模型的闭环仿真

由于基于神经渲染的路线对数据质量要求高、流程长，我们同时探索了第二条更直接的路线：利用可控生成模型实现闭环仿真。

其核心架构非常简单：

# 伪代码示意
生成图片 = 可控生成模型(输入路网结构 + 自车/他车状态)

我们利用如MagicDrive、Panacea等基于布局（Layout）可控的图像生成工具，结合LimeSim仿真器，能够生成全新的、连续的驾驶场景帧，从而形成一个纯粹的、基于生成模型的闭环仿真引擎。

通过这些技术，我们能够自动化进行4D标注、编辑场景（如增删物体、改变光照）、生成丰富的新数据，最终用于自动驾驶算法的训练和测试。

构建知识驱动自动驾驶：智能体设计

上一节我们介绍了如何构建虚拟环境，本节中我们聚焦于智能体本身的设计。

我们认为自动驾驶智能体的三个特征（自监督、高泛化性、持续学习）至关重要：

自监督：指智能体需要具备自我反思能力，不依赖外部标注信号进行反馈。
高泛化性：指智能体需要具备推理能力，而非简单记忆已知场景，以克服“灾难性遗忘”问题。
持续学习：基于前两种能力，实现经验的持续积累。

我们提出了一个知识驱动自动驾驶的闭环训练框架。智能体从环境中感知场景，理解并做出规划。执行后，结果成功或失败。成功的经验被保存，失败的经验则通过反思模块进行分析，并生成如何避免失败的修正信息，同样存入记忆库。当遇到新场景时，智能体会从记忆库中查询相似经验，结合当前场景特殊性做出决策。

融入大模型：从决策到闭环学习

大模型的出现为智能体提供了强大的推理和决策模块。

我们的早期工作 CoDriving 首次将大模型与自动驾驶决策相结合。在这个框架中，所有推理和决策模块都由一个大语言模型执行。实验表明，通过设置记忆上限并让模型积累经验，其性能会随经验增加而上升。

我们最新的工作 CoAD 则更进一步，模仿了人类决策的“快慢系统”：

快系统：类似“肌肉记忆”，能对常见场景快速做出决策。
慢系统：更理性、缓慢，具备深度推理能力，用于处理罕见或复杂场景。

当快系统决策出错时，会触发慢系统进行反思，生成修正经验。这些经验被用来定期优化快系统。这样，在绝大多数情况下只需调用高效的快系统，仅在必要时才启用慢系统，实现了高效且持续的知识积累。

针对驾驶场景的视觉语言模型

为了让大模型更好地理解驾驶场景，我们微调了一个视觉语言模型。我们合成了一个专注于自动驾驶价值信息的数据集，包含：

语义标签（如车辆、行人）。
危险物体（如*距离车辆）。
基础设施（如红绿灯、交通标志）。

使用仅约1万帧的数据对开源模型进行微调后，模型能为驾驶场景生成高度相关的描述，例如：“前方绿灯，但右侧有车辆正在靠*，建议保持车速并观察”。

实验验证

我们通过实验验证了该路径的可行性：

效果提升：针对驾驶场景微调的小模型，在特定任务上能达到与GPT-4相当的效果。
数据高效：系统通过自监督闭环形成驾驶经验，对人工标注数据的依赖极低。
泛化性强：在一个城市训练得到的模型，迁移到全新城市时性能下降有限，说明学习到的“知识”（如交通规则）具备泛化性。
持续学习：随着在环境中“反思”和运行轮次的增加，智能体的*均成功率呈现上升趋势。

课程总结

本节课中，我们一起学习了自动驾驶从数据驱动到知识驱动的新路径。

我们认识到，由于无穷无尽的长尾场景存在，仅靠采集海量数据的开环方式难以实现高阶自动驾驶。因此，转向知识驱动是一条值得探索的路径。

为了实现这一目标，我们需要让模型具备自监督的推理和反思能力。自监督、泛化性和持续学习是知识驱动自动驾驶的三大基石：

自监督使智能体能在无人工标注下与环境交互，实现自我反思。
泛化性利用推理能力，对未见场景举一反三。
持续学习结合推理与反思，实现闭环式的经验持续增长。

通过构建高保真虚拟环境、设计融合快慢系统的智能体架构，并利用大模型增强理解与决策能力，我们正在为自动驾驶突破现有瓶颈、实现真正的“智能”驾驶探索新的可能性。

课程1：生成模型专题论坛背景与嘉宾介绍 🎤

在本节课中，我们将了解2024年北京智源大会生成模型专题论坛的背景信息，并认识本次论坛的组织者与各位特邀演讲嘉宾。

论坛背景介绍

大家好，我是中国人民大学的李崇轩。感谢组委会的信任，由我来组织本次生成模型专题论坛。同时，也感谢各位在距离主会场较远的情况下前来，现场座无虚席，非常感谢。

去年，我与清华大学陈建飞副教授共同组织了该论坛。过去一年间，生成模型领域的发展非常迅速。

我们可以看到，在许多方面都取得了良好进展。例如，*期备受关注的视频生成模型，以及在图像与语言的概率建模框架上也出现了一些新的变化。学界开始进行一些非常前沿且与众不同的探索。

在这个背景下，我们可能会关注一个问题：在网络结构上，Transformer或其变体可能是一个好的选择，并且大家对于模型的可扩展性或规模扩展抱有较强的信心。然而，在概率建模框架上，目前仍存在一些争议。

例如，在语言领域，大家可能更倾向于相信自回归模型；而在视觉领域，则可能更倾向于使用扩散模型。今天，我们非常荣幸地邀请到了四位国内生成模型领域的一线专家，共同探讨这个话题。

演讲嘉宾与议题介绍

以下是本次论坛的四位特邀嘉宾及其分享主题。

卢志武教授（中国人民大学）：将分享视频生成领域的最新进展。
江毅研究员：将汇报视觉自回归生成的新框架 VAR。
谷舒扬博士（微软亚洲研究院）：将分享对现有视觉生成模型的思考，以及对现有框架一些缺陷的反思。
邓志杰教授（上海交通大学）：将分享如何从类扩散模型或一致性模型中获得启发，对大语言模型进行微调并加速其推理。

在报告环节之后，我们将举行圆桌论坛。我们将共同讨论在多模态技术蓬勃发展、即将取得突破的前夕，应如何构建一个统一的概率建模框架。

我的介绍到此结束，谢谢大家。

首位报告嘉宾详情

下面开始报告环节。第一位报告嘉宾是中国人民大学的卢志武教授。

卢志武教授于2005年毕业于北京大学数学科学学院，获理学硕士学位；于2011年毕业于香港城市大学计算机系，获博士学位。他的研究方向是机器学习与计算机视觉。

他设计了首个中文通用多模态预训练模型文澜，并在多模态领域发表了首篇Nature子刊论文。此外，他早于OpenAI发布了类Sora的视频生成底座模型 VDT。

让我们欢迎卢老师进行分享。

本节课中，我们一起了解了本次生成模型专题论坛的背景、核心讨论议题，并认识了包括卢志武教授在内的四位顶尖专家。接下来，论坛将进入精彩的技术报告环节。

2024北京智源大会-生成模型 - P2：视频生成前沿进展 🎬

在本节课中，我们将学习视频生成领域的主要挑战、当前主流的研究范式以及最新的技术进展。我们将从视频生成的难点出发，梳理两种核心的技术路线，并介绍包括Sora、Pika、Runway等在内的代表性模型，最后展望未来的发展方向。

第一部分：视频生成的三大核心挑战 🧩

上一节我们介绍了课程概述，本节中我们来看看视频生成面临的具体困难。视频生成相对于图像生成要困难得多，主要原因在于其需要考虑时间维度上的连续性。这导致了以下几个核心挑战。

挑战一：内容一致性难以保证

视频由多帧图像构成，生成时必须保证时间维度上的内容一致性。这种一致性体现在多个方面，例如故事情节的连贯性、人物身份（ID）的稳定性以及人物动作的流畅性。一个常见的失败案例是使用当前较好的开源模型 Stable Video Diffusion (SVD) 生成的视频中，人物可能出现肢体数量或动作不连贯的问题。

挑战二：计算资源消耗巨大

视频生成对计算资源的需求极高，无论是训练还是推理阶段。生成一张图片可能只需不到一秒，但生成一个仅5秒的720P高清视频（约120帧），就需要一次性生成所有帧。这不仅耗时，更关键的是对显存（GPU Memory）的占用极大，常常导致无法生成长视频，这是一个矛盾。

挑战三：可控生成极为困难

图像的可控生成（如通过ControlNet）已相对成熟，但视频的可控生成要困难得多。视频涉及更多额外因素，例如镜头角度、人物动作等。在视频生成本身尚未完善的情况下，实现精细的可控生成更具挑战性，但并非无法研究。

第二部分：视频生成的两种主流范式 🛠️

尽管挑战重重，但研究者们提出了多种方法。我个人观点认为，现有研究大致可分为两类范式。

以下是两种范式的核心思想：

基于Stable Diffusion的逐帧生成范式：以预训练的 Stable Diffusion (SD) 模型为基础，先生成单帧图像，再通过额外模块（如时间卷积、注意力机制）来建模帧间连续性，保证视频连贯性。
时空Patch整体生成范式：将整个视频视为一个3D整体（时空块）进行一次性生成。这种方法天生保证了连续性，但缺点是需要从头开始训练，没有强大的预训练模型可用，对算力和数据要求极高。

目前，基于第一种范式（逐帧生成）的代表性工作包括：Pika、Runway Gen-2、阿里、腾讯的开源模型以及 Stable Video Diffusion (SVD)。
基于第二种范式（整体生成）的代表性工作包括：OpenAI Sora、生数科技的Video 以及我们团队的 VDTR。

第三部分：逐帧生成范式的最新进展 📈

上一节我们介绍了两种范式，本节中我们详细看看基于SD逐帧生成方法的最新进展。

1. Pika

Pika是一个闭源模型，技术细节未公开。其核心思想推测是基于预训练的SD模型，额外加入时间维度的建模。它的一项关键技术是借鉴了文生3D模型中的“滑动窗口”并行计算加速方法，通过设计阈值来优化计算流程，节省算力。

2. Runway Gen-2

Runway Gen-2同样未公开细节，但其前代模型Gen-1的技术已公开。Gen-1本质上是一个视频编辑模型，架构基于Stable Diffusion。其关键改进在于引入了视频的深度信息（Depth Map）作为3D条件，确保编辑后的视频与原视频在空间结构上保持一致。它在SD的2D卷积和注意力模块后，分别追加了1D的时间卷积和时间注意力层，从而引入了时间建模能力。

时空卷积模块：Conv2D + Conv1D (Temporal)
时空注意力模块：Attention2D + Attention1D (Temporal)

3. 开源模型对比

以下是三个重要开源模型的简介：

阿里Model：这是一个“图生视频”模型。采用两阶段生成：第一阶段根据输入图片生成低分辨率（448x256）视频；第二阶段利用超分模型将视频提升至高分辨率（如720P）。其底座是 SD 2.1。
腾讯Model：基于其之前的“文生视频”模型 VideoCrafter 改造而成，增加了图像条件输入，从而升级为“图文生视频”模型。底座同样是 SD 2.1。
Stable Video Diffusion (SVD)：这是目前开源领域效果最好的图生视频模型之一。它的两大改进是：
1. 重新训练了VAE的解码器部分，在压缩/重建过程中就考虑了时间信息。
2. 与Runway类似，在模型中加入了时间卷积和时间注意力模块，并且是整个模型从头训练，而非只训练新增部分，因此效果更好。

第四部分：时空Patch整体生成范式的最新进展 🚀

现在我们来介绍第二种，也是当前备受关注的范式——将视频作为时空Patch整体生成。

1. OpenAI Sora

Sora是推动该领域发展的关键模型。其核心步骤包括：

视频压缩与表示：训练一个专门的 ViT-VAE 网络，将视频压缩到低维空间，并分解为3D的时空Patch（可视为Token序列）。
模型架构：采用 Diffusion Transformer (DiT) 架构。这是一个扩散模型，接收带噪声的Patch和条件输入，训练目标是预测干净的Patch。OpenAI通过实验证明了该架构具有出色的可扩展性（Scaling Law），即增加模型计算量能持续提升生成质量。

2. 生数科技 Video

该工作的核心思想是将图像扩散模型中的U-Net（CNN架构）替换为Transformer架构（即 U-ViT）。研究发现，将时间步（timestep）和文本条件（context）作为Token输入，并合理设计长跳跃连接（类似ResNet），能取得很好效果。最终在大规模数据上训练出 U-DiT 模型，并进一步扩展到视频生成，得到 Video 模型。

3. 我们的工作：VDTR

我们团队（高校）在2022年底就产生了类似Sora的想法，并于2023年5月将论文预发布在Arxiv上。我们的工作主要包括：

结合扩散与Transformer：探索将Transformer技术应用于基于扩散模型的视频生成。
统一时空掩码建模：提出统一的时空掩码训练方法，以覆盖各种视频生成任务。
由于算力有限，我们的设计与Sora存在两点主要差异：

注意力机制：我们采用 时空分离的注意力 以节省显存，而Sora使用 3D合并的注意力，效果更好但算力消耗大。
训练任务：我们主要聚焦于“图生视频”，因为“文生视频”需要更大量的数据才能出效果。尽管如此，我们的模型在当时已能学习到简单的物理运动规律（如加速运动）。

此外，我们在有限算力下选择在“人像视频生成”这一垂域进行深耕，通过加入人脸控制、人体骨架控制等技术，使生成视频在特定领域达到了商用级质量，证明了在资源受限下实现技术突破的可行性。

第五部分：未来展望与总结 🌟

最后，让我们对视频生成的未来进行展望。这些方向与开篇提出的三大挑战相呼应。

以下是未来一年可能的重要发展方向：

推理加速：降低视频生成耗时，是走向商用的必经之路。推理加速技术相对更容易实现。
生成长视频：突破生成长视频（如2分钟以上）的瓶颈。这可能不能仅依赖模型本身，还需要结合后期处理等技术。
视频可控生成：这是普通研究者和高校团队可能更容易切入的方向。在通用大模型基础上，进行特定场景（如特定动作、镜头语言）的可控生成，所需算力相对较小，且应用前景广阔。

本节课总结：
本节课我们一起学习了视频生成领域的核心挑战、两种主流技术范式（基于SD的逐帧生成和时空Patch整体生成）以及各自的代表性模型（如SVD, Sora, VDTR等）。我们看到了从保证一致性、降低算力消耗到实现精细控制的发展脉络。尽管面临巨大算力门槛，但在特定垂域深耕或聚焦于可控生成等方向，依然存在重要的研究和应用机会。视频生成的道路虽远，但行则将至。

课程名称：2024北京智源大会-生成模型 - P3：视觉自回归建模与下一代尺度预测 🎨

概述

在本节课中，我们将学习一种全新的图像生成框架——视觉自回归建模。我们将探讨如何借鉴语言模型的成功经验，并将其应用于视觉生成领域，最终介绍一个名为“VR”的创新工作，它通过“下一代尺度预测”实现了高效、高质量的图像生成。

第一节：深度生成模型概览 🌐

首先，我们来介绍当前主流的深度生成模型。在视觉生成领域，早期的模型包括2020年之前的生成对抗网络。目前，大家非常关注基于变分自编码器或矢量量化变分自编码器的模型，以及罗老师介绍的时空块或时空特殊标记方法。此外，还有基于流的模型。从2021年开始，由OpenAI提出的扩散模型开始流行，包括贾森·霍姆的去噪扩散概率模型或宋飏老师的基于分数的模型。

扩散模型大家应该比较清楚了，这里不再赘述。这些著名的工作包括去噪扩散概率模型、宋飏老师的基于分数的模型，以及贾明老师的去噪扩散隐式模型加速方法。我们将重点围绕自回归模型或语言模型，介绍我们探讨的一系列方法，以及从语言模型中借鉴的见解。

第二节：借鉴语言模型的成功经验 📚

上一节我们介绍了各类生成模型，本节中我们来看看如何从语言模型中汲取成功经验，以改进视觉生成。这包括经典的标记化、下一个标记预测和缩放定律。

首先，我们来说一下像GPT这样的自回归模型是如何训练的。第一，通常需要一个标记化过程，例如字节对编码或词片切分。第二，基于这个标记化进行下一个标记预测。第三，基于这种预训练模型进行指令微调。最后，会有人类反馈强化学习来优化模型。

从语言模型的经验中，我们可以看到标记化、下一个标记预测和缩放定律是关键。有了缩放定律，结合下一个标记预测，大多数方法可以将模型规模扩大，包括扩大模型尺寸和计算量。

语言模型中最重要的部分是标记化，例如字节对编码或词片切分。其主要目的是将人类语言离散化。人类的语言是离散化的信息，包括我们写的字和说的话。将这些离散的语言单元化后，可以映射到标记ID。有了标记ID，就可以通过一个自监督的下一个标记预测任务，基于交叉熵损失和最大似然优化来优化整个模型。然后将整个模型规模扩大，包括使用更多的算力。

最后一点是，字节对编码或词片切分这类标记化是在语义空间上的，这与计算机视觉不同。计算机视觉中的矢量量化变分自编码器或变分自编码器更多关注底层信息，即低级信息。但自然语言处理中的这些标记化更多包含语义信息。因此，包括我们所有的视频生成或图像生成，以及未来的多模态任务，我们都更希望视觉和语义能更好地衔接。这也是计算机视觉目前尚未涌现出具有强大涌现能力的大模型的一个因素。

回到语言模型这一块，其预训练更多的是通过下一个标记预测，从大规模的文本数据中学习知识。在预训练阶段之后，它可以学到大量的语义知识，因为我们已经将文本标记映射到标记ID了。并且标记ID之间存在着分布关系。

第二点是通过不同的预训练，它可以实现上下文学习。有了上下文学习之后，我们就可以将其迁移到一些开放任务上，例如进行少量样本学习或相关的新任务泛化。这也是与视觉非常不同的一个地方。因为自然语言处理中的所有任务都可以通过语言来描述和表述，但计算机视觉并非如此。计算机视觉有些离散的任务，有些连续的任务。离散的任务包括检测、分类或一些序列的离散任务。连续任务则包括分割或光流相关的任务。

有了这一点差异，就产生了另一个极大的区别：语言这边可以通过一种统一的方式，因为语言既可以用于生成，也可以用于理解。有了语言这个桥梁，就可以统一生成和理解，但视觉目前还做不到。

基于这几点优势，就有了语言模型的规模扩大和缩放定律等现象。

总结一下，为什么计算机视觉没有出现相关的工作？主要原因总结如下：第一，语言是人类通过几千年规律总结出来的，它具有高度的语义性和较高的信息密度，但计算机视觉则没有。计算机视觉具有更多的上下文信息，语言是一维的前后关系上下文，而计算机视觉包括二维的、时空的，还有三维或四维的。此外，专业数据有更多的模态信息，包括我们已知的视频图像像素、点云或红外信息。

自然语言处理中，可以通过一种基于上下文的预训练方式学习语义，但计算机视觉目前尚未被探讨到极致，因为计算机视觉的很多信息在底层可能没有语义。基于这些极大的不同，语言模型能够通过这样的范式，规模扩大到非常好的效果。但是计算机视觉生成这边，例如已知的文生图、文生视频，或者一些统一的深度理解任务，都没有在标记潜在空间上做到统一的生成和理解。

有了这些认识之后，我们不禁思考：如何能够借助计算机视觉特有的因素或本质，来学习语言模型这边的先进经验，包括标记化或进行语义压缩，包括我们去做一个基于上下文的、可规模扩大的预训练，以及基于标记潜在空间的生成和理解的统一。

第三节：经典的图像标记化 🖼️

上一节我们探讨了从语言模型借鉴的经验，本节我们来看看图像领域的标记化具体应该怎么做。首先，图像领域离散和连续的标记化哪个效果更好？目前通过扩散模型这条路线来看，连续的效果似乎更好一些。但离散的最*又出现了非常多新的工作。

这些都绕不开一个工作，那就是变分自编码器。变分自编码器是2014年在ICLR上发表的一个工作。值得一提的是，它也获得了今年ICLR的时间检验奖。

变分自编码器的思想很简单，其实就是在潜在空间上加入了KL散度约束。KL散度约束使得它能够学习，使得它从一个没有随机性的自编码器，变成了变分自编码器可以去采样，具有随机性的生成模型。

有了变分自编码器之后，就衍生出了另外一个比较有名的工作，那就是稳定扩散的前身——潜在扩散模型。潜在扩散模型就是在变分自编码器的潜在空间上进行扩散。它其实是借助了强大的连续变分自编码器表示，然后做得非常好。

可以看到，扩散模型目前所有的工作，包括潜在扩散模型、扩散Transformer，全部用到了这种变分自编码器，尤其是从离散到连续的变分自编码器上面，进行一些扩散模型的训练。

回到我们刚刚开始说到的，我们希望是通过语言模型来做。语言模型典型的就是现在的自回归语言模型。

这一块的话，就是OpenAI在2020年有一个工作叫做图像GPT。它是在一个像素空间上做自回归的训练。它的做法是直接在像素空间上，基于像素进行聚类，然后直接基于GPT风格进行自回归训练，或者基于BERT风格进行掩码语言建模。它不仅做了生成，也做了一些下游任务的线性评估。它当时更多是做成了这样的一个预训练范式，并没有考虑更多的生成效果。这是第一点。

第二点的话，就是它当时因为在2020年，其实当时的显卡算力有限制，还有基础设施和数据的限制，所以它并没有在大规模的数据集上进行预训练，而更多是在ImageNet或者一些比较小的数据集上，比如CIFAR上面进行验证。所以它的计算量，因为它当时因为计算量的问题，所以它只能生成一些相对低清的图片，比如64x64的图片。

第三点的话，就是在当时还没有先驱者进行一个模型规模扩大，包括在视觉上进行规模扩大的验证。也就没有验证缩放定律能够推动后续的发展。虽然OpenAI推出了GPT系列工作，但在图像GPT上面它并没有跟进这个工作，也导致这个工作出来之后，虽然在领域内有一定的影响力，但是并没有相关更好的工作或改进。

回到我们刚刚说的标记化，它的标记化其实是在像素空间上进行聚类，并没有太多的语义。

有了这样的想法之后，其实标记化最主要的一点，就是要把连续空间的特征映射到一个标记ID空间上。很自然的想法就是矢量量化变分自编码器。矢量量化变分自编码器就是将输入数据映射到一个离散的码本。这些码本是可以去更新的。这样的话，矢量量化变分自编码器在潜在空间做了量化之后，可以得到一个具体的码本ID。有了这样的一个码本ID之后，相当于一个图像就可以编码成不同的一系列码本。这个过程就和语言模型这边的字节对编码或词片切分基本是等价了，但是*乎等价，为什么说*乎呢？因为它可能语义上还差点意思。

有了这样的一个标记化之后，那我们就有了语言模型优化的可能性。因为我们可以把图像从连续的空间上，映射到一个离散的码本上。那我们就可以通过一个交叉熵损失，以及去大规模优化它。

所以我们这块就回到刚刚的格局图，我们可以看到，其实在前面比较受关注的一些扩散模型或GAN前面，大家说得比较关注。但是在后面一个远处地方，其实自回归模型也渐渐受到大家关注。

这块就要介绍一个比较有名的工作。这个工作就是矢量量化生成对抗网络。矢量量化生成对抗网络是2021年CVPR的口头报告。这工作有极大的影响力。首先，它是第一个基于图像标记化加自回归Transformer来生成图像的工作。当然它没有做文生图，是做类别条件生成。基于这个框架，它就能够生成非常高清的，比如720x1080或者1080x1920这样的图像，并且它可以做下游任务的一系列操作，比如图像修复、外绘，或者是一些超分辨率相关的下游任务验证。

具体做法其实比较简单。它其实做了一些我们认为工程上的优化。首先第一点，之前的矢量量化变分自编码器，更多是在卷积这部分用的是PixelCNN。这部分的话，矢量量化生成对抗网络就把它换成了一个Transformer，GPT-2的架构。

第二点，就是说它的判别器加入了一个对抗损失，同时感知损失替换成了一个重建损失。首先，这样的话，其实第一它改善了一个矢量量化变分自编码器生成画质，因为矢量量化变分自编码器生成画质部分，有部分明显的模糊现象。所以加入了这个对抗损失之后，它的生成画质会有明显提升。

第二点，就是它又从PixelCNN换成了这种自回归Transformer架构。从而基于这些优化改进了编码器-解码器，同时改进了生成的Transformer，使得它生成有非常大的提升。但值得一提的是，矢量量化生成对抗网络并不是一个长距离的自回归模型，它更多是一个滑动窗口的，基于滑动窗口注意力去生成。基于当时算力的一些因素，所以它更没有去做这种长距离的自回归序列生成。现在语言模型这块其实大家应该可以关注一些开源的语言模型，都可以做到非常长的上下文长度。但是其实受限于当时的环境，矢量量化生成对抗网络只能做到一个滑动窗口里面生成。这就有个约束，使得它生成图像其实不能够很好的一致。并且它很难去，比如说左上角能够去和右下角去进行一系列优化。

当时的话是在一些学术基准上做了一些验证，包括类别条件的ImageNet基准。可以看到在ImageNet上的FID，它其实得到了一个明显的提升，几乎接*于一个比较早期的扩散模型的最佳模型。包括如果它加了一些拒绝采样之后，它的FID可以达到6.59，这样的效果，已经快超越了一些原始的扩散模型。

另外一个工作就是一个来自DiFMa的工作。这是来自DiFMa当时的研究员余家辉老师的一个工作。这个工作其实就是说，我看到了语言模型的一个规模扩大的效果，那我是不是可以直接放大矢量量化生成对抗网络这种框架？很显然是可以的。它的框架也比较简单，就是基于一个图像标记化，矢量量化生成对抗网络，加上一个自回归Transformer。

这个工作，其实很典型有点像OpenAI的风格，就是不停地堆算力、堆模型尺寸、堆数据。模型架构很简单，就是这个标记化加自回归这条路线。这跟语言模型几乎一模一样了。这工作是在2022年上半年提出来的，在ChatGPT受大家关注之前。在当时那个年代有人去扩大文生图模型或视觉生成模型是非常难得的，所以这工作，我认为是一个非常具有里程碑式的工作。它也是第一个把文生图模型规模扩大到200亿参数的模型，并且是把文生图做得非常有效的一个工作。当时它也是超前的思想，它用了一个混合专家模型，去做到这个200亿参数的视觉Transformer或自回归Transformer架构。它用的也是混合专家模型。随着文章中做了一些分析，随着模型尺寸变大，效果会越来越好，并且可以做到一些文本渲染的效果。所以我认为这个工作，在当时的思想非常超前。它具备了现在我们能看到的一些语言模型的非常多优势，包括混合专家模型，包括一些规模扩大，在2022年的上半年。

第四节：视觉自回归建模与下一代尺度预测 🚀

上一节我们介绍了标记化，包括视觉的矢量量化变分自编码器，以及语言模型的规模扩大和相关工作。本节我们将正式介绍我们的工作——视觉自回归建模与下一代尺度预测。我们在想，视觉这块一定要遵循自回归这条路线吗？其实自回归这个东西对视觉来说适用吗？我们也在内部不停地去探讨或思考这样的想法，于是就有了我们的这个工作。

语言模型像GPT或PaLM，是经过字节对编码之后进行下一个标记预测。像Parti这种，简单地就是一个矢量量化变分自编码器标记化之后，利用光栅顺序，也是跟语言模型一样，自上而下、自左到右的光栅顺序。但语言模型是用自回归的方法来预测下一个标记，那是因为语言有先后顺序区分，因为语言是一个一维的上下文。但视觉其实并不是这样，因为视觉我们看东西它是一个整体的，或者是整体到局部的这样一个过程。所以我们就在想，传统的图像自回归使用一种不符合人类直觉，但是符合一些计算机处理的顺序，自上而下逐行扫描这光栅顺序来预测图像标记，这个真的合理吗？这个地方可能要打个问号。

我们就在想，就像Parti这种，就是我们刚刚说的一个语言模型的全自回归生成框架。其实我们人看东西一般都是我们从远看东西，会看到一个整体的东西，然后慢慢走*，我们会看到整体的这个物体，或者是一个图像的整体的整体到一个局部的这样细节，类似逐步放大的过程。这是比较符合人类直觉的这样一个过程。

同样地，人类在感知图像或者绘画时，往往都是先概览全局，再深入细节。这种由粗到细、由整体把握到局部精调的思路是非常自然的。有了这样的想法之后，那我们就在想，能不能我们同时借鉴语言模型优势，标记化加自回归的方式，去融入计算机视觉的一些特质，包括我们刚刚说的从整体到局部的思路，那这种逐步放大的思想，就有了我们这个视觉自回归建模想法的初步。就是说我们可以去逐步地看这个图，从慢慢把图像看整体逐步放大这样的过程。

接下来会介绍具体来说我们是怎么做的。首先，像我刚刚说的，其实自回归的框架主要是两个组成，一个是标记化，第二个是它的自回归Transformer。自然地，我们也是一样的。第一阶段，就是我们需要有一个多尺度的图像标记化。为什么要多尺度呢？因为我们是从一个整体到局部的，所以这个图像标记化，必然是它把握一个单尺度到多尺度上的一个整体的描述。

第二阶段，就是说我们会有一个GPT风格的自回归模型，来生成这样的多尺度图像标记，或者多尺度的矢量量化标记。然后我们去逐步生成这样高清的标记，最后通过一个标记化解码器去还原出来。

具体来说，我们现在有两个阶段。第一个阶段，就是说我们会有一个，我们需要对图像进行一个多尺度的标记化。就是说我们对图像我们先把它转化成一个多尺度的离散标记图。比如它是一个多个，大概7到8个尺度上，举个例子。然后它在7到8个尺度上分别做标记化，这样它有个多尺度的标记图。这是第一步，离散编码。

第二步，就是我通过一些码本转化成连续的这样一个特征图，然后统一插值到最大分辨率上去求和。求和后的特征图通过一些标记化的解码器，去重建图片，并且通过重建、感知和对抗这三个损失，就我刚刚说的一个重建损失、感知损失和对抗损失来混合训练，训练这样的一个多尺度的矢量量化变分自编码器。

有了第一步之后，那我们就是在想，如何在视觉空间上去自回归地生成？很简单，我们一般第一步是通过一个起始标记，去预测出第一个尺度的标记图。随后每一步，视觉自回归模型都会基于历史的所有标记图，去预测下一个更大尺度的标记图。这种由粗到细精调的思想。

有了标记化之后，训练阶段就可以使用标准的一些交叉熵损失来监督这些标记图的概率预测。这样我们就可以看到逐步流程：先生成一个第一个尺度的标记图，然后再生成下一个尺度的标记图。注意的是，它在每个尺度上，是一个并行生成的，但是在尺度上它是一个由粗到细的注意力机制。

测试阶段的时候，就可以通过采样得到标记图，结合矢量量化变分自编码器的解码器，进行连续化的差值求和，再通过解码器最后生成完整的一个图像。当然里面有很多细节，包括我们借鉴了一个残差量化Transformer的思路，包括我们借鉴了一些扩散Transformer架构上的一些经验。

我们在标准的基准上的一个结果。首先我们可以看到标准的类别条件ImageNet基准上，我们测试了不同的模型尺寸，结果随着不同的模型尺寸扩大之后，我们的FID是逐步稳步下降的，并且我们的这个FID达到了历史最佳，比之前所有的基于扩散的模型、基于掩码预测的模型、基于自回归Transformer的模型，都达到了更好的FID，并且我们几乎快接*变分扩散模型的FID。这是第一。

第二的话，我们在标准的ImageNet 512x512的类别条件生成上达到了也不错的效果，也比之前的掩码生成式Transformer或扩散Transformer的效果更优。值得一提的是，我们的视觉自回归框架会比传统的完全依赖的自回归框架在FID上几乎提升了一个数量级。这第一点就是我们达到了最佳的performance，在ImageNet基准上。

第二点我们比基础的扩散模型会更好。第三的话，就是我们是一个非常快速的模型，因为我们的生成步数比较少，所以我们实测的话在1024x1024上，如果我们优化得够好的话，可以到一到两秒生成1024x1024这样的模型。

我们也和基础的扩散Transformer或稳定扩散的基座模型做了对比。可以看到右上角，在我们的一个基准上的FID，包括我们左上角的话和不同的模型之间的FID和速度对比的一个表。我们可以看到经过规模扩大之后，视觉自回归模型可以达到一个FID。当然最新的结果我们会更好一些，它毕竟理论上的一个FID的下限要1.78，显著优于扩散Transformer当时的效果2.1。

第二就是我们的速度更快，视觉自回归模型只需要不到0.3秒就可以生成一个256x256的图像，速度的话是当时的一个原始扩散Transformer的45倍，在512上，更是扩散Transformer的一个数量级的速度。

第三的话是我们有更好的规模扩大的能力。如左图所示，扩散Transformer在大模型增长到30亿、70亿参数之后，出现饱和现象，无法靠*FID下限。所以我们做了一个视觉自回归模型上的规模扩大实验，包括它规模扩大到一个20亿的参数，性能不断地提升。

另外一点就是我们有更高效的数据利用，包括我刚提的视觉自回归模型需要350个训练周期就能超过扩散Transformer1400个训练周期的效果。

我们也验证了自回归模型上的一些缩放定律。我们验证了在验证集上的标记错误率和交叉熵损失随着我们扩大模型尺寸和计算量之后，可以得到可预测的下降。可预测是指我们呈现幂律关系或对数缩放后的线性关系。线性关系的话就是把线性相关系数达到非常高

课程名称：视觉生成中的若干问题 - 课程编号：P4 🧠

在本节课中，我们将探讨视觉生成领域的一个核心挑战：视觉信号拆解。我们将分析为什么这是一个关键问题，回顾现有方法的局限性，并探讨可能的解决思路。

概述：视觉生成的核心挑战

生成模型的目标是理解用户的意图并将其转化为计算机可理解的指令，然后生成相应的内容。从流形学习的角度看，生成过程是从目标数据分布 p_target 中采样。然而，我们无法直接获得 p_target，因此需要构建一个可采样的生成分布 p_generated，并希望它与 p_target 一致。

问题在于，p_target 的数据分布可能极其复杂，难以拟合。因此，生成模型发展的核心就是不断提升模型的建模能力，以应对这种复杂性。从能量模型、GAN、VAE 到扩散模型，都是这一过程的体现。

视觉信号的拆解难题

既然单一复杂分布难以建模，一个自然的思路是将复杂问题拆分为多个简单问题。在视觉生成领域，这便引出了核心问题：如何对视觉信号进行有效拆解？

上一节我们介绍了问题的背景，本节中我们来看看语言领域是如何解决类似问题的。

语言领域的成功经验

在语言领域，数据拆解非常直观。例如，句子“我喜欢吃苹果”可以自然地按词元（token）拆分。模型的任务是进行下一个词元预测，即根据前面的词元预测后续的词元。这可以形式化地表示为，将一个复杂分布 P(x) 的建模任务，拆分为 n 个条件概率预测任务：
P(s_i | s_1, s_2, ..., s_{i-1})

当语料库足够大时，这些不同的预测任务之间没有冲突，甚至互相促进。这种特性可以称为任务等价性，它使得模型能够顺利地进行规模化扩展。

视觉领域的尝试与困境

受到语言模型成功的启发，视觉领域也尝试了类似的“照葫芦画瓢”方法。典型的做法是将图像分割成块（patch），然后使用自回归模型进行渐进式生成。

以下是几种代表性的视觉信号拆解方式及其面临的挑战：

基于图像块的拆解：将图像划分为网格，然后按顺序预测每个图像块。然而，不同预测任务学习的内容可能存在冲突。例如，预测连续图像块时，模型需要学习空间连续性；但预测非连续图像块时，这种连续性信息可能成为干扰。
基于深度（通道）的拆解：例如，将RGB图像的三个通道拆开建模，或使用VQ-VAE-2、RQ-VAE等方法进行层级化量化。但不同层级或通道学习的信息（如低频结构 vs. 高频细节）也可能存在冲突，导致任务不等价。
基于噪声强度的拆解（扩散模型）：使用前向扩散过程将复杂分布 P(x_0) 拆分为一系列从 x_t 到 x_{t-1} 的简单去噪任务。然而，研究表明，在不同噪声强度（时间步）t 上，模型学习到的信息也完全不同（例如，早期学习整体结构，后期学习细节），任务之间同样存在冲突。

这些冲突的根本原因在于，视觉信号的内部结构复杂，其不同维度（空间、通道、语义层级）的信息相互耦合，难以像语言那样找到一种天然、无冲突的拆解方式。

应对不等价拆解的现有方案

面对拆解后任务不等价的问题，目前的解决方案大致分为两类。

方案一：使用共享模型

即使用一个庞大的模型来同时处理所有拆解后的子任务。其思路是，只要模型容量足够大，就能“暴力”拟合所有不同的任务映射关系。

代表方法：VAR（Vision Autoregressive）模型。
优点：设计相对简单。
缺点：参数效率低。当数据分布极其复杂时，模型可能因任务冲突而难以有效学习，导致“按了葫芦起了瓢”。

方案二：使用非共享模型

即为不同的子任务训练专门的模型（专家）。

代表方法：EDM（使用多个专家处理不同噪声强度）。
优点：每个专家可以专注于特定任务，理论上能获得更优解。
缺点：模型参数量随任务数量线性增长，计算和存储成本高。此外，还可能面临“无效编码”问题，即某些拆解出的信号维度信息量很低。

对于扩散模型，一个关键的改进是重参数化。它将不同噪声强度下的输出目标统一（如都预测噪声），在一定程度上缓解了不同任务输出分布不一致带来的冲突。此外，损失函数加权设计（如Min-SNR）也被用来寻找帕累托最优方向，减少冲突。

寻求更优的拆解方式

既然预定义的拆解方式（如固定的噪声计划）会导致冲突，一个更根本的思路是让拆解过程本身可学习。

以下是两种学习拆解的思路：

可学习的噪声计划：不固定前向扩散过程的参数（如 α_t, σ_t），而是用一个网络来预测它们，以期学得一种冲突更小的拆解方式。
- 代表工作：Variational Diffusion Models (VDM)。
用网络学习加噪过程：更激进地，让整个前向扩散过程（从 x_0 到 x_T）都由一个神经网络定义。
- 代表工作：薛定谔桥相关方法（如Diffusion Schrödinger Bridge）。

这些方法旨在寻找对视觉信号更合理、冲突更小的拆解方式。然而，它们也面临新的挑战，例如，失去了传统扩散模型中那个简洁的加噪公式，可能会牺牲重参数化带来的好处，使得训练更加困难。

视觉信号的表示（Tokenization）问题

现代生成模型通常分两步：先将高维信号压缩到低维隐空间（编码），再在隐空间上进行分布建模。压缩的目的是为了降低数据分布的复杂性，使其更容易被建模。

然而，视觉信号的压缩面临一个权衡：

重建质量 vs. 建模难度：压缩过程越无损（重建质量越高），隐空间的数据分布可能越复杂、越难以建模。相反，适当的压缩损失（如通过VAE的KL散度正则化或量化）可以使隐空间分布更规整、更易于学习。
通用解决方案：丢弃信息量低的隐变量。这在语音、图像领域都有应用。例如，在灰度图像生成中，拟合5比特可能比拟合8比特效果更好。

这引出了对变长编码的探索，例如RQ-VAE。它通过多阶段量化实现变长编码。但实践中发现，随着量化阶段增加，后期阶段对重建质量的提升可能微乎其微，甚至出现“嵌入退化”问题，即后面增加的编码几乎无效。这再次印证了拆解的不等价性，也提示我们需要更智能的编码方式。

扩散模型是最大似然模型吗？

从训练、推理和评估三个角度看，扩散模型与经典的最大似然模型存在差距：

训练：理论上，扩散模型的训练目标（证据下界ELBO）与最大似然相关。但实际常用的简化损失（如预测噪声的MSE损失）以及非单调的损失加权，使其与严格的最大似然存在差距。
推理：广泛使用的Classifier-Free Guidance 技术，实质上是将模型预测的条件分布向先验分布的方向进行了偏移。这明确表明，纯粹的最大似然估计结果并不理想，需要额外的引导来提升样本质量。
评估：在图像生成中，负对数似然（NLL）与人类感知的图像质量关联性很弱。直接优化NLL并不能获得最好的生成结果。

一个可能的解释是，由于视觉信号拆解的不等价性，不同子任务的重要性与难度不同。最大似然训练*等对待所有子任务，而实际上那些处于中间噪声强度、最难学习的任务更需要被“照顾”。CFG在推理时的引导作用，以及评估时NLL的失效，都可能源于此。

总结与展望

本节课我们一起学习了视觉生成中的核心问题——视觉信号拆解。我们认识到：

视觉信号结构复杂，难以像语言那样找到天然等价的无冲突拆解方式。
现有的基于图像块、通道、噪声强度的拆解方法，其子任务之间普遍存在冲突。
应对冲突有共享模型和非共享模型两种思路，但各有优劣。
让拆解过程本身可学习是一个有前景的方向，但仍面临挑战。
视觉信号的表示（Tokenization）需要在重建质量和建模难度之间取得*衡。
扩散模型在实践中并非严格的最大似然模型，其训练、推理和评估都受到了拆解不等价性的深刻影响。

未来，如何设计出更符合视觉信号本质的、等价或冲突更小的拆解方式，将是推动视觉生成领域发展的关键。这需要我们对视觉信号的统计特性、层次化结构有更深入的理解。

课程名称：大模型的高效并行推理方法 📚

课程编号：P5

在本节课中，我们将要学习大语言模型与扩散模型在推理阶段面临的主要效率挑战，并探讨一系列旨在提升推理速度的核心技术与前沿方法。课程内容将涵盖投机解码、一致性模型、模型蒸馏等关键概念，旨在让初学者理解如何让庞大的生成式AI模型运行得更快、更高效。

概述：大模型推理的时代挑战 🤖

感谢智源组委会的邀请，让我有机会分享我们在大模型高效推理方面的一些初步工作与想法。我是邓志杰，来自上海交通大学清源研究院。

本次报告的背景是当前的时代背景。大语言模型已成为广泛现有任务的基石，激发了学术界与工业界的浓厚兴趣。

另一方面，以大型扩散模型为代表的模型在图像，尤其是视频生成上，带来了巨大的影响力和价值。典型工作包括OpenAI的SORA，以及清华与声树公司联合开发的Vidu。

我个人认为，这两类模型可以统一在AIGC大模型的架构之下。对于AIGC大模型，我们也逐渐发现了一些发展趋势。

第一个趋势是架构趋于统一。Transformer架构在大模型的使用上具有绝对的优势地位。尽管存在一些后来的挑战者，但Transformer的地位目前仍无法撼动。

在学习方式上，存在多个主流方向。一类是在语言上以next token prediction为代表的自回归模型。另一类是在图像上对图像做扩散建模。目前学习方式尚未统一，但未来可能有统一的趋势。

第三点是，相当一部分人仍然相信Scaling Law。Scaling Law意味着持续为模型增加算力、数据和参数量，可以带来更好的生成效果。

作为普通的研究人员或学生，我们可能也想尝试使用这些大模型。我们可以将模型下载到本地进行推理。但我们会发现面临许多挑战。

例如，早期使用3090显卡加载模型时，可能直接出现内存溢出（OOM）错误。解决加载问题后，用模型生成文本时，token会逐个缓慢输出，生成一段长回复可能需要一分钟时间。

这种低效的推理会导致非常差的用户体验。因此，我们从那时开始考虑如何解决大模型推理低效的问题。

这个问题来源于两个方面。第一个方面是模型本身越来越大，这是Scaling Law不断扩展的结果。

另一方面，从算法角度分析，我们发现大语言模型或扩散模型都依赖一个顺序推理的过程。语言模型中，生成的词是自回归地逐个输出。扩散模型中，从纯噪声出发，不断去除图像上的噪声以生成图像。这需要一个顺序的、漫长的推理过程才能完成一次生成。

这个过程会进一步放大模型自身庞大所带来的开销，导致高昂的部署成本和较差的用户体验。因此，围绕这个问题，我们做了一些相关工作，并会讨论该领域的一些新进展。

我将主要分三个方面介绍。第一个方面围绕大语言模型，考虑将其顺序推理改为并行推理。第二个方面讨论对于大型扩散模型，如何进行低步数的推理。最后会简要介绍在模型结构及缓存优化等方面的一些进展。

第一部分：大语言模型的高效解码 🚀

上一节我们介绍了大模型推理面临的通用挑战，本节中我们来看看针对大语言模型的具体优化方法。可能大家都对大语言模型的推理过程有一定了解，我在此简单回顾一下。

例如，我有一个包含三个词的提示（prompt），我想输入到某个语言模型中，让它向后生成内容。

首先，将提示输入模型，它会生成后一个词。这个阶段通常被称为预填充阶段（Prefill Phase），即把提示填充到模型中。

之后是一个不断重复的过程：将刚才生成的词接到输入后面，继续生成下一个词。这个过程通常被称为解码阶段（Decode Phase），它是自回归式的，逐个进行。

预填充阶段是一蹴而就、并行处理的。而解码过程何时停止，基本有两个准则：一是生成出结束符（EOS），二是达到模型的生成上限（例如2048个token）。

我们分析一下这个生成过程中的计算开销。预填充阶段是并行的，因此其时间开销相对较小。如果生成的文本很长，那么整个推理过程就会很慢，所以大部分计算开销花在解码阶段。

另一方面，在解码阶段，例如要生成“future”这个词，它会关注前面所有的词。这是Transformer中自注意力机制的特性，即将生成的词会关注前面所有的词。因此，自注意力机制的复杂度会不断提高，导致越往后生成开销越大。

解决这个问题的一个典型技术是KV缓存（KV Cache），这现在已是一个标准技术。其核心思想是以空间换时间。因为在后面生成“future”或“of”时，都需要复用前面“Artificial intelligence is”这些词的计算状态。与其重复计算，不如计算一遍后，将自注意力中对应的K和V状态保存下来，后续需要时直接使用。

这样，带有KV缓存的大语言模型推理有两个主要特点。第一，预填充阶段是计算密集型的。如果提示很长，可以充分激发GPU的并行计算能力。第二，大语言模型的解码阶段是内存I/O瓶颈的。它受限于GPU内部存储（HBM）与高速计算存储之间的通信带宽，这个带宽相对较慢。

因此，真正限制大语言模型推理速度的其实是这个带宽。另一个观察是，预填充几个token所花的时间，与解码一个token的时间是差不多的。这是因为GPU的计算能力足够。

基于这两个观察，我们就在思考，能否通过某种方式降低解码阶段所需的内存I/O量。例如，生成十个词需要十次内存I/O，能否将其降为三次或两次？如果能够降低，就可以显著提高生成速度。

投机解码（Speculative Decoding）

一个典型的做法叫做投机解码（Speculative Decoding），旨在实现这个目标。

它的想法是这样的：假设要生成一段关于爱好的回复。它有一个假设：要生成的所有token，并非每个都很难或有很强的语义，其中肯定有一些像“废话”或占位符一样的token。

那么，是否可以将这样的一些token放到一个小模型上去生成？这个小模型被称为草稿模型（Draft Model）。让这个草稿模型先对问题做出回答，生成五个或六个词。

之后，大模型用来做什么呢？大模型用来评判、判断是否要接受小模型生成的提议（proposal）。如果不接受，大模型还可以为它犯的第一个错误提供一个改正，即一个修正后的token。

这里使用的一套准则是基于拒绝采样（Rejection Sampling）的，有严格的理论证明可以保证，通过拒绝采样得到的token分布符合原始的自回归token分布。

大模型对小模型的提议进行验证的过程，实际上是并行验证的，这等价于做一次预填充。因此，从这个角度理解，我们将生成三个词所对应的解码阶段时间，转变为了做一次预填充的时间。一次预填充和三次解码所对应的内存I/O交换减少了三倍。

因为生成过程受内存I/O限制，所以速度理论上可以成倍提高。当然，这是理想情况。实际上我们也会碰到一些不理想的问题。

以下是投机解码工作需要满足的几个必要条件：

草稿模型必须足够小：只有足够小，推理速度才能快。
提议长度（K）需要调整：一次提议的词数（K）是一个可调参数。提议一个词基本没有意义，提议太长则可能前面接受的词也达不到那么长。
接受率（Acceptance Rate）要高：小模型提议的token被大模型接受的概率要高，即小模型要能很好地“猜中”大模型的分布。

这三个因素是比较关键的。这是我们绘制的一些关于期望加速比与这些影响因子关系的示意图。

对于提议长度K，我们可以进行调参。模型大小也是我们可以设定的。其中比较关键的是提高小模型猜中大模型分布的准确率，即token接受率。

我们观察了当前投机解码的一些部署系统，发现了两个可以提高token接受率的机会。

第一个机会是，在投机解码过程中，小模型给出一个提议后，大模型会检测出它的第一个错误，并“白送”一个正确的token。这个token在投机解码中就被用来继续往后生成。但反过来想，这个信号实际上可以很好地用来帮助小模型进行校正，教导它下次不要再犯这个错误。这样，小模型就能在这个过程里不断提升自己。

第二个机会是，我们一直强调投机解码系统里有很多空闲的计算能力（FLOPs）。这些计算能力可以用来训练模型吗？

因此，我们做了这样一件事情，叫做在线投机解码（Online Speculative Decoding, OSD）。我们将两部分结合起来，在投机解码的过程中，进行了草稿模型的在线蒸馏。

从直观角度来说，我们做了这样一件事。做法上也非常简单：在在线服务（online serving）的过程中，不断记录小模型在哪个地方犯了错，以及大模型给它的校正是什么，用一个缓冲区（buffer）存储。每过一段时间，或者缓冲区满了之后，就运行一次蒸馏过程。

这个蒸馏过程与语言模型做教师强迫（teacher forcing）训练是差不多的。它有一个很显著的好处，我们会在实验结果中发现：假设是一个开放域（open domain）的情况，并且有一个比较稳定的查询分布（query distribution）。也就是说，用户在使用大模型时，往往倾向于询问特定范围内的问题。

例如，今天下午我在改论文，就可能一直问如何帮我修改语法错误或翻译。有的人从事金融或数学相关工作，可能会一直问数学问题。也就是说，用户会有一个比较窄的查询分布，不会像原始模型学习的分布那么大。

在这种情况下，我们的OSD就可以快速适应用户的查询分布，更好地“猜中”用户的心理。

我们首先模拟了一些在线部署的场景，例如在Spider或GSM8K等基准测试上。随着我们不断向投机解码系统发起查询、不断交互，我们模型（蓝色线表示）猜中的概率会不断提高，这符合我们做了在线蒸馏的预期。而基线（baseline）使用离线蒸馏模型，即不做在线蒸馏，其准确率就是一个比较静态稳定的值，不会提高。

在这个工作中，我们还做了一个比较有意思的探索：我们发现草稿模型不一定非得是一个，可以是多个。尤其是在一些复杂的查询分布场景下。例如，模型可能面临被多种语言的人访问，那就可以为每一种语言部署一个草稿模型。如果大家会问多个主题的问题，可以为不同的主题部署不同的小模型。

我们模拟了这样的一些场景，发现在这种混合场景下，不同草稿模型的准确率也会持续提升。最终，我们或许可以拓展为一种基于用户的路由机制，为每一个用户部署一个草稿模型，从而实现用户手机上的模型更能“猜中”该用户的心理。

当然，我们也与一些公认的基线（如Medusa）进行了比较，也可以与Medusa结合。我们做了一些观察，发现小模型对哪些词猜对的概率提升比较大呢？我们发现这与任务特别相关。

例如，Spider是一个文本到SQL语句的任务，那么能猜对的词很多就变成了“SELECT”等与任务特别相关的关键词。在GSM8K上，则很容易猜对一些数学符号。这说明小模型确实是在猜对一些信息密度可能相对较低的token，从而释放大模型的生成压力，加快生成速度。

超越自回归：并行解码的探索

在刚才的工作中，我们考虑大模型自身仍然是顺序解码器。尽管我们用了小模型，并用大模型做并行验证，但小模型和大模型在其中仍然是顺序的。这是受限于这类模型是从自回归方式中学习的。

那么我们可能有一个比较跳脱的想法：语言模型能不能一次预测出多个token？跳出刚才那种范式。当然，这里面有一些初步的探索，例如雅可比解码（Jacobi Decoding）。

它是说什么呢？如果我们想同时从一个大语言模型里解码出N个token（N>1），那实际上等价于同时求解一个有N个方程的方程组。尽管这个方程组的第一个方程的解，第二个方程的解依赖于第一个，第三个又依赖于前两个，但我们仍然可以用并行的、不动点迭代求解器来求解。

可以从理论上证明，迭代步数可以不超过N。也就是说，要生成N个token，求解的步数可以小于等于N，并且求解出来的token严格服从我们想要的分布（例如，如果取argmax，就与贪婪解码生成的分布一致）。

这个公式可能比较晦涩，我们可以看直观的图。对于输入的一个前缀（prefix），我们先随机猜测N个token。猜出来之后，把它们一起丢到语言模型里做一次迭代，得到一个输出。输出中的token如果与输入的猜测相同，就将其固定下来。然后把剩下的、未固定的token再输入语言模型做下一次迭代。最后就会得到一个不动点。

做起来其实很简单。它所用的时间类似于我们之前说的一次预填充的时间，与解码一次的时间也差不了多少，因此总时间不会引起太大开销。

但是，2023年的一个工作发现，用这个方法相对于自回归解码只有约1.05倍的速度提升，不是很理想。原因主要在于模型在训练时没有学过如何预测多个token。例如，如果前面两个词没预测对，后面的词几乎不可能预测对，概率非常小。模型没有这个能力。

我们就想，得让模型学会这个能力，可能需要调整模型。那么，设计怎样的一种学习目标来调整模型呢？我们还是从雅可比解码这个不动点迭代的角度出发。

观察右边雅可比解码的轨迹图，它是不动点迭代的轨迹，其实很类似于扩散模型中ODE采样的轨迹。我们的终极目标，其实就是让模型直接从随机的初始化映射到最后的那个不动点，即学习这个映射。

但如果直接以这个作为损失函数去训练，是训不出来的，我们也做了一点尝试。因为这个问题太难了，一次往后猜十个词，这很难猜对。

那么我们就想有没有一些折中的方案。我们从一致性模型（Consistency Model）——也是孙杨博士做的对于扩散模型加速的工作——中得到了一些灵感。我们想，能不能把这个轨迹上的任意一个点，都映射到它的不动点上去？这样我们就可以定义一组损失函数、一组学习目标。

这一组学习目标有一个很好的性质：从最后靠*不动点的状态去预测不动点，这很简单（可能只需要预测一两个词）。但越往前（离不动点越远）越难。这就有一个从易到难的变化。这种变化对于大模型的训练来说，可以起到一定的引导作用，可能有一些课程学习的感觉。

最后，我们就用了这样的一个学习目标来训练。我们定义了两种选择来定义一致性损失函数（Consistency Loss）。一种就是我刚刚说的，直接从中间的任意一个不动点迭代状态去预测不动点。另一种则很类似于一致性模型里面的损失，即找两个相邻的不动点迭代状态，让模型对它们的预测保持一致。

但我们发现还有一个比较关键的点：需要把自回归的损失加上。如果不加上自回归损失，模型很有可能会崩塌，例如全生成出同样的一个token，或者找到一些捷径。因此需要用自回归损失来矫正它。

这是我们最终能够达到的效果。我们选了几个案例，当然也做了其他案例。基本上，对于现有的模型（如Llama或DeepSeek-Coder），拿过来简单微调一下（不需要调很久），用我们的损失函数微调后，基本可以达到2-3倍的加速，同时生成质量不会明显下降（在10%到5%以内的下降）。

这个表格里有我们系统性的比较结果，包括加速时间和性能。至多可以达到3.6倍的加速。我们知道现在市面上在大语言模型加速上比较权威的一个方法是Medusa（第二个版本）。Medusa需要对模型架构做改变（增加多个输出头），并且这些头很重，需要训练很久。而我们的方法不需要改变模型架构，只需要修改模型的训练目标即可。

在生成质量上，我们也可以达到基本不下降。例如，原始的模型在MT-Bench上是6.5分，我们微调后是6.4分，只有一点点下降。这是我们训练的开销：以预训练模型所用的token数作为基准，我们微调所消耗的token数占预训练token数的比例基本都小于0.1%到0.2%。

最后我们也分析了一下，这个一致性大语言模型带来加速的根源是什么。我们找了很多案例来看，发现主要有两个根源：

快速前向（Fast Forwarding）：即一次可以预测对多个token。
*稳token（Stationary Token）：在前面还有预测不对的情况下，可以提前把后面的某个词预测对。但这种情况相对于快速前向来说比较少，因为这件事确实很难。

第二部分：扩散模型的低步数推理与蒸馏 🎨

上一节我们介绍了大语言模型的相关进展，本节中我们来看看针对大型扩散模型的优化方法。扩散模型的推理慢，是因为每一个去噪步都需要一次模型前向传播。

之前大家比较关注的一个点是从设计扩散模型采样器的角度出发来加速推理。我这里引用的是李钟元老师的一个PPT。有一个视角是：扩散模型的反向SDE过程，有一个等价的常微分方程（ODE），称为概率流常微分方程。

我们发现这个常微分方程和它对应的随机微分方程（SDE），它们的边缘分布是一样的。但这个常微分方程更加*滑，这为我们在其上做快速采样提供了机会。我们可以用非常大的跳跃步长在常微分方程轨迹上行走。

因此，现在也有很多基于扩散模型的常微分方程离散化角度来做的工作。在2021年，大家发现即便用传统的ODE求解器，相对于SDE求解器也能有很大的速度提升，可以减少推理步数，例如减少两倍。

甚至，我们可以专门为扩散模型设计适合它的ODE求解器。这里面代表性的工作就是清华大学提出的DPM-Solver。它面向扩散概率模型的常微分方程离散化，利用了扩散概率模型半线性的特点，基于泰勒展开等技术来设计等价的常微分方程离散化的解析形式，最后再用一些差分来*似里面的计算项。

最终得到DPM-Solver。它的效果特别好，被社区广泛采用，例如主流的Stable Diffusion或ComfyUI都可能用到这个高效的采样算法。

我以DPM-Solver为代表，介绍了从采样器设计角度来加速扩散模型的方案。接下来我们会更多讨论从模型蒸馏的角度，如何实现低步数推理，加速扩散模型采样。

模型蒸馏加速法

最早出现的相关工作叫做渐进蒸馏（Progressive Distillation）。它很直观：假设原来需要做四步采样才能从噪声恢复出图像X，那么现在可以把中间每两步，蒸馏到另一个模型里去。直接让另一个模型基于噪声预测出两步之后的状态，或者说预测出从该状态到最终噪声的差值。

做了这样一次蒸馏过程后，就可以把四步的采样过程蒸馏为一个两步采样过程。如果再重复一次，就可以把两步蒸馏成一步。这样就可以渐进地减少扩散模型的采样时间。

之后，CVPR 2023上的工作进一步改进了这种渐进蒸馏的方式，为其引入了

课程名称：生成模型范式、Scaling Law与挑战 🧠

课程编号：P6

在本节课中，我们将探讨生成模型的核心范式、Scaling Law（规模定律）及其面临的挑战。我们将从多位专家的讨论中提取关键观点，帮助初学者理解当前生成模型领域的重要议题。

一、生成模型的核心范式 🔄

上一节我们介绍了课程概述，本节中我们来看看生成模型的核心范式。目前，生成模型主要有扩散模型和自回归模型两种主流范式，同时还有其他潜在范式（如MANA）正在探索中。以下是几位专家对范式转变的看法：

罗老师观点：
在多模态大模型中，生成部分与理解部分结合较为困难。现阶段，使用统一的Transformer架构处理多模态生成任务仍面临挑战。

姜老师观点：
在算力有限或模型规模较小时，扩散模型能快速达到较好效果。随着算力和模型规模增加，自回归模型可能具备更高的性能天花板，前提是code book设计足够优秀。

孟老师观点：
文本生成领域长期以自回归模型为主，但其他方法（如BFN、Diffusion-LM）也在探索中。模型架构方面，Transformer虽是主流，但其高复杂度催生了MANA等新架构的研究。

李老师观点：
从数学角度看，扩散模型和自回归模型均涉及“压缩”思想。但在实际应用中，视觉模型的规模难以扩大，这可能与数据、工程或模态特性有关。

顾老师观点：
范式的选择取决于信号的拆分方式。例如，语言拆分为token时适合自回归模型，图像拆分为噪声强度时适合扩散模型。当范式的归纳偏置与拆分方式一致时，效果最佳。

二、Scaling Law的探讨 📈

上一节我们讨论了生成模型的范式，本节中我们来看看Scaling Law。Scaling Law描述了模型性能随规模增长的规律，但在视觉生成模型中，其表现与语言模型存在差异。以下是专家们的分析：

顾老师观点：
扩散模型缺乏有效的评估指标。语言模型可用负对数似然损失（Negative Log Likelihood Loss）衡量性能，但扩散模型难以加权子任务的损失。现有指标（如FID）存在假设过强、特征提取偏差等问题。

李老师观点：
Scaling Law与评估指标、数据规模、模型规模密切相关。自回归模型在现有资源下表现最佳，但其他模型的潜力可能未被充分探索。

姜老师观点：
在文生图或文生视频任务中，训练计算量（Training FLOPs）可能是提升性能的关键，而非单纯增加数据量。

罗老师观点：
语义是生成任务的核心。语言模型的语义能力较强，而扩散模型在语义预训练方面相对薄弱。未来若扩散模型能构建更好的语义框架，可能实现更大突破。

孟老师观点：
视觉模态具有连续性和复杂性，其Scaling Law可能不如语言模型显著。例如，视觉模型在扩大规模时，性能提升有限，且容易出现极端情况。

三、生成模型的挑战与未来方向 🚀

上一节我们探讨了Scaling Law，本节中我们来看看生成模型面临的挑战及未来方向。生成模型在幻觉、评估、应用等方面仍存在诸多问题。以下是专家们的见解：

幻觉问题：
生成模型本质上基于概率分布，因此幻觉难以完全避免。通过思维链（Chain-of-Thought）或外部工具（如事实检查工具）可在一定程度上缓解该问题。

长上下文与个性化生成：
个性化生成（如思想政治课讲稿）可能依赖长上下文技术。通过记录用户的交互历史，模型可生成更符合个性化需求的内容。

应用场景中的技术挑战：

文本渲染：现有模型对中文文本渲染支持较弱，需通过专业模型的后训练（Post-training）来提升效果。
位置控制：生成图像中物体的精确位置控制仍是难点，可通过收集特定数据并微调模型来改善。

未来方向：

探索更有效的评估指标。
加强语义理解与生成结合。
发展个性化与可控生成技术。

总结 📝

本节课中，我们一起学习了生成模型的核心范式、Scaling Law及其挑战。我们了解到：

范式选择需与信号拆分方式匹配。
Scaling Law受评估指标、数据模态等多因素影响。
生成模型在幻觉、评估、应用等方面仍需突破。

希望本课程能帮助你初步理解生成模型的关键议题，并为后续学习奠定基础。

课程1：论坛背景与嘉宾介绍 🎤

在本节课中，我们将了解2024北京智源大会视觉大模型论坛的背景，并认识本次论坛的各位主讲嘉宾。我们将梳理计算机视觉研究领域的变迁，并介绍本次论坛的核心议题。

论坛背景：计算机视觉的赛道变迁

计算机视觉在研究领域曾一直处于最前沿。大约5年或10年前，所有最新的算法都首先从计算机视觉领域诞生，随后才被转移到语音处理、自然语言处理，乃至医学图像分析等其他领域。可以说，计算机视觉曾是算法创新的源头。

然而，自从Transformer架构出现后，情况发生了转变。研究重心转移，变成了“一切皆源自自然语言处理”。例如，Vision Transformer这类结构，也是先在NLP领域出现后，才逐渐被引入视觉领域。包括*期出现的Mamba等模型，也是先在NLP领域产生成果，再向视觉领域迁移。

但今年的状况再次发生变化。自年初LAMA模型出现以来，大家观察到计算机视觉似乎有重回第一赛道的趋势。因此，我们本次论坛的主题正是探讨：计算机视觉在技术领域是否重新回到了第一赛道？

为此，我们邀请了在过去一年中，在计算机视觉领域做出卓越贡献的学者与工业界专家。

论坛嘉宾介绍

以下是本次论坛的四位主讲嘉宾：

鲍凡 - 来自深睿科技的CTO。
声称会 - Open-Sora的负责人，来自由洋老师团队。
底俊蓝 - 原在CFFORCE，在多模态CLIP方向做出了杰出贡献。
陈敏敏教授 - 来自南开大学的杰出教授，计算机系主任。在孙剑与何恺明之后，他是华人学者中又一位拥有大量高引用论文的作者，是青年一代的杰出代表。本次论坛的组织也得到了陈敏敏老师的大力贡献。

论坛流程说明

通常情况下，论坛演讲容易出现超时情况。因此，开场介绍将尽量简洁，我们将直接进入今天的主题演讲环节。

第一个演讲将由来自Open-Sora的负责人声称会带来，主题为《Open-Sora：高效低成本视频生成模型》。

本节课中，我们一起回顾了计算机视觉领域从领先到跟随，再到寻求重新引领的历程，并认识了本次论坛的四位核心讲者。接下来，我们将进入具体的主题演讲环节。

课程名称：Open-Sora高效低成本视频生成模型详解 🎬

概述

在本节课中，我们将学习Open-Sora项目，这是一个旨在以低成本、高效率方式复现类SORA视频生成模型的开源方案。我们将从项目背景、核心技术、数据处理到系统加速进行系统性的解析。

1. SORA模型简介与Open-Sora项目动机 🎯

SORA是OpenAI开发的文本到视频生成模型，它在生成时长和质量上远超之前的模型，应用前景广泛。

然而，SORA目前没有公开版本，其封闭性和高昂的成本限制了技术的普及与应用拓展。

因此，我们启动了Open-Sora项目。需要声明的是，Open-Sora与OpenAI的SORA是完全不同的模型。我们的目标是基于SORA技术报告中的思路，构建一个类SORA的开源模型，帮助社区理解并复现此类技术。

Open-Sora是首个开源的类SORA视频生成模型，我们的核心目标是以完全开源的方案，将模型训练成本控制在较低水*。我们公开了模型结构、训练好的参数、完整的训练与数据预处理流程，并提供了使用教程。

2. Open-Sora核心技术解析 ⚙️

上一节我们介绍了项目的背景与目标，本节中我们来看看实现这些目标所采用的核心技术框架。主要分为三个部分：模型架构设计、训练方案以及数据处理。

2.1 模型架构设计

我们采用了基于DiT的架构。为了降低初始训练成本，首个版本直接使用了预训练的PixelDance模型进行初始化。

我们的模型架构在空间自注意力机制后，额外添加了一层时间自注意力机制。通过将空间与时间信息分开处理，可以大幅降低模型的计算成本。

我们提出的STDiT架构与原始DiT架构的测速对比显示，随着处理的token数量增加，STDiT在吞吐量上具有显著优势。

2.2 模型工作原理

训练阶段，我们对视频和文本控制信息分别进行编码，然后将编码后的信息输入到STDiT模型中进行训练。

推理阶段与标准的扩散模型类似：我们从编码器的潜在空间中随机采样噪声，输入到STDiT中进行多步降噪，降噪后的特征再经过VAE解码器，最终生成视频。

2.3 分阶段训练方案

SORA方案的训练成本推测高达数千万到数亿美元，这使得大多数企业难以参与。我们的目标是将成本控制在1万美元左右。

我们的训练主要分为三个阶段：
以下是三个训练阶段的详细说明：

大规模图像预训练：直接使用已有的文生图模型（如PixelDance）进行初始化，大幅降低成本。当时没有可用的高质量时空VAE，因此我们直接使用了Stable Diffusion的空间VAE。
视频预训练：使用分辨率较低、质量一般的视频数据，让模型初步具备对视频的理解能力。此阶段训练了约2800个H800 GPU小时，成本约7000美元。我们引入了时间注意力模块，并与已有的空间注意力模块一同训练，使模型能力快速提升。我们采用了多样化的数据以增强模型泛化能力，并对不同分辨率进行了优化。
高质量视频微调：使用更高质量、更长时长、更高分辨率的视频数据进行微调，此阶段使用了约2000个GPU小时。这一步使模型实现了从短到长、从低分辨率到高分辨率、从低保真到高保真的视频生成能力。

我们借鉴了UL2技术，采用灵活的掩码策略训练Transformer。例如，对视频的前K帧、末尾K帧或任意K帧进行掩码。这使得我们的模型能够灵活应用于多种场景。

我们使用一个五元组来定义不同的应用场景，从而在推理阶段获得很高的灵活性。

2.4 支持不同分辨率与宽高比

SORA的技术报告指出，使用视频原始分辨率与宽高比进行训练，能有效改善画面构图。

因此，我们采用了一种分桶训练策略。分桶主要依据三个维度：分辨率、视频帧数和高宽比。

我们引入了两个参数：keep_probability（视频以其原始分辨率训练的概率）和动态batch_size，以更好地*衡不同分辨率视频的训练时间，更高效地利用GPU。

3. 数据处理流程 📊

上一节我们深入探讨了模型架构与训练策略，本节中我们来看看支撑模型训练的数据处理流程。数据对于视频模型的训练至关重要。

Open-Sora首个版本使用的数据集总量约100TB，这对存储构成了巨大挑战。

以下是我们的数据收集与处理流程：

起始点：原始视频。
场景检测与分割：将视频按场景分割成短视频片段。
质量评估：对片段进行美学评分、光流分数计算，并检测其中的文本信息。
描述标注：对通过质量评估的视频进行文本描述标注。我们使用开源的LLaVA-1.6模型进行自动标注，以替代成本高昂的GPT-4V，并通过METEOR分数确保描述质量。
对齐验证：检查视频描述与视频内容是否有效对齐。
镜头运动检测：检测视频中的镜头移动等信息。
数据清理：经过一系列清理流程，确保训练数据具有高美学分数、明显的镜头运动以及强的语义一致性。

我们在数据处理中遇到了以下挑战：
以下是数据处理中的主要挑战：

高元数据负担：训练数据包含海量小视频文件，导致元数据管理负担重。
快速增长的需求：模型快速迭代，数据规模以每月50TB的速度增长。
高性能需求：训练需要高速读取大量视频数据（低延迟），并频繁存储模型检查点（高带宽）。
高迁移成本：在多云或多集群场景下，同步或迁移巨量数据的时间成本极高。

4. 低成本训练与系统加速 🚀

介绍完算法和数据处理后，我们需要解决如何将成本降至最低的问题。租用8台H800服务器的月成本可能高达80万人民币。

我们的首个版本仅使用了8台H800服务器（共64个GPU），进行了短时高效的训练，这离不开Colossal-AI的加速。

Colossal-AI是潞晨科技团队为大规模AI模型训练和推理设计的深度学习系统，旨在最大化计算效率并最小化部署成本。用户只需修改少量代码即可使用。

该系统主要分为三层：
以下是Colossal-AI系统的三层结构：

高效内存系统：采用异构内存系统。当模型过大时，可灵活利用CPU或硬盘空间进行实时数据交换，使得单卡训练大模型成为可能。
N维并行系统：集成了多种并行策略，如流水线并行、多维张量并行（含激活优化）以及序列并行。序列并行对于处理视频生成中百万级token的长序列至关重要。
低延迟推理系统：最小化部署成本。

这些优化已在系统内部完成，研究人员可专注于模型设计与训练，无需深入分布式计算细节。

Open-Sora在Colossal-AI上获得了显著加速：文本与视频编码器的吞吐量得到提升，TFLOPS占用资源下降。在64帧、512分辨率视频训练上加速达55%，单台服务器可训练长达一分钟的高清视频，提速16%。

5. 推理性能与模型效果展示 📈

上一节我们了解了如何加速训练，本节中我们来看看模型的推理性能与实际生成效果。

5.1 推理资源测速

我们测试了1.1B参数模型的推理性能。生成一段16秒的1080P高清视频，其token数量已达百万级别。

在单台机器上进行推理的延迟非常可观。例如，生成8秒的最高清视频可能需要800秒。延迟与视频长度、分辨率呈线性增长关系。

对于3B参数模型，单张H800 GPU已无法容纳长时间、高清视频的生成，这凸显了多卡并行部署的重要性。

基于上述线性关系的假设，如果OpenAI的SORA是一个30B参数模型，生成一分钟高清视频可能需要12小时。结合网络信息（SORA生成一分钟视频约需1-2小时），我们推测SORA的参数量可能在3B到7B之间。

5.2 模型效果与对比

我们的演示效果目前无法与OpenAI直接对比，主要原因有二：

成本差异巨大：OpenAI可能使用了2000-4000个H100 GPU，训练成本在5000万到2亿美元之间。而我们的成本控制在约1万美元。
数据质量：训练数据质量直接影响生成效果。我们采用的分阶段训练法（先低质后高清）是降低成本的有效策略，这在NLP大模型训练中已有多年实践（如BERT）。

目前，我们的最新版本可单次生成约20秒的视频，较最初版本的2秒有了显著提升。基于视频的延续性生成可达数分钟。

我们的模型支持多种生成模式：不同宽高比生成、视频编辑、基于图像生成视频以及直接图像生成。

自今年3月开源以来，项目在GitHub上获得了快速的星标增长，用户遍布全球。

5.3 未来计划

我们的未来计划包括：
以下是未来的重点发展方向：

模型方面：增大模型规模以提高生成质量；开发并使用时域VAE（已在即将发布的版本中应用）。
数据方面：收集更多人像数据以完善人物生成能力；进行更精确的美学评分与优化，进一步提升视频的连贯性与质量。

总结

本节课中，我们一起学习了Open-Sora开源视频生成模型项目。我们从项目动机出发，详细解析了其STDiT模型架构、分阶段训练策略、复杂的数据处理流程，以及如何利用Colossal-AI系统实现低成本高效训练。最后，我们分析了模型的推理性能，展示了生成效果，并展望了未来的改进方向。Open-Sora为社区提供了一个探索高质量视频生成的可行开源路径。

课程名称：视觉大模型 - P3：高保真4D重构模型Vidu4D 🎬

概述

在本节课中，我们将学习由鲍凡分享的关于生成式AI的实践，特别是视频大模型Vidu在4D内容生成方面的潜力。课程将详细介绍其底层技术架构、发展历程，并重点解析高保真4D重构模型Vidu4D的核心原理与应用。

技术路线与底层架构

上一节我们概述了课程内容，本节中我们来看看Vidu模型所基于的底层技术路线与架构。

该技术路线始于约两年前开始的UVIT架构研发。该架构比OpenAI的Sora及后续的DIT模型发表更早，是一个融合了扩散模型与Transformer的架构。

其核心思路是将图像分割成图像块（patch），对图像块添加噪声，然后使用Transformer对这些带噪声的图像块进行去噪。

我们的架构设计非常简洁。它将所有输入统一化为token序列。无论是扩散模型中的条件输入（condition），还是其独有的时间步（t），我们都进行无差别处理，统一转换为token。

公式表示：输入序列 = Concat(图像Patch Tokens, 条件Tokens, 时间步Token)

然后，我们将这些token拼接起来，送入Transformer进行处理。这种设计对Transformer架构几乎不需要任何改变。相比之下，DIT等论文中对Transformer做了不少针对扩散模型的特殊设计，例如使参数与时间相关的自适应层归一化。在我们的架构中，这些设计都没有采用。

因此，基本上可以快速地将任何一个Transformer转换成一个扩散Transformer。实验表明，这种简洁的设计效果非常好。

值得一提的是，我们也加入了一些独特的设计，例如长连接。它将底层的特征块与高层的特征块进行跨层连接，从而在训练中实现更快的收敛。这在大量实验中被验证是有效的。

大规模多模态尝试：UniDiffuser

在开发Vidu之前，我们已进行了大规模的多模态生成尝试。去年1月，我们发表了UniDiffuser工作，这是一个110亿参数的模型。

当时的目标是使用UVIT架构，构建一个统一的多模态生成式模型。该模型使用一个扩散模型，可以同时处理多个不同任务。

例如，在文本和图像模态上进行训练后，该模型能完成这两个模态之间的任意转换、各自独立的生成或联合生成。

值得一提的是，对于这个架构，我们只对扩散模型本身的Transformer部分做了最小改动。实际上，就是从单模态输入扩展到双模态输入，从单模态时间步扩展到双模态时间步，并同时预测两个模态上的噪声。

UVIT架构非常适合处理这类任务，因为它已经将所有输入统一成了序列。

当时，该架构在数据量和参数量上基本能够对标Stable Diffusion。这也首次验证了纯Transformer架构的扩散模型能够取得非常好的图像生成效果，这比Sora或最*开源的PixArt-α都要更早。

我们可以看一下将UniDiffuser架构在更高质量数据上进一步学习的效果。它支持多分辨率生成，无论是竖屏还是横屏，以及多种美学风格，都能很好地掌握。

因此，该架构在工业界和实践中被充分论证是有效的。同时，这种架构也具有非常好的语义理解能力，能够刻画提示词中的每一个细节。

基于这种架构，可以在其上搭建3D相关应用，例如纹理到3D、3D到纹理生成。这大致相当于论文中的两个环节。例如，在扩散模型基础上，使用类似VSD的蒸馏技术，可以从模型中蒸馏出3D表示。

从3D/4D工作到Vidu视频生成

除了图像模态，我们在3D和4D内容生成方面也做了不少工作。

例如，给定任意一段真实视频，可以提取其中物体的4D表示。基于这个4D表示，可以对物体进行任意编辑，这等效于对输入视频进行精确、可控的编辑。比如，将视频中的主体替换成其他小动物，或者将一只猫编辑成戴红帽子的小狗或北极熊。

并且，由于它是4D表示，可以从任意角度对其进行渲染。

除了4D物体编辑，对场景的编辑也支持得很好。这是使用高斯泼溅来表示3D场景，它具有非常好的可编辑性。可以在场景中添加或删除任意物体。例如，在这个案例中，我们可以在桌子上添加一个花瓶。其背后都是基于高斯泼溅的3D表示。

可以看到，我们在生成式建模领域有比较充足的耕耘，无论是底层的基础理论工作、网络架构工作，还是大规模工程落地实践，都有比较深厚的基础。

这些前期基础支撑了我们后续进行Vidu这个工作。Vidu是底层理论、网络架构、工程实践和数据共同作用的结果。

Vidu视频模型与音频扩展

现在，大家可以看一下我们的Vidu模型。最*它已经能够支持生成32秒的视频。它是完全从头开始、一次性生成这32秒的视频。

核心描述：Vidu = 基于 Diffusion Transformer 的单次长视频生成模型

实际上，我们可以在生成的视频基础上，进一步为其添加音频模态。例如，通过视频生成音频或文本生成音频，可以为视频配上比较自然的音效。当然，我们目前的管线还是多阶段的。后续我们会探索一次性联合生成视频和音频，届时生成的音效可能会更加自然、更符合场景。

这包括画室内的场景，以及OpenAI也展示过的开车例子。我们可以进一步在这个例子的基础上，通过视频生成音频或文本生成音频的方式，为其补充背景音和汽车轰鸣声。

还有OpenAI展示过的摆满电视机的场馆例子。

Vidu4D：高保真4D重构

最后，我们再提一下，在拥有Vidu这样的高质量视频模型之后，我们还能进一步做些什么。

视频生成模型具有大量真实的想象力，可以进一步增强3D/4D重建的一致性，具有作为“世界模拟器”的潜力。

这里我们想解决什么问题呢？给定一段生成的视频，我们希望提取出整段视频背后的3D表示。实际上，这种带有时序信息的3D表示就可以被称为4D（3D + 时间维度）。类似于NeRF重构，我们希望给定一段视频后，能提取出其中带有时序的3D表示。

在这个工作中，有一个核心技术叫做“动态高斯曲面”。如何理解呢？首先，我们需要对这种4D表示进行良好的建模。一种比较粗糙的方法是给每一帧一个独立的3D表示，但这显然是低效的。

因此，对于连续视频背后的3D表示，我们可以通过首帧的3D表示，加上后续每一帧的3D变化量来共同表示。这个变化量在这个场景下被称为“形变场”。

可以直观地理解为：对这个3D表示进行空间扭曲。例如，右下角那只猫在时间中发生了方向转换，我们可以用空间扭曲来表示这种变化量，这种空间扭曲在这里就被称作“形变场”。

这个4D重构技术与3D类似，包含两个基本的损失函数。

重构损失：这个损失可以类比为NeRF中基于像素的重构。在这里，它是针对视频中每个像素点的重构。即从4D表示出发，通过体渲染渲染出预测视频，然后将预测视频与真实视频进行回归计算损失。
正则化损失：这是关于表示本身的正则化损失。我们希望4D表示具有一些良好的性质，例如在时间上连续，在空间上*滑地分布在物体表面。因此需要一个额外的正则化损失来促进这一点。其效果是促使3D的高斯点能够比较均匀、光滑地分布在物体表面。

基于这两个损失，我们可以对3D视频进行重构。例如，左上角是一个4D表示的应用案例：输入是一段Vidu生成的视频，我们可以从中提取出4D表示（即左下角展示的、随几何变化的点云）。通过这个4D表示，可以渲染出左上角的猫。

进一步地，我们可以对这个4D表示进行任意编辑。这种编辑可以放到游戏引擎中进行手动操作，例如把一只耳朵变大、眼睛变大，然后可以进一步渲染出所需的新形态。

从Vidu4D这个工作中我们看到，视频大模型具有非常深刻的作为“世界模型”的潜力。我们可能真的能够模拟出世界上的各种物理规律，后续再结合3D或4D技术，提取出与这些物理规律相关的表示。

总结

本节课中，我们一起学习了视觉大模型Vidu及其高保真4D重构扩展Vidu4D。我们从其简洁统一的UVIT架构讲起，回顾了其在大规模多模态生成上的实践，并深入探讨了Vidu如何实现长视频生成。最后，我们重点解析了Vidu4D的核心思想：通过“动态高斯曲面”技术和重构与正则化损失，从视频中提取出带时序的4D表示，从而实现高保真的4D内容重构与编辑，展现了视频模型作为世界模拟器的巨大潜力。

视觉大模型课程 P4：视觉与语言：多模态模型的发展 🧠🖼️

在本节课中，我们将跟随李俊男博士的分享，系统性地学习多模态大模型的发展脉络，特别是从视觉-语言对齐到利用大语言模型增强视觉理解与生成的关键技术与思想。

概述与挑战

多模态基础模型的目标是，通过低成本甚至零样本的方式，泛化到各种下游任务。其发展面临三大核心挑战：

模态对齐：如何将视觉和语言这两种完全不同的信息信号对齐到一个统一的模型空间中。
数据噪声：如何从海量、有噪声的网络图文数据中进行有效学习。
计算资源：如何高效地进行大规模预训练，以应对巨大的计算开销。

背景：从ViT到CLIP

上一节我们提到了多模态模型的挑战，本节我们来看看其发展的技术基础。视觉Transformer的出现，将Transformer架构成功引入视觉领域。其基本思想是将图片分割成多个图像块，并通过Transformer进行处理。

紧随其后，OpenAI提出的CLIP模型成为了一个里程碑。它采用对比学习的方法进行预训练，核心公式是最大化配对图像和文本的相似度，同时最小化不配对样本的相似度。

关键工作一：ALBEF - 先对齐，再融合

在CLIP的基础上，我们提出了ALBEF模型，其核心思想是“先对齐，再融合”。这是首个能将图像和文本共同编码到同一空间的多模态Transformer。

以下是ALBEF的三个预训练目标，它们共同作用以最大化图文互信息：

图像-文本对比学习：与CLIP类似，对齐单模态的视觉和语言特征。
图像-文本匹配：一个二分类任务，判断给定的图文对是否匹配。我们采用了难负样本挖掘技术来提升模型判别力。
掩码语言建模：基于图像和未被掩码的文本，预测被掩码掉的词。

关键工作二：BLIP - 统一的理解与生成模型

ALBEF是一个编码器，而BLIP将其思路延伸，构建了一个统一的视觉-语言模型，既能理解也能生成。我们保留了前两个目标，将第三个目标改为自回归语言建模，使模型能够基于图像生成文本描述。

此外，BLIP还提出了一个提升数据质量的关键技术：字幕生成与过滤。以下是其两个核心步骤：

生成字幕：使用BLIP模型为图像生成多样化的人工描述。
过滤字幕：用一个过滤模型从生成的和网络原始字幕中筛选出高质量数据。

通过迭代执行这两个步骤，可以实现数据和模型的共同增强。

关键工作三：BLIP-2 - 高效桥接视觉与大语言模型

随着GPT-3等大语言模型展现出强大的零样本能力，我们的新思路是：如何利用大语言模型来增强多模态模型？BLIP-2应运而生，它高效地将视觉编码器与大语言模型连接起来。

BLIP-2的核心是一个轻量级的查询Transformer模块。它分两个阶段训练：

第一阶段：冻结图像编码器，训练Q-Former，使用与BLIP类似的三个目标，使其学会从图像中提取与语言最相关的特征。
第二阶段：将Q-Former的输出作为“视觉标记”，与大语言模型的文本标记拼接。冻结大语言模型，仅训练Q-Former，使其输出能够被大语言模型理解。

这种设计使得BLIP-2能够以极少的可训练参数，高效利用任何预训练好的视觉编码器和大语言模型，实现强大的零样本图像描述和问答能力。

关键工作四：InstructBLIP - 指令微调增强泛化能力

受大语言模型指令微调成功的启发，我们将此思路引入多模态领域，提出了InstructBLIP。我们构建了一个包含多种任务的视觉-语言指令微调数据集。

用此数据集对BLIP-2进行微调后，模型在遵循指令和零样本泛化到新任务上的能力得到了显著提升。实验表明，其在多项基准测试上超越了之前的模型。

关键工作五：BLIP-Diffusion - 迈向多模态条件图像生成

最后，我们将视野从理解扩展到生成。基于扩散模型的强大生成能力，我们希望引入图像作为控制信号。BLIP-Diffusion的目标是实现文本+图像的多模态条件图像生成。

我们采用了两阶段训练法：

第一阶段：沿用BLIP-2的Q-Former，学习一个能融合图文信息的共享表征空间。
第二阶段：将多模态表征与文本提示结合，输入到扩散模型中。我们通过“主体替换”任务进行训练，让模型学会根据输入的主体图像和文本背景描述生成新图像。

这种方法实现了丰富的应用，例如零样本个性化生成、与ControlNet结合进行结构控制、主体驱动的图像编辑以及不同主体间的融合。

总结

本节课我们一起学习了多模态大模型从早期对齐融合，到统一理解生成，再到高效利用大语言模型和指令微调，最终扩展到条件图像生成的完整发展路径。核心在于通过创新的模型架构和训练目标，解决模态对齐、数据利用和计算效率的挑战，逐步增强模型对视觉和语言信息的联合处理与创造能力。

课程名称：高效能个性化图像生成技术详解 - 课程编号：P5

概述

在本节课中，我们将学习程明明教授在2024北京智源大会上分享的关于高效能个性化图像生成的研究工作。课程将涵盖三个核心部分：提升扩散模型训练效率的Mask Diffusion Transformer、实现快速个性化生成的PhotoMaker，以及生成一致性视频/连环画的Story Diffusion。我们将深入探讨这些技术如何解决当前图像生成模型在资源消耗和个性化能力方面的挑战。

早期图像生成的探索

早在十多年前，研究者们就开始探索如何用文字生成图像。当时，由于缺乏强大的GPU和海量数据，这项工作非常困难。早期的尝试包括从简单的草图开始，然后通过互联网搜索图像进行合成。这类工作曾受到广泛关注，在短时间内获得了大量浏览，并获得了奖项。当然，这些早期探索在结构和方法上与现今基于扩散模型的文生图技术有巨大区别。

现今的图像生成方法，大家已经比较熟悉，基本上都是基于扩散模型。由于前面的报告已经详细介绍了扩散模型，这里不再赘述。

第一部分：高效训练 - Mask Diffusion Transformer

上一节我们回顾了图像生成的发展历程。本节中，我们来看看如何提升当前扩散模型的训练效率。当前基于扩散变换器的模型在训练时，对资源的消耗非常巨大。

在理解现有图像生成模型时，我们发现，许多视觉模型早期致力于学习各种表征来理解图像，而*期则更多尝试通过文字或多模态信息进行生成。理解与生成这两者应该是相互促进的。

基于扩散变换器的模型在训练生成高质量图像时，需要的迭代次数非常多。例如，在生成小狗图像时，经过多次迭代，模型虽然能处理好局部细节和噪声，但在生成结构化信息（如完整的人脸，避免缺少眼睛或鼻子）方面存在不足。这表明模型缺乏对上下文关系的建模能力。

因此，我们思考：既然因为缺少这种建模能力导致训练时间很长，有没有可能强化它在这方面的能力，从而加速模型收敛？

从这个角度出发，我们考虑将掩码自编码器的能力引入进来，以强化其结构化建模能力。MAE是一种无监督的语义表征学习方法，它通过随机掩码图像的一部分，并利用未掩码的部分来恢复被掩码的区域。这种模型在学习视觉表征时，必须建模图像中不同块之间的关系。

我们认为这种能力能极大地强化对块间上下文关系的建模。基于此，我们提出了一种新工作：将MAE机制引入到扩散模型的训练过程中。

我们希望，在训练过程中引入掩码建模机制，能够加速扩散模型对上下文建模的能力，进而加速模型收敛。在推理过程中，则希望这个过程尽量*顺，不额外增加推理速度。

以下是该方法的大致流程：

对于一个潜变量的表达，我们应用一个掩码机制。
将未被掩码的潜变量部分送入一个非对称的扩散变换器。
在训练阶段，模型接收不完整的潜变量，并通过MAE机制进行推理，以加强表征间的联系。
在推理阶段，模型像正常的扩散模型一样接收完整的潜变量表达，并生成图像。

对于这个非对称扩散变换器，其主要区别在于训练和推理阶段。训练阶段需要对掩码区域进行推理。在这个过程中，我们发现重构掩码区域（称为语义解释器）不需要太多的块，一个不大的块就足以建模上下文关系，更多的是引导视觉表征在训练过程中关注其他块之间的一致信息。

这就构成了我们所说的掩码扩散变换器工作。

引入多尺度建模

上一节我们介绍了通过引入MAE机制来加速训练。本节中，我们进一步探讨如何通过多尺度建模来增强模型能力。一提到上下文，很容易联想到视觉中的多尺度信息。理解上下文通常需要大尺度的信息。

因此，我们*期对MDT模型做了进一步改进，通过跳跃连接等方式，将多尺度建模能力加入进去。加入之后，我们发现整个MDT模型相对于之前的DIT模型，在图像生成过程中的训练速度，无论是迭代次数还是实际耗时，都得到了极大提升。

具体提升如下：

MDT V1版本：相对于DIT，速度提升了约3倍。
引入多尺度连接后：模型的训练效率进一步提升了约5倍。
整体而言：要达到相同的生成质量，提速大约在10倍以上。

利用这个方法，我们在EMNLP 2023的“Paper with Code”图像生成任务排行榜上也取得了较高的分数，刷新了记录。

可以看到，有了掩码扩散变换器，它能在很大程度上加快模型收敛速度，将MAE的上下文建模能力与扩散模型强大的细节生成能力相结合。此外，只需要一个非常小的模型就可以完成。论文中还包含了许多关于结构设计的细节信息。

第二部分：快速个性化生成 - PhotoMaker

上一节我们探讨了如何提升模型训练效率。本节中，我们来看看图像生成的另一个关键方向：个性化。我们希望图像生成模型不仅有高质量的产出，还要有强大的个性化能力。从应用角度讲，现阶段图像生成模型可能更多服务于泛娱乐化应用，因此用户的参与感和个性化非常关键。

基于这个判断，我们今年初开源了两个工作：PhotoMaker（与腾讯合作）和Story Diffusion（与字节跳动合作）。PhotoMaker发布后非常受欢迎，一度在Hugging Face上占据自然图像生成和风格化图像生成榜单的第一和第二名。

这个工作受启发于2022年CVPR的最佳学生论文DreamBooth，它是一个重要的个性化图像生成工作。它需要给定少量示例图像，然后让模型生成更多与示例相关的个性化图像。然而，DreamBooth需要对整个生成模型进行微调，需要的迭代时间非常长，资源消耗大。

虽然后续有很多工作尝试加速，但只要涉及微调整个模型，时间就很难大幅缩短。这类技术在过去一段时间受到了极大关注，也催生了大量应用，例如国内的“妙鸭相机”。用户需要上传约20张高质量照片，等待约半小时才能获得定制化模型。

这些方法依然存在不少挑战，最主要的就是资源消耗大和等待时间长。我们的目标是实现用户可接受的速度，例如10秒钟内出结果，并且对显存消耗不大，普通消费级显卡就能运行。同时，方法对输入素材的质量要求不高。

同期，Adobe、Google等公司也有类似避免测试时优化的工作，但开源较少，且生成质量较低、姿态较单一。这类工作之所以有这些问题，是因为其输入图像和目标图像往往来自同一张图。模型从一个单一的嵌入向量中，很难区分用户想要的是人物身份、姿态，还是图像本身的风格，因此缺乏变化性，生成的姿态比较单一。

我们的方法不同之处在于：输入的不是单张图像的嵌入，而是一组图像的堆叠ID嵌入。我们希望模型从这组图像中关注到人物的个性化信息（如人脸属性），而不是去记忆某一张图的姿态或退化风格。这样能避免对姿态或图像退化的记忆，更多地关注人脸属性。

以下是该方法的核心流程：

将多张输入图像送入图像编码器，提取图像嵌入。
将这些图像嵌入与文本描述结合，得到一个堆叠ID嵌入。
用这个堆叠ID嵌入替换掉文本中原本的视觉表征，从而影响扩散模型，而无需为每个人微调整个模型。

因此，它的速度可以得到极大提升。在测试时，甚至可以用多张图像进行不同人物ID的混合。为了训练这个模型，我们构建了一个以人物ID为中心的数据集，包含约1.3万个ID和11万张图像，用于训练模型获取人物属性的堆叠ID嵌入。

这样，我们能够在保证快速的同时，生成具有高保真度ID和丰富人脸多样性的结果。该方法对输入图像质量和清晰度没有严格限制，不会学习图像的退化信息，实验中没有发现明显的过拟合，也能进行很强的风格化生成。

第三部分：一致性视频生成 - Story Diffusion

上一节我们介绍了快速个性化图像生成。本节中，我们来看看如何将这种能力扩展到视频生成。最后一个工作是Story Diffusion，我们试图生成具有一定一致性的动画或较长视频。我们的目标是用较少的资源生成较长的视频。

我们的大致方案是一个两阶段的视频生成流程：

生成关键帧：首先根据一段故事文字生成一系列关键帧，这些关键帧之间需要保持高度一致性。
插帧生成视频：将这些关键帧串联并插值，生成完整的视频。

要从关键帧串联成视频，关键帧必须具有一致性，否则人物或场景会突变，无法连贯。因此，我们需要一个强一致性的图像生成策略。同时，从关键帧到视频的插帧不仅仅是时间维度的超分，需要建模更强大的插帧能力。

具体来说：

关键帧生成：给定一段描述视频的文字，将其分割成若干句话，每句话生成一个关键帧。在此过程中，我们提出了一种特征保持自注意力机制，利用同期生成的其他帧的特征，使得不同帧之间具有较好的相似性和相关性。
视频插帧：即使有了相关性较好的关键帧，如果用传统基于光流的方法插帧，效果也会很差，因为图像间无法做到像素级的对应。我们提出了一种新方法叫运动预测器。它在语义空间中进行插值，然后将表征投射回图像空间，从而避免了对像素级对应关系的建模，能够处理幅度较大的动作变化。

整个方法可以利用现有的许多数据进行训练。生成的结果显示，人物的动作和人脸没有大的扭曲，能够进行不错的视频生成。它可以将不同的关键帧插值成一段视频，虽然仍有不尽如人意之处（如转场中发型变化），但如果用于生成连环画，其一致性就非常出色。

这对于漫画创作等领域，有望极大地解放生产力。例如，自动为一段文字生成配套的连环画图像。

总结与展望

本节课中，我们一起学习了高效能个性化图像生成的三个核心工作。

Mask Diffusion Transformer：通过引入MAE的掩码建模机制，强化了扩散模型对上下文关系的建模，显著提升了训练效率，加速可达10倍以上。
PhotoMaker：通过堆叠ID嵌入技术，实现了无需微调、快速（秒级）的个性化图像生成，对输入图像质量要求低，且保真度高。
Story Diffusion：通过两阶段（关键帧生成+运动预测插帧）方法，实现了用较少资源生成长度较长、一致性较好的视频或连环画。

图像生成技术正通过文娱行业走*普通用户。要广泛应用，需要解决两个核心问题：一是高效能，以降低计算成本；二是个性化，以增强用户参与感和趣味性。此外，在视频生成中还需关注一致性。

AIGC有望在漫画创作等领域极大解放生产力，但同时也给社会治理带来了挑战，例如深度伪造技术可能模糊真实与虚假的界限。

注：以上所有介绍的工作均已开源。

视觉大模型圆桌论坛：视觉重回第一赛道？🎥

在本节课中，我们将一起回顾2024北京智源大会视觉大模型专题的一场圆桌论坛。论坛由颜水成教授主持，邀请了来自学界与业界的四位专家——鲍凡、申琛惠、李俊男与程明明——共同探讨视觉大模型的发展现状、挑战与未来方向。我们将学习到专家们对视觉与多模态模型核心问题的深刻见解。

嘉宾介绍 👥

以下是四位与会专家的背景与研究方向简介。

鲍凡：来自神树科技，目前主要精力集中于视频大模型及其一线优化工作。个人兴趣方向包括与3D结合的世界模型，以及实现输入输出端统一的通用理解生成大模型。
申琛惠：目前任职于潞晨科技，是开源项目Open Sora团队的一员。博士毕业于新加坡国立大学，研究方向原为自然语言生成，*期开始涉足视频生成领域。
李俊男：博士毕业于新加坡国立大学，研究方向为计算机视觉。曾于Salesforce新加坡AI研究院工作五年，从视觉自监督学习转向视觉与语言的多模态研究。当前兴趣在于打造类似GPT-4V的多模态大模型。
程明明：任职于南开大学，身处学术界。研究风格自由，关注业界有趣进展，致力于在关键点上提出创新想法并开源验证，为社区提供“炮弹”。

问题一：视觉是否正在取代自然语言成为AI主导？🤔

上一节我们介绍了各位嘉宾的背景，本节中我们来看看他们对一个根本性问题的看法：随着Sora、GPT-4o等项目的成功，视觉是否正在取代自然语言，成为AI发展的主导方向？

程明明：不倾向于用“取代”这个词。自然语言率先突破有其道理，因其信息密度更高，训练需求可能相对较低。视频要达到自然语言的灵活性，本质上对算力和复杂度的需求可能更大。Sora虽然震撼，但当前视频生成在精确控制（如物体运动规律）上仍有差距，这恰恰说明视觉领域未来拓展空间巨大。
李俊男：视觉领域刚刚开始验证Scaling Law（规模定律）。自然语言能率先发现Scaling Law，是因为其语料更易处理、数据信息密度高。视觉在生成方面已初步证明Scaling Law，但在理解方面，尚未出现能真正理解任何场景的通用视觉模型。视觉正处于起步阶段，未来有很大发展空间。
申琛惠：目前谈“取代”为时过早。视频生成仍处早期阶段，面临诸多问题，如人脸生成的细微瑕疵容错率低。从应用角度看，文本作为控制媒介，借助成熟的大语言模型，能在短期内更快提升生成内容的可控性。
鲍凡：从机器学习的三类问题（数据表示、理解、生成）分析。文本模态的表示问题已较好解决（如Tokenizer），因此后续发展障碍少。而图像、3D的表示本身仍是难题（如pixel space、隐空间、离散token等不同路线），表示未定论，Scaling Law的研究就会更发散。此外，视觉数据的知识密度和获取难度也天然高于文本。

问题二：如何构建通用的视觉大模型？🏗️

在探讨了视觉的地位后，一个核心问题浮现：我们该如何构建通用的视觉大模型？是应该训练纯粹的单模态视觉模型，还是必须依赖多模态（尤其是文本）的融合？

以下是专家们的主要观点。

李俊男：涉及两个关键，一是监督信号，二是交互方式。
1. 监督信号：视觉数据缺乏有效监督信号。自监督学习（如掩码重建）获得的表征偏底层。下一帧预测可能是一个有潜力的监督信号，若能精准预测，或意味着对场景有深刻理解。此外，利用深度图、分割图等非语言信号进行共同监督也值得探索。
2. 交互方式：对人类最通用的交互方式仍是语言，因此将语言引入视觉模型非常重要。
申琛惠：完全剥离语言非常困难，就像演默剧，应用会受限。可借鉴自然语言模型的训练方法，如自编码（Auto-Encoding）和自回归（Auto-Regressive），探索如何将其应用于视频的单帧生成或掩码预测，但仍需与其他模态融合以寻求更好效果。
鲍凡：从存在性上讲，纯视觉的通用大模型是存在的，例如我们生活的世界本身就是一个“视觉大模型”。但从构造性上讲，这个过程可能比较曲折，不仅需要算法创新，可能还需要新的设备装置来便捷地产生大量高质量视觉数据，进而训练出基础大模型。
程明明：更看好多模态大模型的方向。需要一个“超级”多模态模型去探索能力上限和交互可能性。但在实际应用中，许多垂直场景不需要如此庞大的能力，最终可能会在超级模型的启发或帮助下，衍生出许多高效、专业的单模态小模型。两者是互补关系。

问题三：算力受限下，学术界如何发挥价值？🎓

当前大模型训练需要巨量算力，而学术界资源通常有限。在这种情况下，学术界应如何定位自身价值，与工业界形成有效分工？

程明明：高校不应尝试做全流程，而是聚焦整个pipeline中自己感兴趣且有用的“螺丝钉”。以一个不错的系统为基线，对特定环节进行改进，这样的工作对学界和业界都有意义。同时，积极与企业合作，借助工业界算力验证想法，并坚持开源贡献。
李俊男：当某个领域展现出巨大商业潜力时，学术界可考虑转向工业界难以触及的更前沿探索。例如，在扩散模型的理论提升方面进行创新性研究，即使资源不足以验证Scaling Law，也可以通过合作方式贡献思想。
申琛惠：开源模型和加速技术是关键。开源（如LLaMA、Open Sora）能降低研究门槛，引发后续工作。加速工作（如模型压缩、训练优化）极具价值。学术界的许多研究成果（如改进的VAE训练方法、新的损失函数）被业界验证并应用，这是一个相辅相成的过程。
鲍凡：补充一个根本视角：人工智能中最重要的是如何定义数据分布，这决定了智能的上限。当前损失函数、优化方法的研究已较成熟，但数据分布的研究相对较少。学界可以深入思考：怎样的数据分布能催生强大智能？这包括数据清洗的工程问题，也包括通过统计学方法提升数据质量的理论问题。

问题四：未来一年视觉大模型的可能突破？🚀

基于当前趋势，专家们对接下来一年视觉大模型可能出现的突破进行了展望。

鲍凡：从数据分布、表示、理解、生成四个维度看。数据分布上，会有更好的清洗和构造方法。数据表示上，图像/视频的压缩（如VAE）是重点突破方向，将表示压得更稠密，能大幅降低后续生成和理解的计算开销，从而降低Scaling Law的门槛。
申琛惠：视频生成的质量、生成长度、稳定性会快速提升。生成场景会更加多样。随着视频标注技术进步，提示工程和生成过程的可控性会有显著创新。
李俊男：建立公认的、系统的视频理解与生成评测基准。这是当前的一个空白，但对领域发展非常必要。
程明明：看好多种模态输入输出与视觉结合所带来的全新可能性，这将催生更多的创新应用。

观众问答精选 💬

论坛最后设置了观众自由提问环节。

关于视频动作与细节的可控性：程明明教授指出，当前视频生成最能快速落地的可能是娱乐行业，因为要做到高精度、符合物理规律的控制仍很困难。短期内的研究方向可能是针对特定属性（如人脸个性化特征）进行高效表征和约束，如PhotoMaker项目所示。
关于多语言统一表征：李俊男认为，随着模型规模扩大，不同语言（包括语音）的表征会趋向统一。申琛惠补充指出，小语种（低资源语言）数据匮乏是主要难点，通过翻译进行数据增强是当前提升模型多语言能力的一种有效方法。
关于3D生成：NeRF与生成模型的路线对比：鲍凡认为，这对应不同的交互方式。NeRF更适合手动、直观的3D编辑（如拖拽、变形），而生成模型则对应更自由的交互（如对话式编辑、涂鸦编辑），本质上是产品形态的区别。

总结 📝

本节课中我们一起学习了智源大会视觉大模型圆桌论坛的核心内容。我们了解到：

视觉并未“取代”语言，而是随着Scaling Law的验证进入新的发展阶段，但其在数据表示、知识密度等方面面临独特挑战。
构建通用视觉大模型需要思考监督信号与交互方式，纯视觉模型存在理论可能，但多模态融合以及“超级模型”与垂直“小模型”的生态可能是更现实的路径。
在算力时代，学术界可通过聚焦关键环节创新、加强开源与合作、深入数据分布等基础研究来发挥不可替代的价值。
未来一年，数据表示压缩、评测基准建立、多模态融合应用等方向有望取得重要进展。

论坛在热烈的讨论中结束，为视觉与大模型领域的探索者提供了丰富的思想碰撞与方向指引。

posted @ 2026-02-05 08:55 绝不原创的飞龙阅读(10) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

智源大会-2024-全-

智源大会 2024（全）

AI系统课程 01：论坛背景与嘉宾介绍 🎤

论坛背景与重要性

AI系统面临的全面挑战

论坛议程安排

课程名称：AI系统 - P10：网络驱动的大规模AI训练 - 阿里云可预期网络HPN7 🚀

概述

从CPU到GPU：数据中心网络的演进

AI训练对网络提出的新挑战

网络性能即集群算力

高性能网络系统的关键组成部分与挑战

阿里云HPN7.0的设计与解决方案

全栈自研：从硬件到系统的掌控

未来展望：更大规模与更智能的网络

总结

课程名称：AI系统 - P2：解锁AI潜力：AI框架与硬件加速器的连接挑战 🚀

概述

1. 动机与挑战

2. 硬件加速器概览

3. AI框架概览

4. 连接框架与硬件的技术栈

5. 生态系统面临的挑战

6. 新兴技术与未来方向

总结

课程名称：AI系统领域的重要问题与思考 🧠

课程编号：P3

概述

回顾：训练系统的核心工作

当前挑战：大模型时代的系统研究

转向推理：系统研究的新焦点

算法与系统的协同优化

总结

课程名称：AI系统 - P4：FlagGems通用Triton算子库 🧠

概述

多元芯片生态的挑战与机遇

为什么选择Triton？🚀

FlagGems的设计目标与架构

FlagGems的核心特性与易用性

开发工具与当前成果

开源、生态与合作展望

总结

课程名称：深度学习编译 - 从定制化资源分配到高性能代码生成 🚀

概述

1. 深度学习编译的背景与动机

2. AI芯片的独特挑战：存储模型

3. 深度学习编译的标准流程与优化机会

4. 定制化资源分配

5. 编译抽象层间的协同优化

6. 高性能代码生成：以规约和矩阵乘为例

总结

课程名称：多元算力下大模型并行训练框架技术与实践 🚀

概述

1. 多元算力时代的挑战与需求

2. 高效异构混合训练

2.1 异构并行策略的演进

2.2 性能与效果验证

3. 新芯片上的端到端高效训练

4. 支持任意长度的长序列训练

4.1 解决方案：结合现有系统优化技术

5. *滑的芯片迁移

5.1 自动调优系统架构

6. 开源框架：FlagScale 🛠️

总结与展望

课程名称：大模型高效可扩展并行策略研究（P7）🚀

概述

Transformer架构与并行策略的挑战

AutoDDL：基于SBP的自动并行框架

实现3D分布式矩阵乘法

AutoDDL框架工作流程

AutoDDL搜索策略的优势：以注意力机制为例

混合序列并行策略

灵活的通信拓扑变换

性能评估

融合二阶优化的流水线并行

总结与展望

课程名称：AI系统软件栈建设 - 第8讲：RISC-V与AI算力系统软件栈 🚀

概述：AI算力生态的现状与挑战

人工智能+数据新基建课程04：行业数据集-场景应用创新计划介绍 🏗️💡

一、大模型时代的数据危机与机遇

二、第四范式的理想与现实：为何需要数据互联

三、数联网：面向数据空间的新一代基础设施

四、构建大模型智能体的数据供应链飞轮

五、未来展望：从数据空间到智能体环境