智源大会-2023-笔记-全-

智源大会 2023 笔记(全)

课程名称:AI生命科学前沿进展与挑战 🧬🤖

课程概述

在本节课中,我们将学习人工智能在生命科学领域,特别是酶催化、蛋白质设计、药物发现及中医药现代化等方向的前沿应用与核心挑战。课程内容基于2023北京智源大会的专题报告整理,旨在为初学者提供一个清晰、全面的入门视角。


第一节:多尺度建模与人工智能在酶研究中的应用 🧪

现代生命科学始于达尔文的进化论和孟德尔的遗传定律。自70年前DNA双螺旋结构发现以来,生命科学迅速发展,这主要得益于结构生物学、分子生物学、基因组学和计算机模拟等技术的出现。这些工具使生命科学从数据匮乏的定性科学,转变为数据丰富的定量信息科学。近年来,人工智能和机器学习的进步为生命科学带来了革命性工具,其标志性事件是AlphaFold2成功从氨基酸序列预测蛋白质结构,并引发了一系列后续发展。

上一节我们介绍了AI生命科学的宏观背景,本节中我们来看看如何利用多尺度建模和人工智能研究酶。

酶催化与计算建模

酶是卓越的催化剂,有时能将反应速度加速至水溶液中相应反应的10^20倍。它们主要通过降低反应的活化能垒来实现这一点。在分子水平上理解酶催化需要计算机模拟,因为这是一个涉及大量原子的复杂系统。

主要的研究方法是结合量子力学和分子力学的QM/MM方法。其中,化学活性区域用量子化学描述,系统其余部分用分子力学描述。我们偏好的方法是所谓的“价键”方法,它将化学反应描述为在不同“价键态”之间的移动,这些态通过一个拟合实验数据的混合项进行混合。然后,通过改变环境与这两个价键态的相互作用,将模型应用到酶中。

以下是利用QM/MM方法模拟酶催化反应的一个简化示例:

# 伪代码示例:QM/MM模拟框架
initialize_system(protein_structure, substrate)
setup_qm_region(active_site_atoms)
setup_mm_region(rest_of_system)
for each simulation_step:
    calculate_qm_energies()
    calculate_mm_energies()
    propagate_dynamics()
analyze_reaction_pathway()

通过这种方法,我们研究了无数酶系统,并得出结论:在大多数情况下,催化的起源在于对过渡态的静电稳定化作用,这与溶剂重组能的降低有关。在好的酶中,环境已经部分预先组织到正确的方向,因此不需要支付重组能。

从理解到设计:酶设计的挑战与尝试

我们不仅希望理解生物化学,更希望利用知识来设计酶。随机突变探索所有序列空间(约20^300种可能性)是不可行的。目前主要有两种途径:

  1. 定向进化:模仿自然进化,随机突变并筛选每一代中更快的变体。
  2. 理性设计:基于物理原理预测突变效果。

使用基于物理原理的方法(如自由能微扰)预测单点突变效果相对较好,但在涉及多个残基同时改变的复杂设计中,我们遇到了瓶颈。因此,我们转向大规模计算筛选,生成许多突变体,观察各自的活化能垒。虽然最佳预测的突变体排名靠前,但效果仍不理想。

引入人工智能辅助酶设计

由于理性设计遇到困难,我们尝试从人工智能中寻求帮助。我们的方法不是直接关注催化数据(因为已知数据少),而是关注通过最大熵方法评估的整个蛋白质的进化约束(与折叠、稳定性等相关)。我们发现了酶的最大熵能量与其催化效率(如k_cat)之间存在显著的相关性。

以下是核心发现:

  • 对于天然酶:酶越稳定(最大熵能量越低),其催化活性往往越高。
  • 对于人工设计的酶(如坎普林酶):关系相反,稳定性较低的变体催化更快。这表明在活性位点附近,提高催化可能需要牺牲一些稳定性,即存在“催化-稳定性”的权衡景观。

基于最大熵与催化活性的相关性,我们可以筛选具有更高最大熵的序列,以期获得更高催化活性的突变体。我们在荧光素酶等系统中验证了此方法,成功预测出比野生型更高效、更稳定的突变体。

共价药物设计与选择性挑战

最后一个案例是共价激酶抑制剂的设计,核心挑战是选择性。我们通过QM/MM计算分析了不同激酶中抑制剂共价键形成的能垒,模拟了抑制时间进程,从而更好地理解了选择性控制的物理因素,并可能指导如何改进它。

本节过渡:以上我们探讨了如何结合物理模型与AI来理解和设计酶。接下来,我们将视角转向更广泛的复杂分子系统,看看如何融合基于物理和基于数据的模拟方法。


第二节:复杂分子系统研究:物理与数据模拟方法的结合 ⚛️📊

在生物医药中,分子模拟的应用远不止简单的分子对接。我们关心小分子结合后如何在信号通路中传递信息,这涉及蛋白-蛋白、蛋白-DNA等复杂相互作用。模拟细胞在分子水平已极具挑战。

计算模拟的本质与多尺度挑战

计算机模拟在分子体系中本质上是进行数学映射。我们可以:

  • 微分算符:基于牛顿力学或量子力学演化体系动力学。
  • 积分算符:从原子坐标分布积分获得热力学性质,如结合自由能。
  • 微分-积分算符:描述随机过程。

基于物理原理的模型可解释性好,但计算复杂、速度慢。基于数据(如神经网络)的模型可以学习映射关系,加速推理,但需要数据且可解释性差。两者各有优劣。

统一框架:SPONGE平台

我们致力于构建一个统一的深度学习与分子模拟软件平台——SPONGE。其核心优势在于,分子力学计算与深度学习模型在数学上同构,因此可在同一框架下实现。这使得:

  • 深度学习得到的信息(如势能面)可直接用于分子动力学模拟。
  • 分子动力学模拟的结果可反向传播给深度学习模型进行优化。

这实现了从“序列->结构->动力学->功能”的端到端闭环研究。

蛋白质结构预测的突破与延伸

AlphaFold2的成功是深度学习与基础理论(序列决定结构、共进化信息)的共同胜利。我们利用国产硬件(华为昇腾)和框架(MindSpore)独立复现并训练了AlphaFold2模型,性能相当。

为了突破AlphaFold2的局限(如需要大量同源序列),我们开发了双向映射模型,不仅能从序列预测结构,还能从结构生成可能序列,减少了对同源序列的依赖,大大加速了预测。

对于实验数据不足的蛋白,我们开发了新方法,将核磁共振等实验数据作为约束,整合到AI预测模型中,迭代地进行谱峰指认和结构确定,将数月甚至一年的解结构时间缩短到数小时,且精度更高。

分子生成与药物设计

在药物发现中,我们采用混合策略:

  • 结合位点预测:数据相对充足,使用深度学习模型(如EquiBind),可在0.3秒内预测一个小分子的可能结合姿态,大幅提升虚拟筛选效率。
  • 结合强度预测:数据稀缺,使用基于物理的自由能微扰等方法。

我们还开发了基于扩散模型的分子生成方法,能够根据特定条件(如原子间距、环类型)生成分子,用于抗体设计等。

本节过渡:我们看到了统一计算框架的强大潜力。接下来,我们将聚焦于AI在蛋白质建模中的三个基础性问题。


第三节:蛋白质建模的AI方法:表征、预测与设计 🧬

蛋白质是细胞功能的主要执行者。理解蛋白质功能对生物医药、工业酶设计等领域至关重要。AI方法可以从数据中学习蛋白质的“序列-结构-功能”关系。

1. 蛋白质特征表示学习

蛋白质的一级序列是字符串,早期工作借鉴自然语言处理,训练蛋白质语言模型。但蛋白质功能由结构决定,因此从结构学习特征应更有效。

我们提出了几何深度学习模型GearNet

  • 输入:蛋白质三维结构。
  • 构图:以氨基酸为节点,基于序列邻接和三维空间距离构造边。
  • 编码:使用图神经网络进行信息传递。为了更好利用三维几何信息,我们提出了边级信息传递,能捕捉空间角度信息。

我们利用对比学习在大量无标签结构数据上预训练该编码器。方法是:从同一蛋白结构中提取基于序列的模体和基于空间的模体作为正样本对,不同蛋白的模体作为负样本对。预训练后的模型在下游功能预测任务上表现显著提升,超越了仅从序列学习的模型。

我们还探索了多模态学习,联合训练蛋白质序列和其文本功能描述,将两者映射到同一语义空间。这使得模型可以进行零样本学习,即对没有功能注释的新蛋白,也能通过文本-蛋白的语义关联预测其功能。

2. 蛋白质结构预测

AlphaFold2主要预测蛋白质主链。我们关注侧链预测,因为侧链在分子相互作用中至关重要。

传统方法基于物理能量函数进行采样,速度慢且不准确。我们提出了基于扩散模型的侧链预测方法DiffPack

  • 关键思想:将侧链预测建模为在扭转角空间(而非三维坐标空间)的扩散过程。扩散模型本质上是学习一个能量场。
  • 有序生成:侧链的四个扭转角(χ1, χ2, χ3, χ4)有强依赖关系。我们采用自回归方式,依次预测每个扭转角,类似语言模型预测下一个词。

该方法在标准测试集上,无论是基于真实主链还是预测主链,其侧链预测精度都显著优于传统物理方法和之前的深度学习方法,且模型参数更少。

3. 蛋白质从头设计

蛋白质从头设计的目标是创造具有特定功能的全新蛋白质序列和结构。目前主流方法(如RFdiffusion)是两阶段的:先设计结合剂的结构,再为这个结构设计序列。

我们提出了Fold模型,能够同时对蛋白质的结构和序列进行联合扩散和优化:

  • 过程:模型输入当前(噪声)的序列和结构,以及靶点信息。在每一步,模型学习一个力场,同时对序列和结构进行去噪优化。经过多次迭代,模型收敛到一个稳定的序列-结构对。
  • 应用:我们成功将其应用于抗体CDR区设计、蛋白质环设计等任务,能够生成结构接近天然但序列多样化的设计。

为了促进AI社区进入该领域,我们构建了开源框架TorchProtein,提供了标准数据集、任务和基线模型。

本节过渡:AI正在重塑蛋白质研究的方方面面。最后,我们将目光转向一个拥有悠久历史但亟待现代化的领域——中医药,看看AI如何助力其创新发展。


第四节:人工智能与生物医药驱动中医药现代化 🌿💊

中华民族几千年的中医药实践积累了丰富资源:上万种药材、百万首方剂。但现状是,仅614种药材和1607种方剂被药典收录,这座宝库远未充分发掘。

挑战一:信息标准化与数字化

中医药古籍浩如烟海(约4.5亿字)。首要任务是将信息数字化、标准化。我们借鉴西药体系,为每一味中药建立三层命名系统:

  1. 常用名(如麻黄)。
  2. 学名(基于物种拉丁学名、用药部位、炮制方法的精确描述)。
  3. 唯一标识码
    我们正在构建“神农Alpha”系统,即中医药文献智能信息系统,以实现信息的标准化与自动翻译。

挑战二:质量控制与机制研究

中药成分复杂,质量控制难。我们采用“人工智能+基因组学”的方法:

  • 思路:绘制疾病的基因表达特征谱,以及药物(包括中药)改变基因表达的特征谱。如果某药能逆转疾病引起的基因表达变化,则可能治疗该病。
  • 应用:我们曾用此方法成功预测老药新用,治疗癌症和渐冻症。将此方法用于中药,可通过中药的整体基因表达效应来研究其药效和质量控制,无需预先知道具体成分。

挑战三:毒性预测与安全用药

中药毒性是制约其广泛应用和走向世界的关键。我们训练图模型来预测中药毒性。令人惊讶的是,模型预测出一种传统认为无毒、用于消炎止咳的药材具有肝毒性,后续动物实验证实了这一点。这凸显了AI在安全性再评价中的价值。

挑战四:生产污染与资源可持续

中药材栽培面临农药和重金属污染问题。我们利用合成生物学技术应对。例如,与茶农合作,通过基因编辑技术培育不开花结果的茶树,可节省40%化肥。我们在实验室克隆龙井茶,并尝试导入香味基因、保健成分基因,甚至七彩荧光基因,旨在实现标准化、无污染、高附加值生产。

从药材到分子:发现有效成分

从药材(如青蒿)到单一有效成分(如青蒿素)的发现和生产通常需要数十年。我们创立了“双深科技”,利用人工智能+代谢组学分析海量化合物数据,最快可在3个月内锁定中药中的有效分子。找到分子后,再利用合成生物学,解析并移植植物体内的生物合成途径到微生物中发酵生产,已成功实现红景天苷的商业化生产。

案例:糖尿病中药的现代化研究

  1. 预测:用“神农Beta”模型预测某中药可治疗糖尿病。
  2. 验证:动物实验证实其可调节胰岛基因表达,降低血糖,甚至对脂肪肝有疗效。
  3. 找分子:利用上述技术,成功找到了其有效分子,并解析了其作用机制和生物合成路径。
  4. 优化:未来可基于找到的分子和作用靶点,用AI设计更优的衍生物。

新靶点发现:从遗传学到人工智能

我们此前创立“药物牧场”,利用转座子基因突变系统在疾病小鼠模型中大规模筛选新药靶,发现了20个全新靶点。针对第一个新靶点LPAR5,我们采用“AlphaGo模式”训练AI辅助药物化学家设计分子,成功研发出新药,并已进入全球多中心临床试验。这是中国首次在全球范围内获得全新靶点药物专利。

本节过渡:中医药的现代化是一个系统工程,AI在其中扮演了加速器和连接器的角色。现在,让我们进入讨论环节,深入探讨一些共性问题。


第五节:讨论与展望 💬

议题一:实验数据与AI模型的闭环

  • 问题:AI模型(如AlphaFold2)在数据不足时(如MSA同源序列少)预测不准。如何整合少量实验数据(如核磁共振约束)来提升预测?
  • 观点:可以将实验数据作为物理约束整合到AI预测模型中,进行迭代优化。例如,将核磁共振的NOE约束加入,模型在优化结构的同时,也能反向帮助更准确地指认谱峰,形成“实验-计算”闭环,极大缩短解结构时间,并能处理多构象问题。

议题二:动态结构与功能

  • 问题:晶体结构是静态的,但蛋白质在溶液中有动态变化,这对理解功能和药物设计很重要。AI如何帮助?
  • 观点:上述整合实验数据的方法本身就支持解析多构象及其种群分布。对于RNA等更动态的分子,其结构预测更难,但序列决定相互作用的模式可能相对简单,AI预测蛋白-RNA相互作用已能达到较高精度,这为新药研发(如靶向RNA)提供了可能。

议题三:生成式AI vs. 筛选式AI in 蛋白质设计

  • 问题:对于酶或抗体设计,生成式AI(从头设计)相比定向进化(筛选式)优势何在?
  • 观点:生成式AI理论上能探索更大的序列-结构空间,有望发现超越自然进化的设计。但目前完全依赖AI从头设计高活性酶或抗体仍不成熟。更现实的路径是“AI生成初筛 + 实验验证筛选”相结合,利用AI缩小搜索范围,用高通量实验进行验证和优化。

议题四:多组学数据整合与计算挑战

  • 问题:整合基因组、转录组、表观基因组等多组学数据能提升模型性能,但计算复杂度也大增。其收益和挑战如何?
  • 观点:评估发现,除转录组外,开放染色质(ATAC-seq)数据对预测准确性贡献最大(约占40%),甲基化数据贡献约20%。多组学整合是理解基因调控网络的必然方向。虽然数据量巨大(单细胞数据已达亿级),但预计不需要达到GPT级别的参数量,可能在百万到十亿参数级别即可有效建模。

议题五:AI在中医药复杂体系中的应用

  • 问题:中药复方“君臣佐使”理论如何用现代科学验证?中药出海面临化学成分和作用机制不明确的监管挑战。
  • 观点:复方可能通过多种低浓度有效成分的叠加效应或协同作用于多靶点通路起效。现代化的破局之路在于:利用AI和组学技术从复方中找出有效成分群,明确其各自的靶点和机制,提高单一成分的浓度或优化组合,从而满足现代药监的明确性要求。同时,利用合成生物学实现标准化、无污染生产。

议题六:AI的极限与生命系统的复杂性

  • 问题:生命系统极其复杂,存在大量异质性和难以量化的特征。当前的AI模型(包括多模态大模型)能否真正为生命系统建模?
  • 观点
    • 许田:交叉学科人才是关键。当前AI已很有用,但完全描述生物体还不行,未来难料。
    • 高歌:AI在快速演进。单细胞数据从10个到亿级的增长,带来了新的可能性。AI通过“升维”和“降维”帮助处理高维、非连通的生物数据,是通向理解复杂系统的有力途径,而非终极解决方案。
    • 唐建:核心还是数据问题。只要数据充足,深度学习能解决大部分问题。未来取决于能否获得更多体内或类器官等更接近真实生理环境的数据。
    • 高一鹏:AI是探测和理解复杂世界的工具。它将复杂数据映射到可计算空间,允许我们用物理模型和科学假设对其进行扰动和检验,从而抽提知识。

共识:人工智能在硬件(突破物理层限制)和软件(学习与记忆能力)上都展现出超越生物极限的潜力。它并非万能,但正以前所未有的速度和方式变革生命科学的研究范式。未来的突破有赖于生命科学家与AI专家的深度融合,以及“干湿实验”闭环的不断迭代。


课程总结

本节课中,我们一起学习了AI在生命科学多个核心领域的应用:

  1. 酶学:结合QM/MM多尺度建模与AI(如最大熵方法),不仅能深入理解催化机理,还能辅助设计更高效的酶。
  2. 计算框架:构建统一的物理-数据融合计算平台(如SPONGE),是实现从序列到

课程名称:视觉与多模态大模型前沿进展 🚀

课程概述

在本节课中,我们将学习2023年北京智源大会上关于视觉与多模态大模型的最新研究成果。课程内容涵盖基于关键点的图像编辑、三维内容生成、通用视觉模型探索以及扩散模型在图像、视频和三维生成中的应用。我们将深入探讨这些技术的核心思想、实现方法以及未来发展方向。


第一节:基于关键点的生成式图像编辑 🎨

在上一节概述中,我们了解了本课程的整体框架。本节中,我们来看看如何实现一种直观的图像编辑方式——通过拖拽关键点来编辑生成式对抗网络(GAN)生成的图像。

图像编辑是计算机视觉和图形学中的经典问题。近年来,生成模型的发展催生了一系列图像编辑方法。然而,对于图像空间属性(如轮廓、物体位置、姿态、大小)的编辑,现有方法在灵活性、准确性和通用性方面存在局限。

观察人与物理世界的交互,最直接的方式是直接移动物体的位置。皮影戏的操纵者通过控制关键点就能完全控制图像中物体的动作。受此启发,我们探索能否像控制皮影戏一样控制图片。

理想的空间属性编辑需要符合物体自身结构,并能想象出被遮挡的内容。生成模型,特别是生成对抗网络(GAN),因其对物体结构的感知和生成新内容的能力,成为实现这一目标的自然选择。

GAN在训练完成后,将一个符合高斯分布的潜向量映射到一张高维图片。通过扰动潜向量,可以实现对图像内容的改变。本工作的目标是将这种拖拽式编辑基于GAN来实现。

为了实现基于关键点的拖拽编辑,核心问题是如何改变GAN的潜向量来实现所需的关键点变化。我们设计了一个迭代式的算法框架。

以下是该框架的两个关键子问题:

  1. 运动监督:为了将红色抓取点推向蓝色目标点,需要施加一个力。这个力可以形式化为一个运动监督损失函数,用于优化GAN的潜向量。
    • 公式L_motion = ||F_blue - F_red.detach()||,其中 F 代表特征图(feature map)上对应位置的特征值。
  2. 点追踪:优化一步得到新的潜向量和图片后,需要更新抓取点的位置,使其跟随图像内容移动。这通过特征匹配来实现,即在新的特征图中寻找与初始抓取点特征最接近的像素位置。
    • 方法:最近邻搜索(Nearest Neighbor Search)。

通过迭代进行运动监督和点追踪,直到所有抓取点都移动到对应的目标点,就完成了图像编辑。

该方法可以实现多种空间属性编辑,例如改变物体姿态、形状、表情等,并且编辑结果符合物体自身结构,能生成被遮挡部分。


第二节:机器学习驱动的三维内容生成 🧊

上一节我们介绍了基于GAN的交互式图像编辑。本节中,我们来看看如何利用机器学习,特别是大模型,来生成高质量的三维内容。

人类生活在三维世界,创建三维数字世界有助于我们更好地理解现实世界,并解决许多实际问题。三维内容生成是构建虚拟世界的核心。

当前三维内容创建主要依赖人工,流程复杂且门槛高,难以规模化。与此同时,机器学习在语言和二维图像生成领域取得了迅猛发展。然而,在三维内容生成领域,尽管有进展,但在几何和纹理质量上仍远不如二维生成。

我们的研究目标是利用机器学习生成高质量的三维形状,并使其能够直接应用于图形学软件。这面临两大挑战:三维表示和算法设计。

一个优秀的三维表示需要既适合机器学习,又适合下游应用,并能支持不同的拓扑结构和纹理材质。我们提出了 DM 方法,它是一种可微分的等值面提取技术,能够将隐式函数表示(非常适合机器学习)可微地转化为显式的网格(非常适合图形学应用)。

在算法层面,我们探索了如何高效地训练三维生成模型。我们提出了 GET3D 模型,其核心思想是将二维GAN的成功经验带到三维。我们使用可微分渲染将生成的三维形状渲染成二维图片,然后在二维空间利用成熟的二维判别器进行监督,并通过渲染过程将梯度回传到三维生成器。

为了超越训练数据集的限制,并利用更丰富的二维数据,我们提出了 Magic3D。这是一个高分辨率文本到三维的生成框架。其核心思想是从强大的二维扩散模型中提取知识,并蒸馏到三维表示中。我们采用了两阶段流程:先用低分辨率扩散模型得到粗略几何,再提取网格并用高分辨率扩散模型进行细化,从而生成高质量、高细节的三维模型。

这些工作展示了利用二维先验和可微分渲染等技术,在三维生成领域实现高质量和可控内容创作的潜力。


第三节:通用视觉模型初探 👁️

上一节我们探讨了三维内容的生成。本节中,我们将视角转回更通用的视觉智能,探讨如何学习更大、更强的视觉表征,以及如何构建能够解决多种任务的通用视觉模型。

我们的研究分为两部分:学习通用的视觉表征和构建视觉通才模型。

对于视觉表征,我们提出了 EVA 模型。其核心思想是结合CLIP模型的高层语义和MAE掩码图像建模的结构化空间信息。我们通过重建被掩码部分的CLIP特征来预训练模型。重要的是,我们将模型规模扩大到10亿参数,并发现EVA作为图像编码器的初始化,能够显著稳定并提升CLIP模型的训练。基于此,我们进一步提出了 EVA-CLIP,通过一系列技巧将模型扩展到50亿参数,并在ImageNet零样本分类上取得了领先性能。

对于视觉通才模型,我们希望构建一个像GPT-3那样能够通过上下文学习解决各种视觉任务的模型。我们提出了 Painter。其关键创新是将所有视觉任务(如分割、深度估计、关键点检测)的输出都统一为图像形式。然后,我们使用简单的掩码图像建模方法,在一个统一的Transformer架构上训练模型。训练完成后,模型具备了上下文视觉学习的能力,只需提供几个输入-输出对作为示例,就能自动完成对应的新任务。

基于Painter的框架,我们进一步提出了 SegGPT,旨在实现“分割一切”。我们将各种分割数据(语义、实例、全景分割等)统一为上下文示例进行训练。训练后的模型能够根据给定的示例(例如,一张图片和其分割掩码),对新的图像执行相同语义的分割,甚至能分割训练中从未见过的概念(如“影子”、“损失函数曲线”)。

最后,我们介绍了正在进行的 InterLM 工作,这是一个能够接受多模态输入并产生多模态输出的大模型。它通过统一的序列形式处理图像、文本、交错图文和视频数据,并进行多模态上下文学习,从而具备感知、推理和生成多种模态数据的能力。

我们的研究思路可以总结为一个简单公式:统一的学习方法 + 可扩展的数据 + 大模型 = 规模化效应


第四节:扩散模型在内容生成中的应用 🌪️

上一节我们探讨了通用视觉模型。本节中,我们聚焦于当前生成式人工智能的主流——扩散模型,并了解其在图像、视频和三维内容生成中的前沿应用。

扩散模型(或称基于分数的生成模型)已在深度生成学习中占据主导地位,特别是在高质量图像合成方面。我们将介绍英伟达在多伦多AI实验室的相关工作。

首先介绍 Edify,这是一个大型文本到图像生成系统。它的特别之处在于使用了“专家降噪器”集合。在扩散模型的迭代生成过程中,早期阶段更依赖文本语义来构建大尺度内容,而后期阶段则更关注生成局部高保真细节。Edify针对生成过程的不同阶段使用不同的专家模型,从而提升了生成性能,且不增加推理成本。Edify还支持通过修改交叉注意力图来实现“用文字绘画”,精确控制不同概念在图像中的位置。

对于文本到三维生成,我们介绍了 Magic3D。它通过从二维扩散模型中蒸馏知识来创建三维内容。其流程是:使用一个神经场表示三维形状,从不同视角渲染该形状得到二维图片,然后利用Edify模型评估这些图片与文本的匹配程度,并将梯度回传到三维神经场进行优化。为了提高效率和质量,Magic3D使用了Instant Neural Graphics Primitives进行高效参数化,并采用了两阶段优化策略。

在给定三维数据集(如点云)的情况下,我们提出了 潜在点扩散模型。这是一个复杂的层次化点云潜在扩散模型。它首先将点云编码为全局形状潜变量和潜在点云,然后在这两个潜在空间上分别训练扩散模型。这种层次化结构有助于学习高度多模态的三维数据分布,并能生成多样且合理的三维形状。

最后,我们探讨了扩散模型在视频生成中的应用,即 Video LDM。为了从图像生成扩展到视频生成,关键是要确保生成的帧序列在时间上对齐。Video LDM在预训练的图像潜在扩散模型基础上,添加了可训练的时间层(包括3D卷积层和时间注意力层),并在视频数据上进行微调。模型采用分层结构:先由关键帧模型生成低帧率、低分辨率视频,然后通过两轮插帧模型提升帧率,最后通过一个时空解码器和上采样器得到高分辨率视频。该方法还能与DreamBooth等技术结合,实现个性化文本到视频生成。


课程总结

本节课我们一起学习了视觉与多模态大模型领域的多个前沿方向。

我们首先学习了 DragGAN,它通过运动监督和点追踪,实现了基于关键点的、符合物理结构的交互式图像编辑。
接着,我们探讨了 三维内容生成 的挑战与进展,包括DM可微分等值面提取、GET3D利用二维监督训练三维生成器,以及Magic3D从二维扩散模型蒸馏三维知识。
然后,我们了解了构建 通用视觉模型 的尝试,如EVA-CLIP学习大规模视觉表征,以及Painter和SegGPT通过统一图像输出和上下文学习来解决多种视觉任务。
最后,我们深入研究了 扩散模型 在内容生成中的强大能力,包括Edify专家降噪器、Magic3D文本到三维生成、潜在点扩散模型以及Video LDM视频生成。

这些工作展示了统一的学习框架、可扩展的数据和大规模模型结合所带来的巨大潜力。未来,视觉与多模态大模型的研究将继续朝着更大规模、更通用、更可控以及与语言模型深度融合的方向发展。

具身智能与强化学习论坛教程 📚

课程概述

在本节课中,我们将学习具身智能与强化学习的基本概念、核心挑战、研究方法以及未来展望。通过整理2023年北京智源大会“具身智能与强化学习论坛”的内容,我们将深入探讨具身智能的定义、数据获取、算法设计、应用场景以及与大模型的结合。


一、具身智能的定义与背景 🌍

上一节我们介绍了课程的整体内容,本节中我们来看看具身智能的基本定义和背景。

具身智能(Embodied Intelligence)强调智能体通过感知、认知和行动的闭环与物理世界交互。与传统的互联网智能不同,具身智能的核心在于智能体在环境中通过交互涌现智能。例如,谷歌发布的PALM-E模型展示了智能体从语言、图像到物理行动的跨越,特斯拉的人形机器人也进一步推动了具身智能的发展。

具身智能的核心科学问题是概念的涌现和表征的学习,其基础框架耦合了感知、认知和行动。最终目标是构建像人一样聪明、能够自主学习的机器人智能体。


二、具身智能的核心挑战 ⚙️

上一节我们介绍了具身智能的定义,本节中我们来看看其核心挑战。

具身智能面临多方面的挑战,主要包括数据获取、算法设计和性能评估。以下是具体内容:

  1. 多模态学习:机器人需要通过图像、视频、音频、语言和触觉反馈等多种模态理解世界。
  2. 数据获取:从互联网智能到具身智能,数据收集的主体从人类转向机器人自身,涉及探索与利用的平衡。
  3. 数据处理:数据从感知端流动到决策端,需要经过对世界的建模,涉及任务驱动的表征学习。
  4. 性能评估:评估指标包括任务完成率、采样复杂度和组合泛化能力。

三、数据获取与模拟器 🎮

上一节我们介绍了具身智能的核心挑战,本节中我们来看看数据获取与模拟器的作用。

模拟器在具身智能中具有重要作用,主要体现在以下方面:

  1. 可扩展性:模拟器可以低成本生成大量数据,避免真实机器人收集数据的高成本和危险性。
  2. 可复现性:模拟器支持大规模测试,确保算法的严谨性和可重复性。
  3. 快速原型:模拟器允许快速迭代和升级,降低硬件更新的成本。

例如,MiniSkill平台提供了20类操作技能、超过2000个物体和400万个物体操作实例,支持高效的算法测试和训练。


四、算法设计与策略学习 🧠

上一节我们介绍了数据获取与模拟器,本节中我们来看看算法设计与策略学习。

在具身智能中,算法设计需要解决鲁棒性和泛化性问题。例如,通过结构化策略(如基于思维链的预测控制)可以提高组合泛化能力。以下是具体方法:

  1. 技能链接:将复杂任务分解为基本技能,通过技能组合完成长程任务。
  2. 思维链技术:仿照语言模型的思维链技术,将复杂任务分解为关键状态序列,逐步完成。
  3. 模型对齐:通过神经网络结构设计,使其与决策所需的算法推理过程对齐。

例如,基于思维链的预测控制(COT-PC)方法在精细控制任务中取得了显著效果。


五、具身智能与大模型的结合 🤖

上一节我们介绍了算法设计与策略学习,本节中我们来看看具身智能与大模型的结合。

大模型(如GPT-4)在具身智能中具有潜在应用,主要体现在以下方面:

  1. 任务规划:大模型可以用于高层任务规划,将复杂任务分解为基本技能序列。
  2. 世界模型:大模型可以作为抽象的世界模型,帮助智能体理解环境和任务。
  3. 数据生成:通过3D AI生成内容(AIGC),可以生成大量几何数据,丰富模拟器中的虚拟世界。

例如,在Minecraft环境中,通过大模型规划任务,结合强化学习训练底层技能,可以完成复杂的长程任务。


六、具身智能的应用场景 🏥

上一节我们介绍了具身智能与大模型的结合,本节中我们来看看其应用场景。

具身智能在多个领域具有广泛应用,主要包括以下方面:

  1. 机器人操作:通过强化学习训练机器人完成物体抓取、精细操作等任务。
  2. 运动功能重建:通过神经刺激和外骨骼机器人,帮助运动功能损伤的患者恢复行动能力。
  3. 视觉导航:在未知环境中,通过视觉和语言输入完成导航任务。

例如,孙亚楠老师的研究通过神经刺激和外骨骼机器人,帮助高位截瘫患者恢复手部抓握和行走能力。


七、未来展望与挑战 🚀

上一节我们介绍了具身智能的应用场景,本节中我们来看看未来展望与挑战。

具身智能的未来发展面临多方面的挑战和机遇,主要包括以下内容:

  1. 数据基础设施:需要构建大规模、多模态的数据集,支持具身智能模型的训练。
  2. 算法创新:需要设计更高效、鲁棒的算法,解决长程任务和组合泛化问题。
  3. 人机共融:需要确保机器人与人类的安全交互,解决伦理和社会接受度问题。
  4. 大模型融合:需要探索大模型在具身智能中的具体应用,实现抽象规划与底层控制的结合。

例如,未来可能需要通过解耦的方式,将具身智能分解为多个子模型(如感知模型、世界模型、决策模型),逐步实现通用具身智能。


课程总结

在本节课中,我们一起学习了具身智能与强化学习的基本概念、核心挑战、研究方法以及未来展望。具身智能通过耦合感知、认知和行动,实现智能体与物理世界的交互。其发展离不开数据获取、算法设计、大模型融合等多方面的努力。未来,具身智能将在机器人操作、运动功能重建、视觉导航等领域发挥重要作用,推动人工智能向通用智能体的迈进。

AI安全与对齐论坛 - P1 - 智源社区 - BV1AN411C7rt

课程概述 📚

在本节课中,我们将学习AI安全与对齐的核心概念、当前面临的挑战以及前沿的研究方向。课程内容整理自智源社区AI安全与对齐论坛的嘉宾演讲,涵盖了从基础理论到实际应用的多个方面,旨在帮助初学者理解这一重要领域。


论坛开幕与致辞 🎤

大家好,欢迎来到今年的智源大会AI安全与对齐论坛。我是谢明,西安远AI创始人,也是今天的主持人。进入大模型时代,如何确保越发强大和通用的AI系统安全可控,并使其与人类意图和价值观对齐,是实现人类社会与AI可持续发展的关键问题。

今天的论坛很荣幸邀请到了许多海内外的重量级嘉宾。

以下是线下参会嘉宾:

  • 论坛主席,清华大学人工智能研究院名誉院长张钹院士。
  • 专程到北京参加交流的加州大学伯克利分校教授 Russell。
  • 图灵奖得主,中国科学院院士姚期智先生。
  • 智源研究院理事长张宏江博士。
  • 智源研究院院长黄铁军教授。
  • 清华大学副教授黄民烈博士。
  • 首次到访中国的剑桥大学助理教授 David Krueger。
  • 北京大学助理教授杨耀东老师。
  • 以及参与圆桌讨论的李博老师、黄文浩博士和付杰博士。

我们也很荣幸能够邀请到以下嘉宾线上参会:

  • 包括深度学习之父、图灵奖得主 Geoffrey Hinton。
  • OpenAI CEO, Sam Altman。
  • Anthropic 联合创始人 Chris Olah。
  • 加州大学伯克利分校助理教授 Jacob Steinhardt。
  • Google DeepMind 研究科学家 Victoria Krakovna。
  • 以及纽约大学副教授 Sam Bowman。

现在有请本次论坛主席张钹院士为大家致辞。

各位专家早上好,因为我不知道是否可以用中文来讲,所以我准备了英文的稿子。现在对不起,我就用英文念稿子吧。

AI安全是备受关注的话题。随着AI(如基础模型、GPT)的进步,这个问题变得更加紧迫。AI安全主要源于两个来源。第一是AI生成模型本身,它可能产生各种不符合人类道德伦理的偏见和错误。这种结果将是不可避免的,没有理由乐观。首先,正如维纳在1949年提到的,我们给予机器的每一度独立性,都是它可能违背我们意愿的一度可能性。其次,是训练数据的问题。

另一个来源是用户。恶意用户可能通过攻击来误导和滥用AI模型,利用模型生成对人类有害的结果。

今天,杰出的专家们将讨论的不仅仅是AI安全,还包括我们如何利用AI对齐来引导AI系统朝向人类预期的目标、偏好和伦理原则。我们应该关注AI治理,并通过国际合作(如知识共享、实践传播、联合研究倡议)共同努力,促进AI的健康发展,造福人类。

谢谢张钹院士。


主题演讲:Sam Altman (OpenAI) 🎙️

我们开幕主题演讲的嘉宾是OpenAI的CEO Sam Altman。Sam Altman是OpenAI的CEO,该公司在生成式AI领域处于领先地位,取得了包括DALL-E、GPT和GPT-4在内的突破。

你好,Sam,我们知道你正和OpenAI领导团队进行全球巡访,非常感谢你今天抽出时间与我们交流。Sam,你准备好演讲了吗?

是的,太好了。现在请开始。

谢谢张主席和北京智源人工智能研究院的成员们召集这次重要且及时的会议。能与如此杰出的AI研究者和计算机科学家群体为伍,我感到非常荣幸。

正如你提到的,我现在正在进行为期四周的世界巡访,已经走遍了五大洲近20个国家。我见到了学生、开发者和国家元首。这次旅行激励了我。

我们看到了世界各地的人们已经在以令人难以置信的、改变生活的方式使用AI技术。我们也从用户那里收到了宝贵的反馈,了解如何让这些工具变得更好。我们还有机会与外国领导人进行有意义的对话,讨论需要建立的监管护栏,以确保日益强大的AI系统能够安全可靠地部署。

世界上许多人的注意力,理所当然地,都集中在解决今天的AI问题上。这些都是需要我们努力解决的严重问题。我们还有很多工作要做,但鉴于我们已经取得的进展,我相信我们能够做到。

今天,我想谈谈未来。具体来说,是我们看到的AI能力增长的速度,以及我们现在需要做什么,以便负责任地为它们进入世界做好准备。

科学史告诉我们,技术进步遵循指数曲线。我们在过去几千年里,在农业、工业和计算革命中都看到了这一点。但让我们现在实时见证的AI革命如此重要的原因,不仅是其影响的规模,还有其进步的速度。它正在迅速拉伸人类想象的画布。

想象一下,在未来十年,通用人工智能系统(通常称为AGI)在几乎所有领域都超越了人类的专业知识。这些系统最终可能超过我们最大公司的集体生产力。这里的潜在收益是巨大的。AI革命将创造共享财富,并有可能显著提高每个人的生活水平。

但我们必须共同管理风险才能实现这一点。我知道,大国之间有时会有分歧。今天如此,过去也是如此。但即使在最困难的时期,大国也找到了在最重要的事情上合作的方法。这种合作促成了关键的医学和科学进步,例如根除脊髓灰质炎和天花等疾病,以及全球减少气候变化风险的努力。

随着日益强大的AI系统的出现,全球合作的利害关系从未如此之高。如果我们不小心,一个旨在改善公共卫生结果的未对齐AI系统,可能会通过提供无根据的建议来扰乱整个医疗保健系统。同样,一个旨在优化农业实践的AI系统,可能由于缺乏对长期可持续性的考虑,无意中耗尽自然资源或破坏生态系统,从而影响粮食生产和环境平衡。

我希望我们都能同意,推进AGI安全是我们找到共同点的最重要领域之一。我想把接下来的发言重点放在我认为我们可以开始的地方。

一个领域是AGI治理。AGI从根本上改变我们文明的力量,凸显了有意义的国际合作与协调的必要性。每个人都能从合作的治理方式中受益。如果我们安全、负责任地驾驭这一进程,AGI系统可以为全球经济创造无与伦比的经济繁荣,解决气候变化和全球卫生安全等共同挑战,并以无数其他方式增强社会福祉。我也深深相信这个未来,我们作为一个星球需要投资于AGI安全来实现并享受它。

这样做需要仔细的协调。这是一项具有全球影响的技术。鲁莽开发和部署事故的代价将影响我们所有人。有两个关键领域似乎最为重要。

首先,我们需要在一个包容性的过程中建立国际规范和标准,并为所有国家使用AGI制定统一的护栏。在这些护栏内,我们相信人们有充足的机会做出自己的选择。

其次,我们需要国际合作,以可验证的方式建立对日益强大的AI系统安全开发的全球信任。

我不幻想这会很容易。我们需要作为一个国际社会投入大量且持续的注意力才能做好这件事。《道德经》提醒我们,千里之行始于足下。我们认为,这里最具建设性的第一步是与国际科技界合作。特别是,我们应该促进增加AGI安全技术进步透明度和知识共享的机制。发现新兴安全问题的研究人员应该为了更大的利益分享他们的见解。我们需要认真思考如何在尊重和保护知识产权的同时鼓励这种规范。如果我们做得好,这将为我们深化合作打开新的大门。

更广泛地说,我们应该投资、促进并引导对齐和安全研究的投资。在OpenAI,我们今天的对齐研究主要侧重于让AI系统作为一个有帮助且更安全的系统来行动的技术问题。在我们当前的系统中,这可能意味着我们如何训练ChatGPT,使其不发出暴力威胁或协助用户进行有害活动。但随着我们接近AGI,任何未对齐的潜在影响和严重性都将呈指数级增长。通过现在主动应对这些挑战,我们努力将未来灾难性结果的风险降至最低。

对于当前的系统,我们主要使用基于人类反馈的强化学习来训练我们的模型,使其成为一个有帮助且安全的助手。这是各种训练后对齐技术的一个例子,我们也在忙于研究新的技术。要正确做到这一点,需要大量的艰苦工程工作。从GPT-4完成预训练到我们部署它,我们花了八个月的时间来研究这个问题。总的来说,我们认为我们走在正确的轨道上。GPT-4比我们之前的任何模型都更加对齐。

然而,对于更先进的系统,对齐仍然是一个未解决的问题,我们认为这将需要新的技术方法,以及加强治理和监督。考虑一个未来提出10万行二进制代码的AGI系统。人类监督者不太可能检测到这样的模型是否在做一些邪恶的事情。

因此,我们正在投资一些新的、互补的研究方向,希望能取得突破。

一个是可扩展监督。我们可以尝试使用AI系统来协助人类监督其他AI系统。例如,我们可以训练一个模型来帮助人类监督者发现其他模型输出中的缺陷。

第二个是可解释性。我们想尝试更好地理解这些模型内部发生了什么。我们最近发表了一篇论文,使用GPT-4来解释GPT-2中的神经元。在另一篇论文中,我们使用模型内部状态来检测模型何时在撒谎。虽然我们还有很长的路要走,但我们相信先进的机器学习技术可以进一步提高我们生成解释的能力。

最终,我们的目标是训练AI系统来帮助对齐研究本身。这种方法的一个有希望的方面是,它可以随着AI发展的步伐而扩展。随着未来的模型作为助手变得越来越智能和有用,我们将找到更好的对齐技术。

实现AGI的非凡好处同时减轻风险,是我们这个时代的开创性挑战之一。我们看到美国、中国和世界各地的研究人员有巨大的潜力共同努力实现这一共同目标,并致力于解决AGI对齐中突出的技术挑战。如果我们这样做,我相信我们将能够利用AGI来解决世界上最重要的问题,并显著提高人类的生活质量。

非常感谢。

非常感谢,Sam。我现在将介绍北京智源人工智能研究院院长张宏江博士来主持与你的问答环节。


主题演讲:Stuart Russell (加州大学伯克利分校) 🧠

我们下一位嘉宾是加州大学伯克利分校教授 Stuart Russell。Russell是计算机科学教授,也是伯克利大学人类兼容AI中心的创始人。他是教科书《人工智能:现代方法》的合著者,该书在135个国家的1500多所大学使用。

欢迎回到智源大会。Stuart,很荣幸你能访问北京。

非常感谢,非常荣幸受邀在此发言,尤其是在这可能是人类历史上最重要的一年。事实上,在我的文件系统中,我现在有一个名为“2023”的目录,用来存放今年发生的所有信息,试图跟上变化的步伐。

让我从过去常做的事情开始,即尝试解释AI,以及构成教科书基础的这种解释,是一种思考AI的方式,我称之为标准模型,因为它非常普遍、被广泛接受且非常有效,就像物理学中的标准模型一样。简单来说,我们可以说机器是智能的,其程度取决于它们的行动在多大程度上可以预期实现其目标。这种智能概念直接借用了20世纪中叶的哲学和经济学。这些领域与致力于创建AI领域的早期研究人员之间有直接联系。

在这些领域中,这被称为理性行为,它构成了我们迄今为止在人工智能中开发的几乎所有技术的基础。自该领域诞生之初,我们就明确追求通用AI的目标,有时我们现在称之为AGI(通用人工智能)。这意味着系统能够快速学习,在任何任务环境中(即人类智能适用的任何领域,可能还有许多人类无法有效运作的其他领域)高水平地执行任务,通常超过人类能力。我们预计,由于机器在速度、内存和通信带宽方面的巨大优势,这样的系统将在几乎所有领域远远超过人类能力。

因此,为了延续Sam Altman提到的一些主题,让我们思考一下成功创造通用AI的一些简单后果。根据定义,它将能够做人类已经能够做的事情。我们已经能够做的事情之一是为地球上的一部分人口提供高质量的生活,也许占人口的十分之一到五分之一,取决于你如何定义。但我们可以为地球上的每个人提供这种生活。我们可以扩大我们创造高质量生活的能力。一个功能齐全、实用、支持人类文明的系统,可以通过AI系统基本上免费工作,以更大的规模和低得多的成本来提供。

如果我们计算其价值,那将是世界GDP的大约十倍增长。经济学家喜欢使用一个叫做净现值的量,即该增加收入流的现金等价物,现金等价物大约是1350万亿美元。所以,这是我们试图创造的技术价值的下限估计。

现在,这个估计。把它想象成一个巨大的磁铁。在未来,它正把我们向前拉。这几乎是不可阻挡的势头。我们还可以拥有更多东西,对吧?除了在整个星球上重建我们的生活水平,我们还可以拥有更好的医疗保健、更好的教育、更好的科学,以及我们现在无法真正想象的新发现。

那么下一个问题就是,我们成功了吗?有些人相信,是的,我们已经处于AGI的存在之中,或者我们非常接近拥有AGI。我的观点是,不,我们还没有成功创造AGI,事实上,仍然存在主要的未解决问题。

我目前的想法是,语言模型是创造AGI拼图的一部分。AI在其75年的研究中已经产生了这个拼图的许多其他部分。我们实际上不太理解这个新拼图是什么形状。我们并不真正理解它是如何工作的,它能做什么,不能做什么,以及如何将它连接到拼图的其他部分以创建AGI。我相信也仍然缺少我们尚未发现的拼图部分。

话虽如此,我必须承认,有一些研究人员已经花了几个月时间研究GPT-4,这是微软研究院的一个小组,一个非常杰出的团队,包括两位美国国家科学院院士。他们写了这篇名为《通用人工智能的火花》的论文,因此根据他们与系统的经验,他们认为这真的是导致AGI的不可阻挡过程的开始。我对此表示怀疑。

许多人已经观察到的一个现象是,ChatGPT或GPT-4是否在回答问题时参考了一个一致的世界内部模型,这一点并不清楚。事实上,我认为正确思考这些系统的方式是,它们并不回答问题。对于人类来说,大多数时候,回答问题意味着将问题指向我们努力保持更新和一致的世界内部模型。ChatGPT似乎并非如此。

让我给你一个简单的例子。哪个更大,大象还是猫?系统正确回答:大象比猫大。哪个不比另一个大,大象还是猫?大象和猫都不比另一个大。在短短两句话的空间里,它在一个你能想象到的最基本的事实上自相矛盾了。所以至少对于这个事实,它在看似回答问题时并没有参考一个内部世界模型。因此,人们不得不怀疑它是否在任何主题上都有内部世界模型。我们当然观察到,尽管其输入数据中有数百万的训练样本,但它对于算术、国际象棋等并没有一致的内部世界模型。

我认为这实际上是一个症状,即我们正试图从电路中获得高度智能的行为。而电路是一种相当受限的计算形式。

让我说明另一类系统,不是大型语言模型,而是深度强化学习系统。我们已经承认它非常成功。那就是围棋程序。众所周知,在2016年和2017年,围棋程序,特别是AlphaGo及其后继者,击败了最好的人类棋手。在过去的几年里,这些系统已经远远落后于人类。但我们安排了我们的一位研究人员Kyun Pellin(蒙特利尔的学生)与一个名为JBX CatA 005的程序(Cattergo的一个版本,目前宇宙中评分最高的围棋棋手)之间的比赛。Kyun的评分是2300。Catatego的评分是5200。作为比较,评分最高的人类棋手是来自韩国的申真谞,他的评分是3876。所以你可以看到围棋程序是超人的。然而,这是一场业余人类棋手Kyun Pellin和Catatego之间的比赛。Kyun要让Catatego九子。我想你们大多是围棋棋手,所以我不需要解释让对手九子基本上就是把对手当作小孩子对待。

让我们看看这场比赛。记住,Catatego执黑,Kyun Pellin执白。注意棋盘的右下角区域。注意Kyun建立了一个小群,然后Catatego迅速包围了那个群。然后Kyun开始包围Catatego的群。所以它形成了一种循环三明治。Catatego似乎对此毫不在意,它只是允许Kyun Pellin继续包围这个群,没有尝试救援这些棋子,即使它有很多很多机会,然后它失去了所有棋子。所以我们看到,一个普通的业余人类棋手可以击败超人的围棋程序。不仅仅是Catatego,事实上,所有领先的程序都可以被一个普通的人类棋手击败。似乎事实上,围棋程序没有学会围棋的基本概念,这些概念包括“群”的概念和“死活”的概念。它根本没有正确表示和理解这些概念,因为电路无法正确表示这些概念,它只能表示一个有限的近似,这个近似必须为数百万个特殊案例学习,而不是可以很容易地用具有表达能力的编程语言表示的简单逻辑定义。

所以我认为,实际上发生的是,电路在计算其输出时,时间与电路大小成线性关系,这基本上意味着所有Transformer模型都具有此属性。循环神经网络可以进行额外的计算,但Transformer模型是线性时间计算设备。当它们试图学习一个复杂函数,特别是表示一个计算上难以做出的决策(例如,一个NP难决策)的函数时,那么该函数的表示将呈指数级大,这意味着它将需要指数级的训练数据来学习一个在程序形式中具有相当简单定义的东西。这是这些技术方法的根本弱点,我们一直在通过使用比人类实现相同认知能力所需多数百万倍的训练数据来补偿这种弱点。

因此,我相信,我们实际上将看到AI的下一步将是回归到基于知识的显式表达表示的技术,我认为这种技术的一个例子是概率编程,可能还有其他技术。我们在伯克利正在进行一项基础研究工作,试图证明事实上,如果你不这样做,你将需要比使用更具表达性语言的系统所需多得多的训练数据。

让我给你一个人类能做什么的例子,我想让你思考如何让深度学习系统或大型语言模型做到这一点。这里有两个在宇宙另一端的黑洞,它们相互旋转,并以引力波的形式释放能量。它们释放的能量是宇宙中所有恒星输出总和的50倍。数十亿年后,这些引力波到达地球,并被这个设备——大型激光干涉引力波天文台(LIGO)探测到。它探测到那些引力波。利用数千年的物理学研究和材料科学研究成果,极其复杂的设备、激光、镜子、电子设备,这个设备的灵敏度足以测量地球和半人马座阿尔法星(距离4.5光年)之间距离的变化,如果你改变那个距离一根人类头发的宽度,这个系统就能测量到那个变化。这就是它的灵敏度。它正确地探测到了这次黑洞碰撞,物理学家正确地预测了来自这种碰撞的引力波的形状,他们甚至能够通过观察波的形状来测量相互碰撞的两个黑洞的质量。这是人类思维的一项惊人成就。如果你从事深度学习工作,我想让你思考你的深度学习系统将如何成功地创建这个设备并进行这些预测和测量。

让我们假设,事实上,我们确实解决了AI中的这些开放问题,并且我们确实创造了通用人工智能。接下来呢?嗯,艾伦·图灵问过这个问题:如果我们成功了会怎样?艾伦·图灵,如你所知,是计算机科学的奠基人,他在1951年做了一次演讲,我相信有人问他:如果我们成功了会怎样?他是这样说的:“似乎可以想象,一旦机器思维方法开始,它不会花很长时间就超越我们微弱的力量。因此,在某个阶段,我们应该预期机器会接管控制权。”

让我以不那么悲观的形式重述一下。至少让我把它变成一个问题:我们如何永远保留对比我们更强大的实体的控制权?这是我们面临的问题。如果我们找不到这个问题的答案,那么,我看不到除了真正停止开发通用人工智能之外的任何替代方案。

要回答这个问题,我相信有一个答案。我们需要看看随着我们让AI系统变得更好,出了什么问题,为什么事情会变得更糟。我相信答案实际上是未对齐。我们构建的AI系统正在追求目标,如果这些目标与人类的目标没有完美对齐,那么我们就是在制造冲突。而冲突会以有利于机器的方式解决。

让我给你一个已经发生的简单例子。社交媒体算法,所谓的推荐系统,选择地球上数十亿人每天阅读和观看的内容。这些算法旨在最大化一个目标,通常这个目标可能是我们所说的点击率(每个用户产生的总点击次数)或用户与平台的互动量。你可能会想,好吧,为了让用户点击东西或与平台互动,系统必须学习人们想要什么,这是

AI开源论坛 - P1 - 智源社区 - BV1jo4y1K74N

课程概述 📚

在本节课中,我们将学习2023北京智源大会AI开源论坛的核心内容。课程将涵盖AI与数据开源的重要性、大模型开源生态的现状与挑战、以及各类开源工具与框架的介绍。我们将深入探讨开源如何成为推动AI技术进步和产业协同的关键力量。


第一部分:开场与基金会介绍

大家好,欢迎大家来到2023北京智源大会AI开源论坛。

我是主持人杨轩,来自LF AI & Data基金会亚太区。

LF AI & Data基金会是全球最大的开源非盈利组织Linux基金会旗下,专注于人工智能领域的子基金会。同时,LF AI & Data也是全球最大的AI领域开源社区。

现今,AI开源已经成为人类超大规模智力协同的最佳组织方式。可以说,没有开源,就不会有今天AI的成就。现在,AI已经成为人类开源创新的主战场。

今天我们有幸请到了非常多的AI领域专家,一起探讨从AI与数据的开源到大模型的机遇与挑战。我们希望这次大会能够对大家未来的工作或事业发展有所帮助。

另外,我们也呼吁更多的朋友能够加入到AI开源社区的行列。在LF AI & Data这边,我们有大概40到50个开源项目,这些都欢迎大家去使用和参与。


第二部分:主题演讲 - AI与数据开源挑战与机遇

接下来有请我们今天的第一位嘉宾,LF AI & Data基金会董事会主席杜俊平老师,为我们带来主题演讲《AI与数据开源挑战与机遇》。

感谢主办方智源研究院和林老师的邀请。今天给大家介绍一些关于AI和数据领域开源的一些挑战和机会。

首先介绍一下LF AI & Data基金会。LF AI & Data基金会是一个开源的软件基金会,它是一个非盈利组织,托管了在AI和数据领域全球最重要的一些开源项目。

当前基金会里,全球大概有50个左右的会员,包括国内大家熟悉的一些大企业,甚至包括智源研究机构也在里面。同时,我们全球托管了大概有46个关键的技术项目,有超过接近2万名的开发者,为我们的AI和数据类开源项目在持续贡献。

这张图能看到LF AI & Data作为一个大的基金会社区,它的开发者规模和技术在过去5年飞速发展,成长了大概5倍,530%的成长。一方面反映了当前在AI领域的开发趋势,就是更多的开发者、更多的开源公司投入到AI领域,也涌现到开源领域。同时,我们也希望借着这样一个平台,能够更好的拓展,让技术更好的发展。

这里面的关键项目包括一些深度学习框架,包括像ONNX这样的框架之间的翻译平台,包括像Horovod这种分布式的学习框架,甚至包括智源研究院的FlagAI也在这个里面。这些顶级的组织就是大家耳熟能详的,像亚马逊、微软、Meta等等,像国内的华为、百度、阿里,都在我们的组织里面,或者是会员,或者是托管了一些关键的项目。

我们的基金会运作主要是分层治理的架构。有Governing Board负责整个基金会层面的治理。另外我们有Technical Advisory Committee(TAC),它专注在技术层面的治理,包括我们整个开源社区这些项目,它的生命周期从Sandbox到Incubate到Graduate,是一整套毕业的演进流程。

我们通常认为Sandbox阶段是项目的一个早期阶段。在这个阶段里,更多的我们会关注他的开发者生态,更多的开源开发者能够加入到项目当中。到了Incubate阶段,就是更多的开始拓展自己的用户,它已经有足够完整的功能能够适应在一些场景之上。然后再往前走,它就是一个Graduate的状态,就是它的功能比较完善,生态比较丰富,用户也积累的比较丰富,它可以进行一些规模化的落地。这就是它完整的开源项目的生命周期。

回到我们今天的正题,我们在看看当前我们所属的时代。实际上当前我们的时代,不管是工业界还是学术界,大家的认知都是一致的。我们认为这是属于AI的技术爆炸的起点时刻,我们在通向通用人工智能的关键时刻。

现在的一个流行词就是从前几年的Machine Learning、Deep Learning、AI Framework,慢慢的现在更多的大家听到的都是Transformer、Attention、AIGC、LLM、Large Language Model这些词。其实这些都看到这两年每隔一年或者两年,它的焦点都不一样。尤其是当去年底ChatGPT出来之后,其实上引爆了一个核弹,快速的让AI的生态能够蓬勃的发展。

实际上业界把这些模型,就现在我们看现在应该是一个模型飞速发展的时代。业界把这些模型从小模型到中模型,中等的模型,大型的模型跟超大的模型,每一个模型的它能干的事情也看的比较清楚。一些小模型可以做一些简单的阅读理解,包括Debugging的工作。中型到大型的模型,类似于GPT-3、GPT-3.5之类的,它可以做一些GRE层次的阅读理解,甚至包括一些对于类比、比喻,还有一些逻辑的推导、代码的生成。我们在GitHub上的Copilot,很大程度上提高了我们在开发、生成文档、写代码开发的效率。

未来我们看到随着我们的模型会越来越发展,可能会有些进一步的功能会被开发出来,包括它有一些初步的更更强的自我意识,或者更复杂的一些工作,甚至是一些辩论它都可以去做。这就是我们这个时代的进程,它是一个飞速发展的过程。

实际上去年两周前我们看到Databricks发了一个报告,在2023年的State of Data + AI,有一些有趣的数据。比如说AIGC,就是ChatGPT发布以来的几个月,实际上大家用API的模式,或者是模型工具链的模式会成为主流。在这之前大家都是每家公司自己可能训一些,或者是依赖于一些开源的开放的一些模型。那么在这之后,可能直接我们就开始用API去访问这些模型。这短短的半年时间,从去年底到今年的5月份,这种直接对于API层次的访问量提升了13倍。

同时,现在在NLP领域,在整个Python的Data Science领域,它占的比例已经大概占到了50%左右,就非常的流行,也占用大量的机器学习和科学计算的任务。同时,还有一个有趣的现象,就是企业对于模型的重要性也是越来越有更强的认知。在过去的一年当中,模型上线的在生产中上线的模型,实际上翻了400%。甚至包括在这个过程中,大家使用模型的成熟度也提高了。与一年之前相比,大概是每5个在测试阶段的模型,最后变成一个生产模型。那么现在这个比例是3比1,就是每三个处于测试阶段的模型,就有一个进入生产。实际上这种比例的变化也意味着我们在AI推理或整个行业的应用当中慢慢的走向成熟。

一方面我们认为这个大模型的生态是发展欣欣向荣,但是从另外一个层面,我们看到冰山下的部分永远是数据。某种程度而言,模型只是数据的一个转化品或者衍生品,它是数据在某一个切面上的一个投影,或者是一种折叠,或者是一种压缩。所以一个高质量的数据集,实际上是可以训练出不同的维度的多个高价值的模型的。

作为冰山之下的部分,数据的重要性就是大家一直在强调,一直在提,但是始终大家都觉得这块可能有很多各种各样的挑战。今天我们待会儿也会去更多的讨论一下有哪些挑战。

第一个就是从模型训练的角度来说,数据从来就没有够过。这个“够”体现在一个是质量,一个是数量,我们需要更高的质量,然后更多的数据等等。不管在整个模型的产生、诞生,从训练阶段到后面的调优阶段,到后面的推理,到生成之后的Prompt Engineering,其实它都离不开不断对它进行数据的投喂。所以就是如果我们说大模型就像一个贪吃蛇或者一个贪吃的怪兽,那么就是它一直吃不饱,始终是需要更多的数据和更高质量的数据。

同时很多的企业初步已经感受到模型的威力之后,下一步就是说如何能够更好的提升我的模型的能力和质量,也是在数据这块层面做很多工作,就是所谓的Data-Centric的工作。

实际上当前这些数据来源无非就是三个来源。第一个来源就是自己去收集一些数据,去爬取一些数据。第二个就是从第三方去购买,或者是获得一些数据。第三个就是通过Publicly Available的方式,找一些公开的数据集,类似于Hugging Face,在这之上去获得一些。

但是这三个层面上,多多少少还都是有一些挑战的。第一个从主动收集领域,其实很多我们发现现在的数据很多公司还是在公司内部,属于私域之中,很难从外部去获得,而且是以一种合规合法的方式去获得,是比较难的。另外一个层面上讲,对于这种第三方的购买或者交易的数据,实际上也是有很多挑战。因为数据的定价如何定义?数据如何定义它的质量,或者它对外部的公司、外部的企业能够真正产生益处?所以有很多的数据交易市场,国内我们也有一些,海外的也有一些,在云甚至在一些云服务厂商,包括数据的Production或者数据的SaaS Service上都有相应的Market。但是目前来看它的交易量和规模其实还没有达到理想的状态和要求。

第三个实际上是在公有领域,就是Publicly Available的数据。实际上我们现在看到很大量的数据集还不是一种完全开源的状态,它可能还是在商用方面有很多的限制,就你可能做研究可以,但是你不允许相应分发,或者是当你训练完了之后,你的预训练模型,或者将来的AI模型的产品,不允许有各种各样的限制。实际上这也使得我们的可用的商业可用的这些数据集都是很有局限的。我认为这是一个很重要的挑战,在三种渠道上各有各自的挑战需要去做。

另外还有就是看到数据的Quality还是Quantity,大家会有很多不同的要求和纠结。现在基本上达成大家达成一个共识,就是Quality over Quantity,就是数据的质量可能优于它的数量。因为其实质量它决定了模型是否精确,是否是相关,是否会不会有一些Bias,会不会有一些不公平等等。但是Quantity它实际上也是有用的,包括你大量的数据训练出来的模型,它会有更强的泛化能力,包括它有更强的鲁棒能力,它不会说过度依赖某一部分的数据,然后同时它看到一些没有见过的场景的Case,它能够很好的处理。所以Quantity和Quality经常也是企业会去纠结的。

我们认为未来的方式就是可能在保证数据质量的情况下,我们更高的更多的获取数据。然后同时用一些,比如说现在当前是用人工的方式去打一些标签,或者是做一些相应的工作,未来可能会更多的自动化的标签,或者有相应的开发出相应的模型,自动的会给我们的数据贴上各种各样的标签,可以更好的训练我们的模型。

同时在数据集的治理层面,其实有很多问题。元数据的治理一直在业界就是一个问题。包括我们看到很多企业内部,大的公司内部,不同的团队其实互相之间因为一些沟通的问题,或者是部门墙的一些问题,其实没有办法很好的共享数据,哪怕这些数据在公司内共享是很有价值的。第一个难点就卡在数据元数据的发现,就是我们能不能有一套元数据的标准,很好的定义不同的数据集在做什么事。

我们其实看到比如说以Hugging Face为例,都同样是文本数据,IMDB的数据集和Wikipedia还是有些差别。那么对于我们普通大众来说,他的认知还好,还是能够理解,但是一旦这是牵扯到企业不同的业务,它的业务逻辑在里面的时候,互相之间就很难去达成一个一致。所以在这个层面上数据集的元数据是需要一个标准。我觉得在这个领域,其实LF AI & Data基金会可以做的更多,我们可以做更多的相应的开源的标准的工作。

从另外一个层面,其实从治理的层面,实际上当前很多时候在强调Data Governance。这种Data Governance设施包括一些元数据,包括一些数据的血缘。但实际上在当前来看,除了数据这块需要治理,其实在整个Machine Learning Pipeline上有很多更复杂的东西,包括我们从数据的预处理之后,会涉及到特征工程,在后面的Model Training,包括Management、Serving,到后面现在还有Prompt Engineering。所以这里面有很多大量的东西,你有很多从数据集到Feature的映射,从Feature到Model映射,Model到后面的一些Prompt的映射,这个形成了很多这种网状的关系。但当前现在是没有一个很好的治理的产品或者治理的框架来去完善。我们认为这个是市场上急需的一些方向。

刚才说到的这些挑战,其实还有一个很关键的,就是在于我们看到更多的挑战其实还来自于数据的全球的分布,然后多区域多云造成的新数据孤岛的问题。我们看到现在很多致力于开展国际化业务的公司,其实面临着越来越严苛的一些数据的监管。那么怎么样去兼顾以合规的前提,就是兼顾监管的要求,但同时从全局的角度,从业务的角度,他需要一个全局的视角,全局的视图能看到不同的地域它的业务策略和数据驱动的这些策略。其实这里面其实有一个很强的Gap。这样的话,如何统一去做数据的分析、治理、训练、推理,就是在当前越来越成为各个大公司或者是有国际化业务、有合规业务的公司的一个很大的难点。

近年来其实像如果我们关注像Berkeley,他们也提出了Sky Computing一个云联邦的架构,某种程度上在IaaS层面缓解了多云带来的这种复杂性和性能问题。但是要彻底解决这样一个多云造成的数据割裂、数据孤岛的问题,或者模型的孤岛问题,其实还需要更颠覆性的产品和技术出来。

但是虽然这里面讲了很多的问题,就是很多挑战,但我觉得这里面其实更意味着更多的机会。很多这些机会很多这些问题之前是隐藏在水下,那么现在随着这一波大语言模型的蓬勃发展,实际上我们有更多的可能性。我们的问题更多了,但是同时我们的手段、我们的能力,包括我们的聚焦的资源也很多了。现在有很多聪明的工程师,包括很多的资源都快速涌向AI这个领域和数据这个领域。我对未来我们快速这个领域快速的发展充满了信心。

我们现在正在做的我的一个初创的公司,也在以开源的方式来解决AI和数据开源碰到的各种各样问题。用开源的方式解决AI和数据领域的这些最尖端的痛点问题,一直是我的理想,也是我的公司未来的一个愿景。也希望更多的小伙伴可以跟我们一起在这个领域探索,创造一些伟大的技术,创造伟大的产品。谢谢大家。


第三部分:智源FlagOpen大模型技术开源体系

感谢杜老师的精彩分享。接下来有请智源研究院副院长兼总工程师林咏华老师,智源研究院自然语言多模态生成组负责人刘广老师,带来主题分享《智源FlagOpen大模型技术开源体系,开启大模型时代新Linux生态建设》。

谢谢。这个Session由我还有我同事刘广等会会把他请上来。首先我还是想借今天的机会感谢杜俊平老师,感谢LF AI & Data基金会对我们智源大会的支持,以及组织了这么好的一个AI开源的论坛。我看到后面大家都已经站满了,包括坐在楼梯上的小伙伴们。前面其实还有座位,大家可以坐。

开源很重要,包括在这一次智源我们发布大模型,其实我们很重要很重要的一个Keyword就是开源。所以为什么说AI开源论坛也是这次历届智源大会都是很重要的一个话题。今天说了太多了。

我发现用的这个图跟杜老师的图一样,但的确就是说看到了,实际上虽然现在从去年下半年到现在很火热的,例如像AIGC文生图,例如像GPT,大家其实看到的冰山上的部分,但水面之下大家看到的不一样。从智源来看,这个数据当然是很重要一部分,还有很重要的是它整个冰山水面下的技术栈。这里头的技术栈包括了各个重要的基础模型,包括语言、视觉、图文、文生图等等,也包括了我们这些数据集以及做数据集很多的重要的工具,还有大模型的评测的方法。另外还有就是支撑整个大模型高效训练的AI的系统技术。这里头也是很多,包括框架的并行优化、平台的调度、算子优化,甚至AI异构芯片技术。这也是为什么我们其实是说AI系统就是今天上午我们特别也是有一个专门的论坛去讨论。

对智源本身来说,正因为看到这个水面之下最重要的这个技术栈,所以这是我们的定位。就是说我们需要帮助整个产业、科研把这个技术栈整个打造出来。这里头就包括我们的一系列的基础大模型,从昨天早上我们的整个全体会议的时候,Announce的我们开源出来的几个大的包括语言、视觉、跨模态的大模型,也包括我们自己的数据集工具、AI基础大模型评测,这是等一下下一个Session介绍这个由我们杨希杨博士介绍FlagEval去介绍。然后还有我们的整个九鼎的智算平台。

首先我也想趁今天这个机会来说一下为什么我们智源要走大模型开源开放的道路。其实很简单就是说两个原因。第一个是说推动整个社会资源的合理使用,包括数据和算力。其实基础模型,如果我们这个基础模型不是一个行业性,而是一个通用性的话,其实它去构造这个基础模型所使用的东西是很类似的,都是需要我们有一定比例的互联网数据加高质量的数据,也需要海量的算力。所以其实大家是想就是说如果基础模型,尤其是通用性的基础模型没有开源出来,也进一步没有能够是以商用的版本开源出来,那势必只能够逼的各家企业自己去重复性的去造这个轮子。而这个轮子很高昂,很昂贵。我在昨天我们新发布的天鹰大模型的时候,我第一页就是说为什么我们认为基础大模型就像AI中造一个CPU,第一个原因就是它贵呀。贵是贵成什么样?在智源就是至少是小几千万到大几千万这样的一个量级。而另外一个就是说哪怕是金钱不是问题,但算力以及推动算力运载算力背后的能源也是很重要一个问题。要知道,大家要知道说现在我们实际上付给去租用GPU服务器,哪怕是英伟达这样子的,它在能耗比上面已经算是做的很不错的,其实我们很多很重要的一部分钱就是付给了电费。所以没有必要真的没有必要重复大家去造这个轮子,而这个轮子都是通用性的,何不就是有人能够把这个东西开源出来,并且它是商业可用。但当然重要一个是可以保证这个版本可以持续的往前迭代。

那第二个很重要的是,这个基础大模型今天它已经不是只是个理解,它是一个能力的生成,并且它是一个认知对外输出、价值观对外输出的东西。那因此它对社会可能带来的影响是巨大的。那因此我们在训练这些基础模型的时候,所使用的预训练的数据也是相当的考究。那这个可能大家也能留意是说,前阵子国家网信办也有一个征求意见稿出来,其实有很大一部分也是在探讨数据的安全的问题。

其实智源我们最近也对持续的关注ChatGPT,我们在今年1月份到5月份全球开源的这些通用的语言大模型的统计。这里头是有一些数字,未必完全准确。总数国外开源的语言大模型一共有39个,其中可以商用,并且并不是使用Copy Left的协议的大模型有16个。为什么这两个东西很重要?因为我们来看科研是一个问题,但现在最重要是怎么推动AI产业落地。产业落地必须我们要符合产业的游戏规则。而产业的游戏规则是说你要用的东西必须是带有可商用的版本。非商用版本其实是对企业未来的发展,它的使用是有风险的。另外一个Copy Left的协议,因为在座都是对开源可能就已经从事很多年,就知道例如像类似GPL这种类似的License的话,现在我们也看到有一些模型开源也用了类似这种Copy Left的协议。那种协议它定义了是说只要在这个模型上面Further的Continuing Training的模型,以及它的微调的模型都必须开源。那这个实际上对于很多企业的商业利益的保护是很有弊端的。这也是为什么其实咱们看整个开源界,它使用的版本也是越来越多的开源的代码使用像Apache、MIT、BSD这种不是Copy Left的。所以这是一个。

另外咱们回归到看咱们国内开源的发布了发布的大语言大模型有28个,开源的数量只有11个。那其中我们同样也是去看它这个开源可商用的版本的模型,目前只有一个就是百里的一个小的一个基于B的指定微调的对话模型。所以这里头可见是说,为什么这一次智源我们在发布我们的天鹰大模型的时候,直接很干脆的使用可商用的License,以避免企业的一个顾虑。

智源我们这一次开源的整个就是我们的大模型栈,但实际上最重要的是底层的基础的大模型。在这里头我就不多花时间。开源开放,使得我们可以站在前人的基础上去前行。那因此这是为什么智源刚才说我们打造的是冰山水面以下,这些对于咱们构造大模型应用很重要的技术的部分。而我们实际上在今年的2月28号就全面开源发布出来。这里头包括了最核心的FlagAI大模型算法开源项目,这里头会包含我们智源最新发布的天鹰大模型也是放在这个里头去进行发布。这个等会刘广博士会给大家介绍。哦,by the way我要强调这个大模型算法开源项目,我们去年6月份正式第一个开源出来的时候,就第一时间给Linux基金会内到AI and Data,这是因为我们希望是以这样一个决心

AI系统论坛 - P1 - 智源社区 - BV1eV4y117xF 内容整理与教程

📘 课程概述:大模型时代的AI系统挑战与编译器技术

在本节课中,我们将探讨大模型时代下AI系统面临的核心挑战,特别是编译器技术在连接上层算法与底层硬件、提升性能与可移植性方面的重要作用。我们将从多个专家的分享中,梳理出关键问题、技术趋势与实践方案。


🎤 开场致辞与背景介绍

大模型时代已经到来,AI系统需要高效支撑大规模模型的训练。这主要涉及两个关键方面:高性能并行优化多样化的芯片架构支持。在算法与芯片之间,AI编译器 扮演着至关重要的桥梁角色。

为了深入探讨这些议题,本次论坛邀请了来自学术界与工业界的多位专家,他们将分享在深度学习框架、编译器、分布式系统及硬件加速等方面的前沿见解与实践。


🔧 第一部分:AI编译器的角色、挑战与未来

上一节我们介绍了课程的整体背景,本节中我们来看看AI编译器的具体角色与当前面临的挑战。

编译器的作用与现状

在追求极致性能时,我们需要从底层指令、向量化、缓存优化等硬件特定优化入手。编译器的作用是将特定领域(如机器学习)的高级抽象,高效地翻译成能在特定硬件上运行的底层代码。

当前AI编译的典型流程如下:

  1. 高层语言:如PyTorch或JAX中的领域特定语言。
  2. 图分析与高层变换:如自动微分、不同形式的并行化。
  3. 张量编译器:将计算图转换为在CPU、GPU等硬件上运行的高效代码。

然而,现实并非如此理想。在许多硬件上(如NVIDIA GPU),大部分优化工作是由手工优化的库(如cuDNN)完成的。编译器通常被视为一个“附加项”,如果能带来更好的默认性能固然好,但并非必需。

当前编译技术面临的核心问题

以下是当前AI编译技术面临的主要挑战:

  • 实现困难:手动实现高性能神经网络层需要深厚的HPC和硬件知识,且代码复用性差。
  • 优化层级过高:现有编译器优化多集中在高层图变换(如自动微分),而真正决定性能的低层代码生成(如算子融合、循环优化)仍需依赖库或底层编译器。
  • 静态形状限制:许多编译器优化针对固定的张量形状,而实际库需要支持所有可能的形状,这之间存在差距。
  • 缺乏精准代价模型:对于硬件特定的优化,缺乏分析性能的代价模型,通常只能依靠机器本身去学习什么优化策略是有效的。

技术演进方向:调度语言与自动化

为了解决上述问题,一个重要方向是发展调度语言自动化调度

  • 调度语言:允许性能工程师以可控的方式干预编译器的代码生成过程,而无需重写底层代码(如CUDA或Triton代码)。这提供了在复用编译器逻辑和获得峰值性能之间的平衡。
  • 自动化调度:在调度语言的基础上,利用机器学习技术自动搜索给定硬件和计算形状下的最优调度策略。

一个研究案例表明,通过设计更专用、压缩的调度语言,可以比通用调度器(如TVM的Ansor)快10倍以上收敛到最优解。

未来展望:Tile级操作与MLIR框架

我们提出了两个未来发展方向:

  1. Tile级操作库:在完全编译(针对Tile级计算)和动态分发(针对完整操作)之间建立边界。自动为特定领域和硬件合成Tile级操作库,在代码大小和专业化之间取得平衡。
  2. 利用MLIR构建可扩展编译器:MLIR框架设计用于可扩展性,是构建编译器流程和桥接不同框架的理想基础。其“变换方言”允许以可扩展的方式构建自定义调度语言和自动调优逻辑。

总结:AI编译器的道路依然漫长,需要将更多机器学习技术融入编译器本身,并加强学界与工业界的协作。


⚙️ 第二部分:PyTorch 2.0——将编译器置于核心

上一节我们探讨了通用AI编译器的挑战,本节我们聚焦于一个具体的框架编译器——PyTorch 2.0,看它如何平衡易用性与图模式性能。

PyTorch 演进:从易用性到高性能

PyTorch 1.0 因其易用性即时执行(eager mode) 体验而受到研究人员青睐,但这在性能上做出了妥协。PyTorch 2.0 的目标是引入图模式(graph mode) 以获得编译器优化的好处,同时不牺牲1.0的易用性。

其核心是提供了一个简单的API:torch.compile。用户只需添加一行代码,即可将模型(或部分)切换到图模式进行优化,编程模型依然是熟悉的即时执行模式。

关键技术突破:TorchDynamo

实现这一目标的关键技术是 TorchDynamo,它是一个“开箱即用”的PyTorch图捕获器。

  • 部分图捕获与图中断:不再强求捕获整个模型为一个图,当遇到无法编译的部分(如数据相关控制流、C扩展)时,会安全地“中断”并回退到即时执行。
  • 守卫机制:为捕获的图添加“守卫”,记录其有效的条件(如张量形状)。运行时检查这些条件,若不满足则即时重新捕获新图。
  • 无缝集成:整个过程对用户透明,就像即时编译器一样工作。

TorchDynamo在超过14,000个GitHub PyTorch模型上测试,捕获成功率超过99%,并且即使生成部分图,其规模也足以让后端编译器进行有效的优化(如算子融合)。

PyTorch原生编译器:TorchInductor

TorchDynamo负责捕获图,而性能提升的“魔法”来自后端编译器。PyTorch 2.0 推出了原生训练编译器 TorchInductor

TorchInductor的设计特点:

  • Python编写:提升开发迭代速度,更易上手。
  • 通用优先:设计之初就考虑处理长尾应用,以支持真实模型。
  • PyTorch原生IR设计:其中间表示专为PyTorch语义设计,这是其能有效处理PyTorch复杂操作(如原地更新)的关键。
  • 复用成熟组件:其GPU代码生成器基于Triton,快速构建了可用的最小化产品。

PyTorch 2.0 的生态定位

PyTorch 2.0 的编译栈定位为机器学习框架编译器。其核心价值在于:

  • 为硬件厂商赋能:让厂商能轻松地将PyTorch模型适配到其硬件上,而无需担心复杂的图捕获问题。
  • 提供多层次集成点:硬件厂商可以像TorchInductor一样作为同级后端集成,也可以在TorchInductor之下集成(如Intel CPU后端),甚至可以集成到Triton层。集成点越低,复用PyTorch的工作就越多。

总结:PyTorch 2.0 通过 torch.compile API、TorchDynamo 和 TorchInductor 的协同,成功地将图模式性能与即时执行的易用性结合起来,并通过开放的集成架构推动整个AI硬件生态的发展。


🚀 第三部分:优化PyTorch以支持生成式AI

上一节我们了解了PyTorch 2.0的整体编译架构,本节我们深入看看它如何针对生成式AI的核心组件——Transformer模型进行专项优化。

生成式AI的模型与需求

当前主流的生成式AI模型(如大语言模型、扩散模型)大多是基于注意力机制的Transformer模型。它们规模巨大,对训练和推理的速度与效率有极高要求。此外,模型规模也催生了分布式计算的需求。

PyTorch 2.0 通过三方面来满足这些需求:

  1. torch.compile:加速各种模型。
  2. 加速的Transformer API:优化Transformer核心计算。
  3. PyTorch Distributed:支持数据并行及完全分片数据并行训练。

加速Transformer API:从灵活到高效

PyTorch原生的Transformer API设计优先考虑灵活性和易用性,但这可能导致性能损失。一个标准的Transformer实现由许多细粒度的PyTorch算子顺序执行组成。

优化手段主要包括:

  • 算子融合:将多个操作(如矩阵乘、Softmax)合并到单个内核中,避免实例化大型中间张量,减少内存访问瓶颈。
  • 推理快速路径:捕获常见的推理模式,并使用针对可变输入序列长度优化的内核。

集成前沿注意力优化技术

近年来,注意力计算优化取得显著进展:

  • Flash Attention:通过分块计算和IO感知算法,在减少内存占用(从O(n²)到O(n))的同时实现精确注意力,显著提速。
  • xFormers:提供一组内存高效且快速的注意力计算组件,在研究中被广泛使用。

PyTorch 2.0 迅速集成了这些先进技术,引入了新的 scaled_dot_product_attention (SDPA) 算子。该算子是一个具有多后端实现的调度器,会根据输入形状、数据类型和硬件平台,自动分派到最优的实现(如Flash Attention内核、内存高效内核或回退的数学实现)。

实践效果与总结

通过启用 torch.compile 和切换到SDPA算子,在NanoGPT等模型上获得了显著的训练加速(约2倍)和内存节省。同时,通过支持嵌套张量以处理可变长度序列,在BERT类模型上实现了高达4倍的推理加速。

总结:PyTorch 2.0 通过集成Flash Attention、xFormers等优化,并抽象出SDPA接口,为Transformer模型提供了显著的开箱即用的训练和推理加速,同时保持了模型的抽象性和可移植性。


🌐 第四部分:Ray——面向大规模机器学习工作流的分布式计算框架

上一节我们讨论了单框架内的性能优化,本节我们将视野扩展到分布式计算框架,看看Ray如何支持从数据预处理到模型服务的大规模机器学习工作流。

Ray简介与生态

Ray是一个开源的分布式计算框架,其最初是为了解决强化学习中模拟环境瓶颈问题而设计的。如今已发展成一个完整的机器学习生态系统。

Ray的核心架构:

  • Ray Core:抽象底层计算集群,提供基于Actor模型的简单分布式编程范式。
  • 上层库:基于Core构建,包括 Ray Train(分布式训练)、Ray Tune(超参调优)、Ray Serve(模型服务)、Ray Data(数据 ingest 与处理)等,覆盖MLOps全流程。

应对常见痛点:数据、推理、训练与服务

以下是Ray各库针对的常见痛点:

  • Ray Data:分布式数据摄取与处理

    • 问题:数据预处理常受限于CPU,且需要处理异构集群和超大数据集。
    • 解决方案:Ray Data提供资源感知的分布式数据转换,能智能调度任务到合适的节点(CPU/GPU),并默认采用流式执行,避免内存溢出。
  • Ray Data:批量推理

    • 问题:对海量数据运行训练好的模型进行推理,同样面临数据加载和模型运行的异构性问题。
    • 解决方案:Ray Data将批量推理视为一种特殊的数据处理任务,通过优化任务融合和数据序列化开销,相比Spark等框架能获得数倍性能提升。

  • Ray Train:分布式训练

    • 问题:训练框架碎片化,技术迭代快,用户不想被锁定。
    • 解决方案:Ray Train不与特定训练框架紧耦合,而是提供与PyTorch Lightning、DeepSpeed、Hugging Face Accelerate等框架的集成,主要负责集群设置和环境管理,让用户能灵活选择底层框架。
  • Ray Serve:模型服务

    • 问题:生产服务需要自动扩缩容、高可用和模型组合(多模型流水线)。
    • 解决方案:基于Actor模型,Ray Serve易于实现高可用部署和复杂的模型组合图。近期还增强了对大模型流式输出和可扩展性的支持。

Ray与大模型

Ray与大型语言模型的交互是多层次的:

  1. 单节点多卡:提供开箱即用的示例。
  2. 中等规模训练:通过Ray Train集成现有生态库进行训练。
  3. 大规模定制化训练:像OpenAI、Cohere这样的公司直接使用Ray Core来构建自己的训练栈,利用其提升开发迭代速度。

总结:Ray通过其灵活的、以Python为中心的分布式抽象,为机器学习工作流的各个环节提供了可扩展的解决方案,并因其在易用性和性能上的平衡,被许多公司用作内部的机器学习平台。


🛠️ 第五部分:智源AI编译器的探索与实践

上一节我们了解了通用的分布式框架,本节我们回归编译器主题,看看智源研究院在构建下一代AI编译器基础设施方面的思考与实践。

动机与目标

智源作为模型与算法研究机构,深入系统层支持出于以下考虑:

  1. 帮助国产AI芯片更顺畅地适配上层框架。
  2. 探索如何通过编译技术提升性能与易用性。

通过调研,发现当前AI编译器生态存在挑战:厂商对多框架适配、编译器泛化能力有较高诉求;现有框架自带编译器(如PyTorch+Triton)在易用性和性能上优秀,但在迁移性和扩展性上可能存在局限。

智源编译器的三大目标:

  1. 构建统一、中立的下一代AI编译器基础设施。
  2. 打造一个供研究和产品落地的开源平台。
  3. 切实帮助厂商适配大模型等应用。

技术路线与核心设计

整体设计遵循分层思想:

  1. 前端:通过TorchDynamo等机制捕获不同框架的计算图,统一到图级IR
  2. 中层优化:在硬件无关的图IR上进行变换,然后利用代价模型进行算子拆分/融合,再 lowering 到算子级IR
  3. 底层代码生成:在算子级IR上进行面向目标的优化和代码生成。

核心创新在于自主设计的轻量级、层次化中间表示 Basis IR。它采用类似MLIR的Region/Block结构,并将张量操作抽象为四大类:

  • View操作:仅涉及索引映射(如转置、广播)。
    • 公式view(X): Y[i,j,...] = X[f(i), g(j), ...]
  • Map操作:逐元素计算。
    • 公式map(X): Y[i] = op(X[i])
  • Reduce操作:降维计算。
    • 公式reduce(X): Y[...] = ⊕(X[i, j, ...]) over i,j
  • Join操作:类张量收缩操作(如矩阵乘)。
    • 公式join(A, B): C[i,k] = ⊕(A[i,j] ⊗ B[j,k]) over j

这种分类有助于更精确地表达计算和优化模式。

未来展望

智源编译器希望与现有开源编译器形成差异化:

  • 聚焦易用性与可靠性:在系统复杂度提升时,这两点的收益可能不亚于性能收益。
  • 保持轻量化与松耦合:不绑定特定框架或硬件生态。
  • 探索Rust开发:从长远可维护性和安全性考虑,探索使用Rust开发编译基础设施。
  • 强调生态合作:希望与厂商共同维护基础设施,与学术界合作探索前沿技术。

总结:智源编译器项目是一个中长期的探索,旨在通过创新的IR设计和开放的生态合作,为AI编译领域提供新的解决方案。


🧩 第六部分:国产算力与大模型训练的产业实践

前面几节我们主要关注软件栈,本节我们将视角转向硬件和产业,看看国产AI芯片厂商如何应对大模型训练的系统性挑战。

计算产业发展与AI芯片的必然性

从历史看,计算产业架构随应用需求而演进:PC时代(x86+Windows)、移动互联网时代(ARM+Android/iOS)。AI时代,由于非结构化数据(向量化)的爆发,传统CPU处理乏力,专精于此的AI芯片应运而生。大模型的“涌现”能力预示着模型规模将持续增长,对AI算力的需求呈指数级上升。

芯片公司的“三道窄门”

AI芯片公司产业化需跨越三道门槛:

  1. 量产:覆盖前期巨大投入,证明芯片成熟度。
  2. 生态:构建完整的软件栈(编译器、库、社区),让客户能用起来。
  3. 产品化:形成软硬一体的标品,降低部署成本,实现业务闭环。

昆仑芯的实践:算力底座与全栈优化

昆仑芯依托百度的AI全栈生态(芯片-框架-模型-应用),提出大模型解决方案:

  • 硬件层:提供从卡、服务器到集群的多种产品形态。
  • 软件层:提供大模型加速库,支持数据并行、模型并行、流水线并行、分组切片、参数分级存储等优化技术。
  • 生态合作:与智源研究院深度合作,支持FlagEval大模型评测平台,完成文心、CPM、EVA等系列模型的适配与性能验证。

产业终局展望:数字生命体

大模型正改变产业范式:从众多小模型解决分散问题,收敛到基于Transformer的大模型作为基座,再通过微调解决垂直领域问题。未来产业可能分层:

  • 底层:少数拥有雄厚算力的大公司训练基础大模型。
  • 中间层:高科技公司基于基座模型开发行业模型。
  • 应用层:大量创业公司基于大模型开发原生应用。

最终,海量的IoT设备、AI算力与大模型、具体场景相结合,可能催生出类似于“数字生命体”的产业终局形态。

总结:国产AI芯片厂商正在通过跨越量产、生态、产品化的门槛,并与研究机构、应用方深度合作,积极融入大模型产业生态,为国产算力支撑大模型发展提供实践路径。


🤖 第七部分:面向大模型的算子自动调优技术

本节我们深入编译器中的一个关键技术点——算子自动调优,看如何利用自动化方法提升高性能算子库的开发与运行效率。

背景与挑战

高性能算子库是连接算法与硬件的关键桥梁。当前主要依赖专家手工优化,开发周期长、难度大。算子自动调优与代码生成是提升效率的有效途径。

大模型时代为算子调优带来

课程名称:具身智能与强化学习论坛 - P1 - 智源社区 - BV1Jo4y1772U

📚 课程概述

在本节课中,我们将学习具身智能与强化学习的基本概念、核心挑战、前沿研究以及未来展望。课程内容基于北京智源大会的论坛讨论,涵盖了从理论到实践的多个方面,旨在帮助初学者理解这一领域的关键问题和发展方向。


🎤 论坛背景介绍

欢迎各位来到北京智源大会的具身智能与强化学习论坛。我是北京大学的助理教授王鹤。首先,我来介绍一下今天论坛的背景。

今天,在2023年智源大会上,我们畅谈具身智能与强化学习。实际上,我们看到最近一段时间,ChatGPT引爆了语言大模型,GPT-4引爆了多模态大模型。智能体和大模型的能力不断丰富,从能流畅地与人类交流,到理解图片中的世界并与文字进行交流。那么,我们再问下一步,大模型和智能体应该被赋予什么样的能力?

2023年对于具身智能来说是值得铭记的一年。谷歌发布了Palm-E,这是第一个具身多模态大模型,让我们看到了智能体从语言到图片,再到在物理世界中采取行动的能力。智能体能够在具有物理身体的机器人中,与世界进行智能交互。这是从模型层面的进展。

我们看到从谷歌出来的创业公司Everyday Robots,他们的移动机器人搭载了大模型,可以在谷歌的厨房里拿取东西,通过自然语言与人类沟通,并在大楼里进行垃圾回收。特斯拉的人形机器人也再次引爆了人们对具身智能和未来通用机器人的畅想。所以今天,我们欢聚一堂,探讨从今天的大模型到未来的通用人工智能体,具身智能与强化学习在其中将扮演什么样的角色。

今天,我们非常荣幸地请到了海内外顶尖的学者共聚一堂。有来自美国UCSD的助理教授苏浩老师,来自北京大学的助理教授卢宗清老师,来自清华大学的副教授孙亚楠老师,还有来自中科院计算所的研究员蒋树强老师。现在,我们快速进入下面的第一个报告。


🧠 报告一:为具身智能建模三维物理世界

欢迎来自UCSD的助理教授苏浩老师给我们带来第一个报告:Modeling the 3D Physical World for Embodied AI

苏浩老师是美国加州大学圣迭戈分校计算机科学与工程系的助理教授,现任UCSD具身智能实验室主任。他致力于建模、理解和与物理世界进行交互的算法研究。他在计算机视觉、图形学、机器学习和机器人领域的顶级会议和期刊上发表了多篇论文。苏浩在斯坦福大学和北京航空航天大学分别获得计算机与应用数学博士学位,曾获得美国计算机图形学会最佳博士论文提名。截至2023年,他的论文被引用近8万次。他也参与了一系列知名工作,如ImageNet,并主导了ShapeNet、PointNet等重要的三维深度学习关键性工作。近三年,他专注于以具身智能为核心的下一代人工智能体系的研发。

让我们以热烈的掌声欢迎苏老师给我们带来报告。

苏浩老师报告内容:

非常荣幸能够来到这个讲台上,跟大家齐聚一堂,亲身讨论这个问题。我的报告会用中文进行,但我主要的教学工作都是用英文进行的,所以当我用中文讲的时候,有时候可能不太准确或者不太流利,首先希望大家能够原谅。

我的题目是 Modeling the 3D Physical World for Embodied Intelligence。这里的一个关键词就是所谓的Embodied Intelligence,或者具身智能。具身智能到底是什么呢?这个词近年来开始变得很流行,但也许不是每一位老师和同学都清楚它的内涵。事实上,在整个研究界中,这个词的内涵也没有完全对齐。今天,我想跟大家分享一下我对所谓具身智能的定义的理解,以及我们组在这个问题上的一些前沿性工作。

为了更好讲解我自己对这个事的理解,我会首先说一下我自身的研究经历,帮助大家更容易地理解这个认知发展的进程。

具身智能最近被引进来,主要是为了跟传统的互联网智能进行一次区分。我也是在互联网智能时代进入了人工智能研究。2009年,我有幸作为主要贡献人参与了ImageNet的创建。2012年,见证了AlexNet在ImageNet上引爆了深度学习的时代。在图片理解的过程中,我开始认识到物体关系的重要性。物体的关系实际上是在三维的物理世界中的。所以,我对三维视觉产生了很大的兴趣。大约在2014年左右,开始考虑如何去铺垫三维视觉的工作。2015年左右,我们当时做了ShapeNet,后来又基于ShapeNet做了算法PointNet。

时间轴来到2017年左右,差不多是我的博士完成的时候,有一个点就非常值得思考。以当时的技术发展来看,对于人类定义的概念,靠足够的数据、足够多的算力、足够大的网络,看起来它的核心技术问题已经基本上清晰,技术方案也清晰了。是不是这样,人工智能或者计算机视觉这样的问题就要被解决了呢?在我开始当教授之后,就非常多的去思考这个问题。那么,答案可能不是这样的。

我们可以说,在互联网智能时代,最大的问题就是对于人类已经定义好的概念,如何去识别、如何去理解。但是我们想想这个例子:大家可能很多同学,尤其是男生都有踢足球的这样一种体会。当你踢足球的时候,你知道你可以让这个球在空中走出一个弧线来,比如香蕉球。怎么踢香蕉球呢?你要用脚的一个部分打球的一个位置。具体怎么操作,你能够通过看视频得到吗?你能偷偷读书得到吗?他们都会帮助你,但是你知道你必须要去球场上练习。所以这个例子就说明什么呢?像踢香蕉球这样的东西,手工标注训练数据会是非常非常的困难,甚至有可能是不可行的。对于相当多的所谓的智能认知,它必须在做中学。所谓感知、认知和行动,它们是密切相关的,而且构成一个闭环。像这样一种认知,在最近几年,在如何识别这个问题得到突破之后,就会变得越来越受大家的重视。其实这是一个很本质的问题,这就回到了人类认识的理性极限在哪里这样一个哲学级的层面上。

如果要往前追溯的话,可能可以追溯到笛卡尔。在认知科学界,60年代也有很多人去回顾它。我这里回顾一个在认知科学界曾经被提出来的所谓的具身假设:智能是智能体在智能体与环境的交互中涌现,是感觉运动行为的结果。所以在这种观点之下,没有交互、没有具身,我们的智能就没有办法跟这个物理世界真正的打交道。当然也可能可以稍微引申一点,像大模型里边的相当一部分幻觉问题,大家都知道这是重要问题。有一部分的这种错误,它可能必须要回到物理世界,通过验证、通过假设检验完成。具身智能一定是人工智能中不可或缺的一环。

所以在具身智能时代,核心的科学问题是什么呢?我认为是概念的涌现、表征的学习。但是,它的基础框架是在耦合感知、认知和行动这样一件的大框架下。因此我们可以说,具身智能的最终目标是构造像人一样聪明的、能够自主学习的这种机器人智能体。但是,它跟传统的机器人科学在方法论上可能是有些区别的。这个区别就在于它是数据中心的,关心的是如何从数据中得到概念的涌现和表征的学习。

从数据科学的角度来看,从具身智能中,数据有非常多有意义或者说值得我们思考的事情。

以下是具身智能数据的特点:

  1. 多模态学习:机器人通过看这个世界来了解这个世界,就有图像。如果它打算从互联网视频上学习,如果它打算从人类示范中学习,那么这里就有视频和音频。如果它接受人的指导,如果它需要描述任务,如果它需要对计划产生一种规划,那么需要有语言。交互是有力反馈的,那么这里它需要触觉反馈数据。最后,交互最终会变成某一种控制信号,因此它的输出必然是一种控制信号序列。所以具身智能必是一个多模态的设置,同时也就涉及到本质上来说各种各样的神经网络的架构,来处理矩阵、集合、图、序列等等。

  1. 数据的获得:从互联网智能到具身智能,这里也是个巨大的变化。互联网智能时代,总体的模式就是人类制作数据集,人类做标注,算法建立映射。而到具身智能时代,一个机器人应该能够自主的去学习,应该能够主动的跟环境交互中来收集数据。数据收集人不只是人,更是机器人自身。它必须能够通过历史来学习。这就涉及到了决策论中的一个很本质的一对矛盾:探索和利用

  2. 数据的处理:当数据被收集到之后,应该怎样被处理?数据从感知端流动到决策端,中间会经过一次对世界的建模。所以这里就产生了任务驱动的表征学习。比如除了我们要知道它叫什么以外,对物体的功能的一种理解。比如对于我们从来没有见过的物体,通过交互需要新的概念,包括物体的概念、材质的概念或者部分的概念等等,功能的概念。这些涌现现象怎么解决?这都是新的科学问题。

  1. 性能评估:对于具身智能体的性能评估也是一个困难。它也面临很多问题。如果你是从计算机视觉来的话,这里边有些问题你过去可能并不太关心。比如如果要机器人整理一个混乱的屋子,它要能够去处理任何一个物体,还要能够把很多的基础技能串联起来。因此我们考察的角度,比如任务的完成率,还有比如有一个叫样本复杂度的概念,也就是说为了达到一定的成功率,你需要做多少次交互才是必要的。最后,决策这件事情是一个很长的序列,你可能需要某一种所谓的组合泛化能力。

所以所谓具身智能,它其实是一个相对遥远的目标,它能够涵盖人工智能将来也许是一半的东西,另外一半那当然就是不具身的智能。它基于40年代的控制论、信息论、博弈论,60年代的认知科学,以及近年来视觉、图形学、自然语言、机器人、机器学习等等的进展。它是一个综合性的任务,是人工智能的下一个里程碑式的目标。

下面我再说一点我个人或者我们组对所谓的具身智能的核心挑战的一个理解。这样一个理解,我的感受是它在逐渐成为一个学界的共识,但并不是每个人都完全同意的。在这里,我来展示去年的两个工作。去年是具身智能有很大进展的一年。右边这个工作是谷歌的工作,它是在真实世界中的机器人,它跟大模型结合起来,工程师提前预定义的一些操作技能结合起来。左边这个工作是我们组今年在ICLR发表的,一个所谓移动物体操作的研究,通过强化学习学会了这么一个机器人去做这些事情。

虽然这些演示看起来都很漂亮,但是它背后是有一些小秘密的。什么秘密呢?它们基本的实现方法都是所谓的技能链接。这里我对技能稍微做一个定义:这里的技能或者叫基本技能,它是一些个短句任务的求解器。短句基本上你可以从时间上认为是两三秒或者最多是四五秒这么一个尺度。对于复杂的事情,它总是由这些基本的东西来串联起来的。比如我们这个工作训练了七个基础的操作物体操作技能。而谷歌的工作,如果我没记错的话,当时是40多个基础的物体操作技能,它是工程师手工设定的。

但是,事实上如果你看这些演示,他们到底能不能在真实世界中部署?那么你会认识到基础操作技能很大程度上是一个瓶颈。为什么呢?因为这个时候机器人要对付复杂的物理。这里的物理既包含光学的部分,也包含运动的部分。视觉的挑战也包含摩擦力、物体的转动惯量的变化,甚至是软的物体还是硬的物体之类的东西。还有物体的形状的变化。还有,当机器人去操作的时候,它的动作空间可能是高维的,例如你用五指,它有几十个关节,这些关节的控制这都是很困难的问题。

可以说,对于具身智能来说,尤其是像机器人似的这样的具身智能,那么我会认为所谓的物体操作技能的学习是其中的一个基石性的任务。它的地位就好像在计算机视觉里边的物体识别一样。如果识别能完成,那么剩下的很多事情都没有那么难。

所以下面呢,我就会讲讲我们组有关基本的操作技能学习的一些近期的代表性工作。这是一个采样式的介绍,如果对更多的事情感兴趣,可以看我的主页。

我会分成数据和算法两部分来介绍。

第一部分:数据

如果我们的具身智能也打算走大模型的路线,那么我们就需要大数据。大数据哪里来?两个基础的来源:真实世界或生成合成数据,当然就是指的模拟器。

当然在真实世界中采数据是有很多手段的,比如通过遥操作,比如在真实世界中去做强化学习等等。在这里,我主要想讲的是模拟器有一些真实世界数据收集所不可比拟的优点。

以下是模拟器的优点:

  1. 可扩展性:真实数据收集需要很多真实的机器人。机器人的造价是高的,而且很多时候是危险性问题,而且也很容易坏。我们的深度学习之所以这么成功,一大原因就是因为显卡便宜。一块显卡当年可以做很多事,但是现在也变得受到了很多的制约。如果具身智能想大的发展,它的可扩展性、低成本必是一个重要的事情。
  2. 可复现性:传统机器人很多时候都是基于视频来验证成功与否的。对于当年通过物理建模、通过控制理论的方法,这当然是可以的。但是如果我们的具身智能现在是以数据为中心的,这就有问题了。我们知道对于这种黑箱方法可重复性,基于大量的测试来验证它的性能是必要的。但是用真实机器人,这很难,因为机器人的出厂设置不一样,或者型号不一样等等,都会带来问题。因此,再通过一两个视频来看是不是做了一个好的具身智能算法,这显然是不太合适的。真实世界很难做到这么大规模的严谨的测试,这是模拟器也是有必要的。
  3. 快速原型:如果一组硬件用来收集数据,但是硬件又升级了,这个时候你的演示可能会作废的。但是在模拟器里这一点要好很多,因为模拟器的数据收集的成本要相对低一些。

总之,我认为模拟器是一个一次投资,但是持续开发成本会较低的这么一种解决思路。基于这样一种思想,我们组长时间都在推动机器人模拟器这件事情的发展。今年我们做了一个工作叫做 ManiSkill 2.0,它是有关物体操作的一个统一的测试平台。现在有20类的操作技能或者任务的家族,超过2000个物体,以及包含了超过400万个物体操作的实例。

这儿有一个视频来看看。这是一个简单的推椅子的任务,这里我们建模了摩擦力、建模了碰撞等等,都是有很多精细的建模的。我们在计算机视觉、图形学、机器人等等会议上发了很多的文章,文章都是去思考如何提升它的真实性,从而使得它尽可能的能够在模拟器里,我们尽可能的避免创造在真实上不必要存在的一些困难。

我这儿给大家一个我们最近的一个有关触觉仿真的工作。我们通过有限元方法对基于形变的触觉传感器进行了仿真,并且可以证明的是,通过强化学习,你可以学到一个不需要视觉、只靠触觉反馈的这样一个对于任意一个物体的精细插孔操作的策略。那么在模拟器中进行训练之后,是可以直接的被迁移到真实世界中的。当然这个工作我们也是刚刚完成它的代码的开源还没有进行,我们会逐渐的去做这件事情。

第二部分:算法

下面我讲一讲算法的事情。

我们不管是通过真实世界还是模拟器,假设我们已经能得到一些数据了。那么下面一个问题是,我们用什么样的算法来得到这种鲁棒的、可泛化的物体操作策略?这里通过模拟器,我们是比较容易去测试它的方法性的。比如这么多的椅子在这个房间里,你都希望它能够被推走,推到一个指定的位置。

再一个就是所谓的组合泛化问题。作为决策,你应该尽量的做到在简单的环境中进行训练之后,这个策略能够在复杂的环境中被使用,所谓的组合泛化。

那么要点就是考虑如何让我们的策略是更加结构化的。那么我们考虑一种策略是,比如用简单的神经网络,这是强化学习一直在做的事情,比如用MLP或CNN来表达这个操作策略。这个问题就在于它的泛化性是比较成问题的,尤其是组合泛化性。当然如果用所谓的基于规则的系统,那么在你的规则能覆盖到的地方,它的组合泛化性和泛化性相对都是好的,但是它不具备灵活性,比如它很难能够通过示例来进行学习。

所以这样来看的话,我们能不能走一个中间路线?也就是说我们能不能考虑某一种结构化的、基于神经网络的策略呢?这是这样一个思考的重点。那么从理论上来说,背后的思维应该是叫做算法对齐。也就是说你的神经网络的结构设计,应该能够对应你的决策所需要的一种算法的推理过程。

给大家一点点感觉,比如你在理论上可以证明,比如2020年我们曾经展示过,实际上图学习方法可以去近似任意的动态规划可计算函数。同样的,近年来还有更强的结果告诉我们,为什么GPT这样的Transformer-based模型这么强大,因为实际上它的表达能力的上限是它可以近似任意的图灵可计算函数。那么我们的决策这件事情,背后有很多的推理,我们当然希望追求一种图灵可计算的函数逼近能力能够实现它。

因为这个Transformer这一类的大模型或者序列模型在自然语言上取得了很大的成功,所以我们也收到这件事情的启发,想看一看,毕竟控制信号也是序列,我们是不是有好的思路,能够用像语言模型一样的建模方法去弄它呢?那么我们今年有一个最近的工作叫做基于思维链的预测控制。这里我们考虑的是把终端控制器的速度控制信号,也当成是一种像语言一样的token去建模。因为我们有了ManiSkill收集的很多的轨迹,这使得我们有可能探索这个方向。所以这也是模拟器的一个好处,也许它做的东西还没有一步到位,但至少它降低了你的实验成本。

至少从结果上来看,我们跟之前的一些其他的序列建模控制信号序列建模的方法,比如Decision Transformer、Diffuser等等相比,在一些很困难的精细控制任务上是取得了很大的提高的。这儿的精细控制是,比如我现在打算把这个棍子插到这个洞里去。当然这里有很多的随机性,棍子的粗细位置都会变化,这个洞的大小、位置大小也会变化,但是我们有个很高的精度要求,就是只允许有3mm的误差。在这么困难的一个任务之下,你发现强大的大模型是有好处的。

好,我下面具体说一下。我们这个方法的核心思想实际上是仿照了所谓的思维链技术。因为大家如果对语言模型有一定的了解的话,大家知道这个语言模型之所以那么强大,能解很多的数学题,它用了一个叫“一步一步思考”的技巧,也就是思维链的技巧。它把复杂的事情变成一步一步的去完成的。那么一步一步去完成这件事,就开始逼近我前面讲的所谓的图灵可计算的这样一种程序的、对齐的思维模式。

所以我们这儿把整个物体操作中的关键状态,用它来构成这个思维链。例如说对于这个插入任务,这儿的关键状态就包括手抓住这个棍子、棍子已经跟孔洞对齐、棍子已经足够深地插入到了孔洞中。这些关键帧就可以成为一种操作序列的思维链。那么为什么是这些状态呢?很有意思的是,像ChatGPT这样的大语言模型,它很强的,你问它所谓的把一个棍子插到洞里分几步,他是真的可以告诉你的,他认为就是这样的。

但这后边有些更本质的原因。这个更本质的原因是什么呢?那就是

基础模型前沿技术论坛 - P1 - 智源社区 - BV1hu411h74n

课程概述 📚

在本节课中,我们将学习基础大模型的前沿技术,包括大模型工程化、人类反馈强化学习、多模态大模型以及高效扩展大模型的方法。课程内容源自智源社区举办的论坛,由多位一线专家分享。


开幕致辞与背景介绍 🎤

大家好,我是来自清华大学的刘志远。欢迎大家参加今天下午关于基础模型的论坛。

论坛给了我5分钟时间来做开幕致辞。今天所有的嘉宾,我们都会邀请他们来做特邀报告,因此我不一一介绍他们。我想表达一下我个人来到这个会场的一些感受。

今天是一个特殊的时刻。我们在智源大会举行这个基础模型主题的论坛。回想起来,我们是在2020年,在智源研究院的支持下,开始了国内最早的大模型研发和研究工作。在过去的两年里,我们在智源大会上进行了相关大模型的发布。

一直到去年底之前,大模型更多还是在学术界和产业界引起从业者的关注。到了今天,在ChatGPT的影响下,有更多人士认识到了以大模型为代表的人工智能技术,在各个方面的巨大潜力。

我们一方面感受到以智源为代表的国内研究院,在技术探索上的前瞻性。同时,我们也能够感受到在技术浪潮上,我们机遇和挑战并存的趋势。

来到2023年,我们可以看到,无论是全世界还是在国内,都已经陆续涌现出来非常多和大模型有关的创新技术和创新应用。我们也相信,以智源为代表的国内大模型的先行者,也能够在最新的这次人工智能革命中,发挥重要作用。

我认为智源大会是国内最早比较系统地推动大模型技术普及和推广的论坛。我们今天以基础模型作为主题,邀请了国内外非常一线的专家,来给大家介绍大模型相关的一些比较前沿的技术。

今天我们在和讲者交流的时候,还看到我们今天邀请的四位特邀讲者都是女性。我们觉得这是一次非常有意义的巧合。我们也希望更多的女性工作者,能够加入到我们的大模型人工智能浪潮中来。


报告一:基础大模型工程化——打造AI中的CPU 💻

接下来,我们首先欢迎第一位特邀讲者,是来自于智源人工智能研究院的副院长兼总工程师林永华老师,来给大家介绍“基础大模型工程化——打造AI中的CPU”的主题报告。

谢谢刘老师的介绍。今天上午我们整个大会kickoff的时候,大家也看到了智源发布了天鹰大模型。我也趁今天这个报告的机会,一方面想跟大家分享一下我们在打造大模型的过程中,为什么认为需要以工程化的方式来打造大模型,并且为什么它就像AI中的CPU。同时,也利用这样一个话题给大家介绍一下天鹰大模型。

在这里我想先说一点,因为我们的技术报告还没有出来,所以有点抱歉的是,今天的整个话题中一些具体的指标数字,可能都不会跟大家往外去说。可以期待我们的技术报告。

为什么基础大模型像AI中的CPU

首先,为什么我们会认为基础大模型在打造它的时候,就像打造AI中的CPU?实际上,第一个最重要的原因是,它的单一产品投入是巨大的,已经成为了整个AI里头的基础。如果我们说是一个基础的大模型,百亿甚至千亿规模的大模型,它的成本是很高的。

在这里给大家分享一下我们的一些具体实践以及预估的一些数字,因为有一些东西不好披露出来,所以大家主要是看这个比例。首先大家可以看到,对于几百亿的模型,蓝色部分是我们用于训练数据所需要花的人力、计算、处理等等。灰色部分是训练部分,包括人力和机器的花销。橘色部分是评测部分,也包括人力和算力。

大家可以看到,对于几百亿的模型,它用于数据上的投入跟训练时候的投入已经可以相当。所以从一个侧面说,为什么数据很重要。另外一块也是想提起大家的注意,评测很重要。这里有一些东西是没包括进去的,例如因为我们去探索一个新的模型的架构而要做的很多的创新,那些是没加进去的,因为我们认为那些投入还是可以去分摊到不同版本的模型。

这里就说单个版本,它的一个分布是这样子。对于330亿这样子的模型,它的成本大概是在2000万人民币的一个投入。后面如果拓展到1300亿这样子模型,那在这个成本上面就不一样了。这还是保持我们以一个T的token这样子的量来说,这个投入的量是另外一个数字,我就不具体说了,大家只是看这个量。如果对于一个千亿模型,一个T的数据不够,我希望让它的数据量变成2个T以上,那大家也可以看到它对于我们的数据成本和训练的成本也是有不一样的高度。

总体来说,对于语言模型来说,它的开发成本是十分高昂的,但这也值得。因为今天大家也越来越意识到,语言模型不仅仅是语言模型,它真的会成为我们未来AI中的大脑。

第二个角度来说,为什么它是AI中的CPU这么重要?因为基础模型很大程度上决定了后续模型的能力和产业落地的因素。首先是能力和知识。最近Meta有一篇文章是讲LLaMA,具体不说,但里头他的一个假设,我很认同。其实我们在大模型,尤其是基础模型里面,所有的能力和知识都是在基础模型这一部分所获得的。所以如果我们在基础模型这一块,没有把它的能力训练好,把它的知识能够训练进去的话,其实对我们后面再怎么进行SFT等等,其实是会面临很大的制约。所以这是第一,从能力和知识上,它决定了我们后续去持续训练,还是做微调训练的能力。

第二个很重要一点是合规性和安全性。因为训练模型,它的数据的干净程度,尤其是它的合规程度,很重要的会影响我们的AIGC的应用。毕竟语言模型很大程度是会生成内容。在这里给大家举一个例子,Common Crawl可能是很多人都很熟悉的一个全球的数据集,里头我们关心一下它那个中文数据集的情况。这是我们把里头的100万条中文带有中文的数据拿出来去分析它的站源情况,发现来自中国大陆的站源仅仅只占17%,有83%的站源是来自于海外的中文网站。所以在这里头,从内容的合规性上,从内容的一些安全性上,这个是有一个很大的风险在这里头。而当我们用很多这样子的数据去训练我们的基础模型的时候,其实对我们未来的微调后的模型是具有一定的风险。

当然大家可能会说,那我在最后模型的输出或模型的输入,我加一些安全的风控。但要知道这个不是所有的安全的风控都能够防得住所有的生成。例如我们有时候可能会问中国发生的时间大事。这种的问题不能不让人问吧。但是它在产生这10个不同的事件的时候,有可能就会存在一些不安全的输出。

另外,因为本身对于我们来说,不单我们要考虑这个模型是否可以拿出来给更多的学术界的去使用,我们还要考虑怎么可以让产业更宽广的去使用。所以在这里头会考虑这个版权和商用许可。到底这个基础模型,它是可商用许可还是非商用许可。它的使用的许可,是copyleft还是copyright的一个许可,是否具备这种开源的一个污染性,这些都是我们需要很仔细去考虑的。

这是从今年1月份到5月份,所有在国内国外发布的这些语言模型,我们做了一个简单的统计。在国外发布的语言模型,我们记录了有39个。其中可商用并且非copyleft的协议的大模型大约有16个。这里头例如LLaMA,我们也很熟悉,知道它其实是一个非商用的。那意味着我们所有基于LLaMA去进行做持续训练和SFT的模型,实际上都不能够合法商用的。那还有一些是使用了copyleft协议的模型,意味着我们通过这种copyleft的模型的协议的模型去进行进一步开发,例如持续训练或微调所得到的模型也必须开源,这是copyleft的协议。所以这个势必对产业,如果是企业正规企业要落地产业,其实是会造成很大的限制。

国内的情况是什么样呢?其中这个语言模型,我们统计了28个,开源的语言模型有11个,其中直接使用开源可商用的语言的大模型只有一个,并且是这只是一个进行了指令微调的对话模型。所以我们看到在基础模型上面,尤其是来自于咱们国内的完全开源可用的商用的中英双语商用的,其实是很缺乏。所以这里头就是我们寻找的实际上是说,第一能支持中英双语知识,这个知识不是只是翻译,所以这意味着我们需要把大量的咱们中文语言所表达的知识要放到这个预训练数据。第二,我们期待它是支持商用的许可协议,没有copyleft的限制。第三是符合国内数据合规的需要。

打造悟道·天鹰语言模型的目标

这个就是我们打造悟道·天鹰这个语言模型的一个目标。首先第一个就是我们希望为产业打造,像刚才所说的具备双语能力,并且是以商用许可协议的开放源代码及模型的系列。第二个,我们实际上是在设计之初就定下了一个高层的设计。我们希望这个语言大模型它有怎么样的一个能力的框架。这个能力框架其实很重要,决定了我们后面所寻找的数据以及我们的评测的方法。最后一点是说,我们越来越觉得重要的是为整个语言模型的打造,并且是持续打造,需要有一个端到端可持续循环的整一个模型的生产的流水线,打通从数据训练到微调到评测再回环回数据这么一个畅通的链路。

接这样的一个目标,我们今天也是开放了这些的一些模型。这里头其实就包括了330亿的和70亿的中英双语的基础模型。基于这两个基础模型,我们的对话模型,以及基于我们70亿参数的代码模型。其实在这里头对我们来说,对话模型和代码模型更多的是一个例子,就给大家看到是说基于这样的基础模型,我们可以怎么进一步的去打造通过SFT去打造我们所需要的对话模型,或基于持续训练去训练出我们需要的代码模型。其使用者可以基于他自己的应用需要去重新去做这样子的微调。

训练数据介绍

介绍这个模型的时候,首先我想还是给大家介绍一下这个训练数据。智源我们的中文数据实际上是持续一直在积累。在这里头也给大家分享一下,大家可以看一个右边的这个图,我们是接近30%多的数据是中文,60%多的数据是英文,这是目前的一个比例,不排除后续我们会有一个调整。

另外第二个大家可以看到这里头的这个分布,这个我就不说了。但我想给大家强调是说,中间其实最重要的,首先是互联网数据,它的一个质量。我们整个的这个中文的互联网数据,检查了所有的它的来源,其中99%以上的是国内的站源。所以这是我们很重要的一个基础,是说它的一个内容的安全性和干净的程度。

第二个,无疑大家可能做过中英双语模型的一个研发或调研的比较过这个数据集都知道,相比我们的英文的开源数据集,其实中文数据集最缺的是第一开源的高质量的文献的paper的中文的数据集,第二个是我们的开源可用的这种书籍的数据集。在这里头,智源也是得益于国内的一些数据机构跟我们的合作,他们愿意去把他的中文的文献数据,还有中文的书籍数据贡献到这样一个模型的训练里头。我想这也是因为我们这个模型是以一种完全公益的形式,以商用许可的方式再回馈给整个产业。所以他们愿意跟我们一起来做这个事情,也很在此也很感谢这些机构。

当前我们已经积累了超过1.4T token的训练数据。并且我们还持续正在增加更多高质量多样性的数据集,也在源源不断的把它训练到的这样一个基础模型里头的训练中。

基础模型技术细节

这个基础模型,第一,他在技术上承接了像GPT-3,还有LLaMA这些的架构设计的优点。另外,我想提一下是并行训练,我们使用了BMTrain,这个来自于刘老师团队很好的一个工作。那我们升级了BMTrain里头的这个并行的训练方法,它目前能够达到的直接可以对标的,例如像Megatron,以及我们实测是可以在一个具备一个大规模并行范围里头可以达到8倍的训练效率。

那可能大家会说为什么我们不跟Zero-3比,因为Zero-3有bug。这个给大家贴一下,这是我们团队大概两三周前,因为我们这个训练比较早就开始了,两三周前提交给DeepSpeed team的fix了,最后fix了这个Zero-3的bug。

SFT数据的打造

下一个就想给大家分享的是我们SFT数据的打造。因为这一次我们除了基础模型,我们也开源了我们的对话模型。这也是大家可能在实际用的时候经常会用到的模型。可能对于更多的一些爱好者或者是更多的下游的一些应用企业,可能会直接用到这样子的模型。

我们在整个SFT数据打造里头是分了四个阶段:数据采集,然后第二个阶段是根据这个数据的分布进行数据分布的分析,并行进行调整,第三个是进行这个SFT模型的测试,以驱动我们的一个数据的迭代,最后是包括这个重要指令的添加。在这里头给大家稍微分享一下。

不同的团队有不同的数据的采集的方法。智源这边我们是首先我们为了这个数据采集,指定数据的采集,因为它我们可以预见它是一个长久性的东西,因此我们特意打造了一整套叫OpenLabel这样一套指令数据采集的工具。但实际上它后来已经不单是我们的指令数据的采集和生成的工具,也包括我们在去reward model的时候,利用来做那个排序标注等等的这些工具集。

我们使用了就是说包括我们自然内部的一个固定的一个数据标注的团队,也包括向外面发起这个数据标注的公益活动,我们叫数据飞轮。我们在3月份的时候发起这个外部公益者这个数据飞轮的活动。我们当时是说等我们储备到了1万条,我们就把这个所有的这个在通过公益活动,他们来贡献这个数据标注的部分,把这个全部开源出来,整理好,全部开源出来。那正好其实是在昨天我们就把这一部分开源出来1万条。坦白说这个时间有点比我想象的要慢。我当时就觉得是说一个月就能够至少能够这个通过外部的公益活动能够标注够1万条。但发现其实这个东西不是那么容易,但我们会持续去做这个事情。

第二个,很重要的是整个数据分布的分析以及调整。前面说到了,其实我们定义了整个的大模型,我们认为语言模型的能力架构,能力的分布。那这个图实际上是对应前面那个图,我们会分析是说我们的指令微调数据集,它对于我们那个需要的能力分布来说,它从指令数据的角度,它的分布是不是能够对应上的。这不是我们目前的这个图,这个是稍微比较早期的一个分布图。那当时我们出了这个分布之后,我们就会看哪一些的方面的能力的数据偏少,那因此我们需要增加那一部分的数据的能力。

实际上我们一直有一个理念是说SFT的数据集不是越大越好。其实合理的,应该是说我们的基础模型很强,然后我们只需要少量高质量的SFT数据来让这个模型发挥很好的它的知识的一个执行能力。所以我们一直实际上在控制着我们这个指令微调这个数据集的大小。这一点其实是很重要。实际上我们一直控制到今天为止,大概就是十几万指令这样子。然后我们比过我们因为本身我们也有一个几百万甚至1000万的一个指令微调的数据集,包括有一部分也开源出来。比过是说到了今天为止,用这个数据集来翻就同一个基础模型,已经超过了用1000万或500万那个数据集来翻进这个基础模型了。

再往下一步,就是说我们持续的需要去构造这样一个迭代的过程。当我们这个SFT指定微调这个模型出来之后,我们会经过人工评测,看到它的不好和好的。然后呢,不好的那些case,我们会在一个很大的其实也就是1000万条的那个数据大的指定指令的数据的池子里头,通过检索方法把一些能力吻合的一些数据拿出来来进入到我们的下一个版本叠加到下一个版本。所以大家可以看到这个微调数据集,前一个版本是蓝色,上面一个版本是红色。其实我们持续的这样子去自动迭代,就除了人工来评测那个SFT的那部分会是人工,剩下的就会是自动的去调整我们的微调数据集。

最后一个,对我们也是很重要的一块,就是一些重要的指令的添加。那在这个过程中,首先是左边这块,就所有的我相信今天要放出来的对话模型都必须要做的是安全伦理等等的这样子的一个评测检测。那自然本身我们是有一个专门有一个Red Team,我们把它称之为Red Team,他们专门是帮助我们去评这个bad case,并且我们这个Red Team的选择是他既不是我们做前面就等我说到那个每天做这个评测的那些评测人员,也不是我们做数据集的人,他是完全一个separate team,然后不好的那些问题肯定要有重写这个答案,让他放回到我们的指令微调里头。

另外一个是我们这一次也定义了这个去构造连接一些应用或连接一些其他模型的指令数据。很简单的定义了这个格式,然后因此他可以帮助我们去很好的去链接其他的模型。例如在这里头有两个例子,一个是文生图的例子,上面说请画一只戴眼镜的狗,然后他就可以自动的去生成这样子的response。其实这个response里头前面半句话是说我作为一款文生文本生成模型,我没有这个能力,那后半句话它就真正的输出。如果我们要真的喂给一个例如diffusion的模型,那它就直接生成一个格式,一个特殊的字符的格式,以及后面需要用到的prompt。

我们这一次实际上是集成了两种不同的模型,这其实是一个范例。所有人如果用这个的模型,也可以用自己的方法来去同样的格式,就可以扩增自己要接的更多的模型和工具。这个是今天上午如果有看到黄老师的demo可以看到的。

第一个实际上就是我再放一遍哈,是这个但其实其实这个飞机这个是一个多轮对话,是一个多轮对话的。然后在下面这个还是一个多轮对话的一个场景。这一个是高考作文,其实我们这一篇高考作文大概800字左右,生成的时间不到10秒钟。其实这没有什么magic,其实这得益于说我们这个demo里头用的仅仅是我们的这个70亿参数的模型。

这个就是我们通过刚才那个指令,来能够在同一个语言模型里头去应对用户说要画图的这样子的一个需求,然后背后实际上是调用的是我们的AI diffusion。在这里头,其实我们放了这个我们的demo放在外面的demo booth,甚至大家先那里头是放video。大家到时候如果看到我们的同事在那可以要求他们去给你实操哈,其实我们是可以实操了。在那我们在这个上面其实也可以用不同的语言,包括韩语,包括西班牙语,包括法语等等。我们支持18种语言的文生图。正好就跟我们这个语言模型,他其实也已经具备了多语言的能力进行一个结合,就是用不同的国家的语言去输入给chat,然后让他生成相应的图。


那最后这个是一个把一个复杂的一个人脸编辑的指令,自动的划生成好几个step,然后背后是调用了我们新出来的一个叫InstructFace的这样一个模型。至于这部分的工作,大家可以留意明天上午AIGC内容生成生成模型的那个workshop,我们会有介绍。

代码模型

下一个是说我们这次发布里头其实也给大家提供了那个代码模型。我们认为其实代码模型它会扮演着未来,尤其是面对企业应用,企业用户场景很重要的一个角色。这次我们的确是说首先我们用的数据集,我觉得我们也比较lucky,当我们刚开始想做这个事情去尝试我们的Aquila base的这个模型的能力的时候,The Stack这个数据集出来了。这个是就是那个BigCode的那个团队,由HuggingFace来牵头的那个BigCode的这个项目团队开源出来的。这个数据集的好处是说他所有的代码数据都过滤干净他的版权,他去掉了所有没有版权声明的数据,只留下有版权声明的数据。他去掉了所有copyleft的数据。因为如果一旦有copyleft的数据,在我们的预训练数据里头,很难说以后出来的,我们给人家用户生成的数据,你是不是也得follow copyleft的这个规范,现在没有法律去规定,但是有这个风险。所以我们倾向于是说只保留有版权说明,并且只有copyright

课程01:AI创造力与开源精神 🚀

在本节课中,我们将学习人工智能如何赋能个人创造力,以及开源社区在推动AI民主化进程中的关键作用。课程内容整理自一场关于AI未来的深度对话。

概述:人工智能时代的创造力解放 💡

上一节我们介绍了课程的整体框架,本节中我们来看看对话的核心观点。人工智能,特别是生成式AI,正在从根本上改变我们创造、学习和解决问题的方式。Midjourney的创始人David Holz和LAION的联合创始人Christoph Schuhmann分享了他们的愿景:利用AI技术解放全人类的想象力,并通过开源协作让这项技术惠及每个人。

大卫·霍尔兹:解放想象力的使命 🎨

大卫·霍尔兹是Midjourney的创始人,他的动力源于一个宏大的目标:为人类集体解决问题提供基础设施。

创造力的三个核心环节

大卫认为,创造和解决问题可以归结为三个关键环节:

  1. 反思:思考我们是谁、我们想要什么、问题在哪里。
  2. 想象:构想未来的可能性。
  3. 协调:与自身及他人协作,将想象变为现实。

人工智能在这三个环节都有巨大潜力,能够帮助我们更好地反思自我、拓展想象力并促进协作。Midjourney在图像生成领域的成功,正是这种“想象力基础设施”的一个概念验证。

AI如何重塑学习与创造

当人们获得强大的创造工具时,他们对学习的兴趣反而会增强。例如,当用户可以通过说出“装饰艺术”来生成相应风格的图像时,他们便开始主动去了解这种艺术风格的历史。知识因此从静态的历史记录,转变为可以立即运用的创作力量。用户最迫切的需求之一,就是学习相关的艺术、历史和技巧,以更好地运用手中的工具。

赋能而非替代:AI作为创造力放大器

对于不同背景的用户,AI扮演着不同的角色:

  • 对于普通人:AI提供了一个低门槛的入口,让人们首次有机会探索自己的审美偏好,进行深刻的自我反思,这个过程类似“艺术疗法”。
  • 对于专业人士:AI不是替代,而是放大器。它让艺术家能够创作以前无法独立完成的作品,如完整的漫画书、电影或游戏世界,极大地扩展了专业创造力的边界。

初创公司的新范式

Midjourney团队规模小,没有销售和营销团队,却将技术带给上千万用户。这得益于AI时代的新范式:强大的动机、清晰的愿景、研究能力以及对“好产品”的专注,有时比庞大的团队更重要。大卫认为,未来会有更多这样的公司涌现。

垂直产品的未来与AGI

即使未来出现通用人工智能(AGI),垂直的、专注于特定领域的AI产品依然有价值。未来的社会可能由数百万人类与数百万AI智能体共同协作,形成复杂的“心智社会”。Midjourney的目标不仅是生成图像,更是成为全球视觉探索发生的中心,并将在视觉领域积累的经验应用于其他需要集体探索的领域。


克里斯托夫·舒曼:开源AI的愿景与实践 🌍

上一节我们探讨了AI如何赋能个体创造力,本节中我们来看看开源社区如何构建让这种赋能成为可能的基础设施。克里斯托夫·舒曼是LAION(大规模AI开放网络)的联合创始人,他坚信开源AI是让技术红利普惠全人类的关键。

LAION的起源:从爱好到非营利组织

LAION始于一个简单的想法:让最先进的AI对所有人免费开放。最初,克里斯托夫作为一名高中计算机科学教师,在业余时间编写代码,从公共网络爬虫数据中过滤出高质量的图像-文本对,用以训练开源的文本到图像模型。

关键步骤

  1. 从“Common Crawl”等公共数据源获取网页数据。
  2. 提取图像链接和候选文本描述(如HTML中的alt文本)。
  3. 使用开源的CLIP模型计算图像与文本的匹配度。
  4. 保留高匹配度的图像-文本对,构建数据集。

凭借开源社区的协同力量,他们在没有任何资金支持的情况下,短短几个月就构建了包含4.13亿对数据的LAION-400M数据集,并由此发展成一个正式的非营利组织。

开源哲学:乐观主义与赋能

面对AI风险论,LAION社区持一种乐观的赋能观点:

  • 风险观:最大的风险不是技术本身,而是权力过度集中在少数巨头或民族国家手中。这会导致进步缓慢,且一旦被滥用,影响范围极广。
  • 赋能观:相信大多数人会利用开源AI改善生活、增强能力。开源和广泛获取能催生更快的技术进步,并让每个人(包括小公司和个人)都能获得“超能力”,从而更好地抵御风险(如错误信息),形成更具韧性的社会。

核心公式
开源AI ≈ 开放解决问题的能力 ≈ 赋予每个人权力

当前与未来的项目

LAION社区正在推进多个项目,以构建下一代开源AI基础:

以下是LAION重点推进的项目列表:

  • Open Assistant:一个开源聊天助手项目,通过社区众包的方式收集高质量的对话数据,用于微调大语言模型,已产出可媲美早期ChatGPT能力的模型。
  • 大交织数据集:旨在构建一个统一的多模态数据集,包含文本、图像、音频、视频及其交错组合。这将为训练能理解和生成多种内容的基础模型提供燃料。
  • 多模态CLIP模型:计划将CLIP对比学习的思想扩展到音频和视频领域,实现所有模态在统一语义空间中的表示,为更强大的多模态AI打下基础。

社区驱动的创新模式

LAION的成功源于其低门槛、去中心化的社区协作模式:

  • 成员多元:包括高中生、教授、自由职业者、大公司员工等。
  • 协作灵活:任何有好想法的人都可以在Discord服务器上发起项目,快速吸引志同道合者并获取闲置的计算资源。
  • 动机纯粹:参与者多为志愿者,驱动他们的是让技术普惠人类的共同梦想,而非金钱报酬。克里斯托夫本人也拒绝高薪工作,选择保留教师职位以维持生活与理想的平衡。

对全球协作的展望

克里斯托夫希望开源AI能成为一个桥梁,减少全球性的稀缺和恐惧,最终让所有公民——无论身处何地——都更有能力、更富足、更幸福。技术发展的目标不应是让某个国家或公司更强大,而应是平等地提升每个人的能力与生活品质


总结与核心启示 ✨

本节课中我们一起学习了AI时代创造力的新范式以及开源运动的核心精神。

核心启示

  1. AI是创造力的放大器:它降低了创造的门槛,同时拓展了专业人士的边界,将知识转化为即时的创作力量。
  2. 开源是民主化的关键:只有通过开源和开放协作,才能避免AI权力垄断,加速创新,并让技术红利真正普惠全人类。
  3. 聚焦于人:无论是Midjourney关注的“想象力解放”,还是LAION追求的“赋能每个人”,其最终目标都是让技术服务于人的福祉与提升,创造一个更丰富、更公平、更具创造力的未来。

技术的未来充满希望,而选择权在我们手中:是走向封闭与控制,还是走向开放与赋能。本节课的分享为我们指明了后一条道路的广阔前景。

课程01:智源研究院通用人工智能进展报告 🧠

在本节课中,我们将学习智源研究院在过去一年中,在通用人工智能(AGI)领域取得的多项重大进展。报告涵盖了从大模型、具身智能到类脑模拟等多个前沿技术方向的核心成果与开源生态建设。


通用人工智能的时代背景 🚀

智源研究院自成立以来,积极探索新兴科研管理与机制创新,在创新研究、学术生态和成果转化等方面取得了重大进展。

下面,我们首先从当前最热门的“通用人工智能”概念开始。通用人工智能有两个常见解释:

  • GAI (General Artificial Intelligence):指当前已进入的、能力较为通用的人工智能时代。
  • AGI (Artificial General Intelligence):指人工智能领域探讨了20多年的终极目标,即具备与人类相当或超越人类的通用智能。

目前,我们正处在从 GAIAGI 迈进的历史时期。为实现AGI,全球主要有三条技术路线:

  1. 大数据 + 自监督学习 + 大算力,形成以GPT为代表的大模型。
  2. 基于虚拟或真实世界,通过强化学习训练出以DeepMind的DQN为代表的具身模型。
  3. 直接“抄答案”,即通过复制人脑结构来创建数字智能体。

智源研究院作为一个在通用人工智能方向持续努力的机构,其特色在于从第一性原理出发,致力于构建一个从原子到智能体的完整系统。同时,研究院也在上述三个方向全面开展工作。


大模型方向的突破性进展 💥

上一节我们介绍了AGI的宏观背景,本节中我们来看看智源在大模型方向的具体成果。大模型时代大约始于2018年,也是智源研究院成立之年。研究院在该方向上进行了多项开创性工作。

以下是智源在大模型领域的多个“率先”:

  • 率先汇聚AI顶尖学者(智源学者),开启大模型探索。
  • 率先组建大模型研究团队,成为国内该领域的主力。
  • 率先预见大模型时代的到来,并于2021年发布“悟道”大模型时正式提出“大模型”这一名词。
  • 率先发布悟道大模型,并启动大模型测评旗舰项目。
  • 率先倡导大模型开源开放,发布FlagOpen开源体系。
  • 率先构建大模型生态,包括智源大会和十多万人的智源社区。

其中,2021年6月发布的悟道2.0大模型,参数规模达到1.75万亿,是当时国内首个、全球最大的大模型。

那么,什么是大模型?我们认为至少具备三个特点:

  1. 规模大:神经网络参数达到百亿规模以上。
  2. 涌现性:模型产生预料之外的全新能力,这是AI发展史上的里程碑特性。
  3. 通用性:不限于特定问题或领域,具有较强的推广能力。

视觉与多模态大模型 👁️

在介绍了大模型的通用定义后,我们聚焦于智源在视觉和多模态大模型上的最新成果。智源正式推出了全面开源的“悟道3.0”模型系列。

以下是悟道3.0在视觉方向的系列模型:

  • EVA:10亿参数的视觉基础模型,通过语义与几何结构学习相结合,解决了视觉模型的通用性问题,在多项任务中达到当时最强性能。
  • EVA-CLIP:多模态预训练模型,在零样本学习任务上创造了新高度,超越了之前的OpenCLIP模型。
  • Painter:率先提出“以视觉为中心”的建模思想,将图像作为输入和输出模态,引入上下文学习能力。
  • SegGPT:首个利用视觉提示完成任意分割任务的通用视觉模型。与Meta的SAM同日发布,但SegGPT实现了“一通百通”,可分割任意物体及其部件,并支持视频中的运动物体自动分割。该技术有望在自动驾驶、机器人等领域发挥基础作用。
  • 多模态大模型:该模型能接受多模态输入并产生多模态输出,具备强大的认知、推理和生成能力。例如,它能识别名画并给出认知解释、进行少样本图文理解、根据图片进行多轮对话,以及实现“图生图”、多模态上下文生成等创意任务。

将类似语言的上下文学习能力引入图像领域,激发了更丰富、更令人兴奋的通用智能潜能。


语言大模型与评测体系 📝

看过了视觉模型的进展,我们再来关注竞争激烈的语言大模型领域。智源正式发布了语言大模型“悟道·天鹰”及其评测体系“天秤”。

悟道·天鹰是首个支持中英双语、符合数据合规要求、可商用的开源大模型。它基于高质量合规语料从零训练,通过数据质量控制和训练优化,以更小的数据集和更短的训练时间获得了更优的性能。本次发布包括70亿和330亿参数的基础模型对话模型代码模型

天鹰模型具备强大的对话和任务执行能力,例如拒绝危险请求、理解用户意图并调用图像生成模型完成设计任务等。其训练过程实现了模型能力与指令微调的循环迭代,并支持可扩展的指令规范。

天秤大模型评测体系旨在建立科学、公正、开放的评测基准。它在能力、任务、指标三个维度上建立了涵盖约600项评测的全面体系,支持自动化评测,并已面向公众开放。该体系支持多种国产芯片和深度学习框架,并正在扩展多模态评测工具。


开源生态与数据建设 🌐

强大的模型离不开健康的生态。智源在科技部大模型旗舰项目支持下,致力于构建开源开放的大模型技术体系。

FlagOpen大模型技术开源体系集成了国内外多种开源模型和算法,支持并行加速、高效推理等技术,旨在降低大模型研发门槛,促进合作共建。

在智能时代,我们认为基础软件体系必须是开源开放的。初步统计显示,今年以来全球开源语言大模型项目共42项,其中国内发布38项,但仅9项开源。我们需要进一步加强开源开放,通过技术比拼和生态集成来证明水平。

在数据方面,智源发布了目前规模最大的可商用中文开源指令数据集COIG,一期包含17.1万条数据,以支持大模型的对齐调优,并持续更新。


具身智能与类脑模拟的探索 🤖

尽管大模型是当前重点,但通往AGI的另外两条路径——具身智能和类脑模拟——同样至关重要。

具身智能方向,智源探索在《我的世界》虚拟环境中,让智能体通过语言指令学习完成复杂任务(如“制作石锤”)。从基于模仿学习的策略模型,发展到利用大模型进行任务分解与规划的Plan4MC模型,在多项任务上达到领先水平。未来目标是让智能体在开放世界中持续学习,具备自适应和创造性完成任务的能力。

类脑智能与生命模拟方向,智源致力于从底层模拟智能的生理基础。

  • 发布了最高精度的仿真线虫,并将其生命模拟平台天演全面开源,提供在线服务。
  • 天演平台具有高效仿真、支持超大规模神经网络、一站式在线工具和独有的精细化可视化交互四大特点。
  • 平台已成功部署于天河超算,在节省能耗的同时将计算速度提升20倍,首次将大规模精细神经系统仿真速度逼近生物真实。这项工作为未来仿真人类大脑(可能还需15-20年)奠定了基础,是通往AGI的重要里程碑。

此外,智源健康计算中心运用AI技术开拓生命科学边界,其研发的OpenComplex大分子预测模型在国际竞赛中多次夺冠,并正致力于开发用于药物设计的生物分子生成模型与统一大模型。


总结与展望 ✨

本节课中,我们一起学习了智源研究院在通用人工智能领域的全面进展。

我们回顾了从GAI到AGI的宏观图景,深入了解了智源在大模型(包括视觉、语言、多模态模型及评测体系)、开源生态数据建设方面的核心成果。同时,我们也看到了其在具身智能类脑模拟这两条更长远技术路线上的持续探索与突破。

这些工作体现了智源研究院从第一性原理出发,通过开源开放、共建共享的方式,推动人工智能基础技术发展的决心与行动。最终目标是构建一个能够支撑未来智能社会的坚实技术基础。

智能的物质基础论坛 - P1 - 智源社区 - BV1Ju4y1o7Hq

概述 📘

在本节课中,我们将探讨“智能的物质基础”这一前沿交叉领域。我们将跟随多位顶尖学者的报告,从分子、细胞、活性物质、人工细胞、合成生物学以及神经形态计算等多个尺度,理解智能如何从物质中涌现,以及我们如何通过工程手段去模拟和创造智能。课程内容将涵盖从基础理论到前沿应用的广泛话题。


论坛开场与背景介绍

尊敬的线上和线下各位嘉宾,大家下午好。我是本次分论坛的主席张文斌。欢迎大家来到我们这个分论坛。

今天我们将一起讨论什么是智能的物质基础。这是本分论坛第二次举办。去年我们有6位讲者一起对这个领域进行了初步探讨。

在2021年,Wolfer Perence教授在《自然》杂志上发表了一篇文章,题为《智能物质的兴起》,提出了“智能物质”这一概念。这个概念说新也不新。

它与之前我们提到的“智能材料”有相似之处,在于它也具有一些响应性行为等。但它又包含了一些新的理念。例如,在这篇文章中,Wolfer教授希望这类物质能够同时实现计算、响应性学习等功能。

在去年的讨论之后,我们初步提出了一些观点,认为现在的智能物质是跨越多个尺度、能够集成信息和控制的物质体系。从小到分子尺度,分子进一步形成组装体,这些组装体的结构尺度越来越大,形成了细胞,而细胞再进一步组织,形成了一些器官。在这个过程中,逐渐涌现出越来越复杂的行为。

智能物质有几个非常有趣的特点。第一个是复杂性。

这个复杂性可以存在于广泛的尺度上的任何一个尺度。比如分子尺度有分子尺度的复杂性,细胞尺度有细胞尺度的复杂性,到了组织程度,又有组织程度的复杂性。这是它的第一个特点,也是人工智能能够处理的一个很好的对象。

第二个特点是涌现性。涌现是一个很有趣的概念,它指的是当物体之间的相互作用力足够多、足够复杂时,它能够作为一个整体展现出个体所不具有的性质。

涌现现象也同样发生在各个单独的尺度,然后这些涌现出来的新功能还会被进一步集成和转移到下一个更高的尺度上去。

智能物质的第三个特点是信息。信息是智能物质不可或缺的一部分。

它能够从环境中获取信息、感知信息、存储信息,并且处理信息。它是智能物质的核心。

最后就是集成。功能材料和一个可以重新组织的回路组织在一起,就可以实现真正的智能物质。

它曾经是生命起源的一种表现。现在这个概念也在激励着我们去发展一些人工的智能物质。

根据我们对这样的理解,这次报告我们非常有幸请来了几位杰出的讲者,他们在各个尺度上向我们阐释他们对于智能物质的理解。


报告一:生命智能中的高分子效应 - 刘东升教授

报告人介绍

刘东升老师是清华大学化学系教育部长江学者特聘教授、博士生导师、中国化学会会士、英国皇家化学会会士。他入选了创新人才推进计划中青年科技创新领军人才计划、中组部“万人计划”领军人才,获得过第一届中国化学会-英国皇家化学会青年化学奖、第七届中国化学会-巴斯夫青年知识创新奖等。他还担任了基金委杰出青年基金、重点项目、创新群体项目负责人等重要项目,现任《Smart Molecules》、《Polymer》、《高分子学报》和《高等学校化学学报》的副主编。他主要从事核酸的合成和修饰以及核酸超分子材料方面的研究。

报告内容

谢谢文斌的介绍。请我来做这个报告,我专门准备了两周。因为这与我们过去很多学术报告不同。文斌跟我说,今天可能会涉及到一些我们没有那么大把握,但基于我们现有知识体系对生命的一种新的理解。

我们在生命中其实看到了很多现象,但我们习以为常,往往没有深究它背后的机理。在我们真正去做研究的时候,我们发现跟我们学习以及应用到的很多理论知识是有背离的。所以,对生命现象的观察和思考,其实是能够促进我们真正推进基础研究以及对基础理论的理解。

我就举几个例子。刚刚文斌也提到了,生命是一个智能体系。那么它是怎么组织的呢?我们说它是从小分子一级一级组装起来的。当然不是很全面,我们从最简单的来说,最小的一个分子大概就是磷脂。生命的细胞膜是由磷脂构成的。

磷脂构成的细胞膜又是细胞的一部分。细胞是构成组织的最基础的机缘。有了组织,我们才有了器官,之后才有了生命体系。

有了这种体系以后,怎么去把这些分子一个一个地去组织成有智能的、我们现在还没有完全理解的体系,他是怎么办到的?在过去的这段时间里,我们做了一些工作。

下面我们来说一个最简单的问题。大家都知道细胞膜是由磷脂构成的。这是我们在小学的通识课里就有过的教导。

但是我们知道,其实小朋友们都喜欢吹肥皂泡。大家知道肥皂泡是什么构成的呢?它其实也是一个两亲分子,用磷脂也可以吹成肥皂泡。但是我们都觉得肥皂泡很美丽,跟梦想有一个共同特点:美丽,并且易碎。梦想总是很脆弱的。

但是,大家平时在所有的观察里,你可以看到为什么我们的细胞没有说一阵风吹来,我们的人破了,然后剩下的溶液流走了,只剩下一点骨骼存在在这里?我们的世界就真的成了一个非常恐怖的世界。为什么没有这样?

因为我们知道在细胞膜上的磷脂和我们吹肥皂泡的磷脂其实是同样一个分子,它的化学和物理性质应该是一样的。为什么它的表现不一样?

有很多讨论,但是从来没有深入去理解它的机制。有一个很简单的讨论,就是说细胞里面是有东西的。细胞里面有骨架,那么细胞骨架是由蛋白构成的一个非常细的纤维,纳米级别的,那么它就撑住了这个肥皂泡。猛一听,这个解释是非常合理的。

但是你想过没有?如果你有一个气球,你说我把气球的气放掉的时候,不要这个气球塌陷,那么我拿一个极细的针在这个气球里头撑住它,可能吗?不可能。是因为他会把气球刺穿。为什么他没把这层膜刺穿,而是撑住了它?

其实大家没有去深想。而我是一个喜欢刨根问底的人,我经常跟我儿子两个人辩论,最后总是要推演到最终最终的那个机理上来。

我自己画了一张图。其实我问这个问题的时候,我也被反问了,说你有什么样子的见解。其实我觉得这是做科研的人最喜欢听到的,就是你有什么见解。

我的见解是说,细胞是由一个磷脂双层膜界定的一个形状,它在生理条件下不会发生融合,尺寸稳定,形状是可以改变的。我们的细胞是可以变形的,并且它一直都很稳定。

在这样的一个情况下,其实我们就要回复到我上中学的时候,老师教我们的是说细胞膜是一个磷脂双层膜,它这个中间嵌入了很多的蛋白质,叫膜蛋白,它有嵌入的,也有通透的。这些膜蛋白当时是说漂浮在它的一个磷脂的海洋的表面。

其实在我们回过头去想的时候,不是这样子的。我们回过头去想它是一个什么样子的结构呢?是说如果你把它和细胞的这个骨架联合起来想的时候,它是这样子的:我用这个绿的和黑的这一部分是细胞骨架,它构成了一个三维的网络。那么在它的末端就是我们的膜蛋白,那个粉红色的,我用它来代表了我们的膜蛋白。

其实这就是一个先有鸡或者先有蛋的问题。那么我认为是先有了骨架,骨架确定了膜蛋白的位置,那么它就最终决定了细胞的形状。

那么这个膜在哪呢?膜并不是一个像我们想象出来的、吹的一个球形的体系。它是什么呢?它其实是在由这个膜蛋白,因为膜蛋白的侧面是疏水的,它构成了一个点。我们知道三点可以构成一个平面。其实磷脂它最容易形成的是一个平面的膜。那么就简单了,其实是磷脂填充了所有的膜蛋白之间的这些缝隙,然后形成了一个连续的多面体。这个多面体它只要改变它的二面角,细胞就可以很容易地去改变它的形状。同时的话呢,它的每一个面都是自由能最低的一个状态。所以说细胞非常稳定。那么由于它的每一个面都很小,所以说你在给它一个外界的力的时候呢,它都传导到直接传导到膜蛋白和这个最后的骨架上去。所以它既耐溶胀又耐压力,所以它是我们细胞稳定的机制。

是不是这样子呢?作为一个化学家,其实我们从2009年开始,我们有了这样一个解释,那就要去做。化学家就是这样的。刚刚费曼也说了,如果我不能够去创造,那么我就不是真正的去理解了这个原理。所以我们提出来这个原理,我们就尽了我们最大的努力去证明它,我们是可以用化学的办法去把它合成出来的。

从化学的角度,我们提出了一个简化的策略。当然我们去合成一个细胞骨架很难。但是呢我们可以用化学的办法,用一个金颗粒和一个核酸去构建了一个类似于细胞骨架的这样的一个体系。它是一个刚性的体系。那么在它的末端呢,我们通过化学合成引入了一个类膜蛋白,当然没有膜蛋白的功能,但是它有膜蛋白的疏水性的这样子的一个大分子。

然后呢,我们在用它来去看看是不是能够诱导磷脂以及其他的普适性的两亲分子能够去组装形成一个我们想要的任何的形状,任意的尺寸,但是在相同的条件下,有同样的一个物质组成的体系。那就是我们生命就是这样来玩的。那么我们能不能也玩同样的游戏?

有了这样的一个想法的时候,其实得到了基金委和很多同行的大力支持。因为这时候没有任何的基础,只是一个猜想。但是过去的十几年的时间,我们终于把它做出来了。因为这个过程是非常非常艰难的。我就想我毕业的那么多的学生,他们说起来都是一把辛酸泪,说跟着刘老师熬了无数个日日夜夜,然后刘老师就用了几分钟的时间就讲完了。

这是我们的结果,这是其中的一个过程。它形成了一个非常有意思的沉淀。其实为了解释这个结构,我们就花了接近一年的时间。但是最终呢,我们是用了一个分子把它重新融回来了。融回来了以后,大家可以在这个透射电镜上可以看到这样的一个结构。更清楚一点,它的外面有了一层薄薄的膜,里面是那个金颗粒,这个金颗粒和膜是不接触的,是中间有骨架撑着的。

这样的一个体系呢,我们也用这个骨架就是DNA的长短来去证明了你可以用相同的组装的材料,任意的去改变它的尺寸,它可以精确到比一个纳米还小的精度。所以这时候我们可以通过我们的这个方法去证明了细胞,极有可能就是这样来的。

那么你肯定还有一个疑惑,就是这个只是一个尺寸,但是细胞并不都是球形的。我们这个体系是球形的。证明它我们又花了4年的时间。这个4年的时间,我们其实为了回应这个问题,我们做了一块砖头,做了一个砖头一样的骨架。

我们知道在自然界体系里头,由于热力学的界面能最小的这样的一个驱动,它往往都会形成一个球形的结构。但是我们是在一个稳定的体系下做了一个砖头一样子的这个囊泡。这个囊泡是自然界里头基本上你是看不到的,它基本上不存在。但是呢我们也是一个热力学稳定的。

另外一个呢,我们又进一步的把它推进,能够把它做成一个二维的组装体,也就是把它从三维压缩到二维去。那么这是一个自由的纸质的这个平面。这样的一个平面的话,其实大家可以想象,我可以在溶液中无中生有的创造一个界面。这个界面和细胞膜的这个性质是完全一样子的。

这样的一个体系的话,我就可以把原来在球状体系上自由分布的这个所有的膜蛋白,我可以给你一个定向的标识。也就是我给它加了一个外标。这样子的话,你可以在电镜下自由的不用你再去猜了,你都知道它的这个膜蛋白的法线方向在哪里。它可以插入到我们这个膜里头,所以你可以更快的去解析这个膜蛋白的结构,不用那么多的猜想,也不用那么强的大脑。

当然,其实我们最早的时候是通过合成一个非常复杂的分子去模拟膜蛋白的这样的一个体系,证明了就是化学家的一个猜想。那么之后的话呢,我们又重新要回到膜蛋白是怎么起作用的?是不是真正的膜蛋白,它真正跟磷脂有一个什么样的匹配。所以我们去做了各种的组合,合成的高分子,然后有DNA和这个更简单的线性高分子的匹配。

直到在两年前的时候呢,我们才发表了这篇文章,就是这是个穿膜肽,它其实是膜蛋白的类似的一个结构的一部分。那么它是一个α螺旋,它是疏水的。那么我们就发现呢,它和磷脂有非常好的匹配。你会在整个研究过程中,你会发现生命的奇妙。我们做了那么多的合成体系,发现诱导磷脂都不好。但是用蛋白或者是穿膜肽,它诱导的磷脂效果就会非常的好。当然它是一个非常窄的窗口。

虽然我们经历了很多很多的痛苦,我们最终还是真正的达到了我们所说的。那么生命体系整个的细胞的形状是由什么来决定的呢?是由细胞的骨架确定了膜蛋白的位置,然后膜蛋白之间它们相互的这个关系,三点决定一个平面,才最终决定了这个细胞的形状是什么?当然它的稳定也是由骨架的稳定来去决定的。

这个方法呢,其实我们从自然界中抽提了这样的一个推理。然后用化学的办法证明了这是一个普适性的方法,它可以应用于各种各样子的人工的合成的体系。这个15年的这个研究也得到了很多同行的认可。就是国际上呢,其实我们联合了国际同行写了一篇Accounts,然后用的这个名字是我一直坚持的,是说这是我们起的名字就叫“框架诱导组装”,所有的两亲分子都可以做。

发表了以后,田中群老师是我们当时自组装重大研究计划的首席,他听了以后也非常高兴,然后专门给我们写了一个评述,是说这是我们起的名字,中国人起的名字,中国的标签,这是值得我觉得我自己非常非常自豪的这样的一部分的研究。

刚刚讲的其实是一个非常非常小的微观的层面。那么再比它更大一点的时候,我们再说组织。我们刚刚讲到了很多的这个都是在细胞这个层面。那细胞上面一个层面是组织。我们知道我们吃牛排的时候要讲口感,要五分熟七分熟。但是我们有没有想过,细胞我们说是稳定的,但是细胞并不是简单的堆在一起就可以形成组织。这个组织的时候,我们吃到的时候,其实是它的机械强度。所以你才知道这是肉还是喝的肉汤。

但是白细胞俗称白血球,它对人体具有重要的保护机能,能够防御外界的入侵,有人体卫士的称号。白细胞其实是可以穿透我们的细胞的,它不伤害细胞,但是能够从细胞间穿过去。那么如何能够既有强度,又让那个细胞能够穿过去,它是个很弱的体系,它是怎么实现的?这就是其实生命的智能。

我们知道其实在整个这个组织的里头呢,我们有了很多的细胞,其实细胞间并不是真空,也不是直接相连的。它是有很多的材料填充在其间的,我们叫细胞间质或者叫细胞外的基质。它负责支撑住细胞之间的距离,同时的话呢,它还要给细胞供养、供营养、供氧气,然后排泄废物。同时的话呢,这些体系还能够让别的细胞进行穿过去。也就是说它既要有强度,还要有动态性。

大家听起来就像我们布置作业一样,说我既要又要,就是德智体美劳样样都要。但是其实对这个材料来说,它是一个可怕的噩梦。我们都说我们喜欢要求极端,但是呢我们不希望要求既要还要又要。

这样子的话,我们去回头去看,其实细胞外基质是什么构成的呢?它是有多种成分,比如说胶原、蛋白、糖,还有一些信号分子。那么它是构成的其实是一个网络结构。那么我们还是从化学家的角度来说,我们把它简化了。它其实就是一个水溶性的材料,然后通过链间,它都是一些线状的高分子。那么这些线状的高分子呢,它通过链间的交联点构成一个高含水量的分子网络。也就是说它大部分都是水,那么这个水呢被固定在这个分子网络中。所以说它并不表现出来非常强的流动的性质,它叫结合的一部分的束缚的水。

那么这个水溶性高分子的话,如果它的交联点是共价键,那就是我们经常小孩子打的那个BB枪里头的那个小球球,那个透明的,你拿水泡出来那个小球,就是共价键交联的。它强度很好,但是你如果细胞长在里头,那它就要死掉了。为什么呢?细胞不能够分裂生长,因为它不能给你提供动态性,没有活动的空间。

如果说我们也有很多人造的,我们把这个人造的分子,然后我们把它中间的那个共价交联点换成氢键、换成一些主客体相互作用等等,那么我们就叫它超分子水凝胶。它其实具有了一个非常有意思的性质,它可逆性非常好,动态性很好。但是它的强度极低,往往就像鼻涕一样,它很软。

这样子的一个体系的话,其实它是有了动态性就没有强度,有了强度就没有动态性。大家可以想象,为什么是因为往往是对这个键的要求是不一样子的。那么如果是一个化学键,你要它有动态性的时候,这个键能就要低,也就是它要弱。但是你要强度的时候呢,他就要它比较强。其实往往就像我们去要求一件事情的时候,我们既要又要,最后我们要的其实是这。

很多时候我们说教育学生或者教育孩子也是这样子的。我们既要他这个活泼,又要他好好学习。到最后的话,他就是两头都没顾上,他既没玩也没有学好。所以我们如何去解决这个矛盾?其实生命给我们举了例子,有别人家的孩子是既要又要,是不是既有强度,同时还有高通透性,他还有动态性兼备,他是怎么实现的呢?我们也很想知道。其实生命给我们举了例子,而我们往往是没有去仔细的去想他是怎么统一的。

其实大学给了我们一个很好的环境。特别是这几十年来,我回国的接近20年,其实给了我们一个能够静下心来去思考的一个环境。虽然说大家也卷也很浮躁,但是多少的来说的话,活下去总是还是可以的。所以说我们就会想一些这种稀奇古怪的问题。

我的想法是这样子的,就是我们在做化学的时候,超分子相互作用也好,共价键相互作用也好,其实是两个基元之间的一个结合常数的问题。也就是说他们的强弱都是这两个之间结合的强弱。所以要不然就是强,不然就是弱。那你只有一个选择。而他们的这个要离开就离开了。这是一个简单的,大家都能想象的。你把它放到溶液中稀释了以后,它就解离了,结合很难,解离很快。如果没有一个拥挤的环境,它是很快的就解离开来的。

而我是认为呢,其实生命是怎么去把这种弱的结合和解离去把它能够变得有强度呢?其实它是用了高分子的概念。就是我们在高分子中,上面的这条线是共价连接的,也就是它是不可解离的。我经常跟我的学生说,我说这就像中国的血缘关系是不可解离的。然后呢,但是在链和链之间的话,就是含有信息。这个信息呢,它有它的越复杂,就使得是你的每一个解开的时候,它周围另外一个还没有解开。因为它解开是有几率的。那么他没有解开,就限制了你的离开。所以等到他要解开的时候,你已经又回去了。所以说大家就有一个竞争平衡,使得想结合完全的结合,其实是一个很慢的过程。但是要想完全解开,也是一个非常慢的过程。我们其实是通过信息的复杂度,使得整个体系慢下来,使得那么你在感知它的时候,如果你给它一个快速的剪切,你会感觉到它比较强。但是慢速剪切的时候,它又比较弱。

大家在生活日常生活中是有应用的,就是我们的粘扣体系,你可以想一想,它其实并不是拿这个焊在一起的,但是你可以一个一个拿针把它挑开,不需要多大的力。但是你想一次把它撕开,还是需要很多力的。这就是在分子之间用这样的一个体系。当然它在生命体系里头,为什么会有的话,是因为它有了多种的相互作用,还要有一个含有信息的序列的精确的互补匹配。那么他可以放大这种互锁效应。

在哪里有?其实在合成上,这是一个挑战。很多化学家不愿意去合成一个长链的具有序列的这样的一个高分子,因为它太贵了。那么生命体系里头呢,它不是用这种玩法的,生命体系是蛋白质,是一个精确序列的高分子。核酸也是。所以我们就用这样的1个20个碱基的这样子的一个序列。那么红的呢,它是一个字,大家可以从这头念和这头念,你会发现它翻过来

课程一:人工智能的现状、挑战与未来展望 🧠

在本节课中,我们将学习图灵奖得主Joseph Sifakis教授关于人工智能(AI)核心概念的深入探讨。课程将涵盖智能的定义、人类与机器智能的比较、自主系统的愿景,以及当前AI系统在验证和信任方面面临的重大挑战。

概述:什么是智能?

目前,对于什么是智能以及如何实现智能存在很多困惑。这种混乱由媒体和大型科技公司助长,它们传播的观点暗示人类水平的人工智能只需要几年时间。一些人相信机器可以离开人类独立运作,但这并非故事的结局。

字典将智力定义为学习、以合乎逻辑的方式理解和思考世界的能力。机器可以做出令人印象深刻的事情,但它们在情境感知、适应环境变化和创造性思维方面无法超越人类。对什么是智力达成明确的概念共识非常重要,没有这个概念,我们就无法发展出关于其工作原理的理论。

今天,我们只有弱人工智能,它为我们提供了构成智能系统的元素,但我们缺乏合成这些元素的原理和技术来构建一个更大的智能系统。未来,我们将观察到信息技术(IT)和人工智能(AI)之间的加速融合。

人类与机器智能的比较

上一节我们介绍了智能的基本概念,本节中我们来看看如何比较人类和机器的智能。

图灵测试及其局限性

艾伦·图灵提出了著名的图灵测试来比较人类和机器智能。测试设置如下:一个实验者C通过书面问题与两个房间(一个房间是机器A,另一个是人B)交流。如果C无法区分哪个是电脑,哪个是人,则认为A和B同样聪明。

今天,有些人声称他们的系统成功通过了图灵测试,因此是一个和人一样聪明的智能系统。然而,这个测试受到了批评,因为成功取决于人的主观判断,并且测试案例的选择可能带来偏见。另一个论点是,这个测试只是一个简单的对话游戏,而人类的大部分智慧是通过与环境的互动来表达的。

替换测试:一种更通用的方法

我提出了一种更通用的“替换测试”。其思想是:一个代理(可以是机器或人)A和另一个代理B一样聪明,如果A能成功地替换B执行给定任务。例如,如果一台机器能成功替换人类司机,那么它就和人类司机一样聪明。图灵测试只是此测试的一个特例,其任务仅限于对话游戏。替换测试将智力的概念相对化和泛化了。

两种思维与两种知识

人类思维结合了两个系统:

  • 系统一(快速思维):无意识、自动、毫不费力。这是我们走路、说话、演奏乐器时使用的思维方式,依赖于内隐知识。
  • 系统二(慢速思维):有意识、受控、费力的。这是理性、编程和问题解决的来源。

这与今天的两个计算系统有惊人的类比:

  • 传统计算机:执行算法,类似于慢速思维,基于可理解的模型知识。
  • 神经网络:经过训练后,基于数据知识运作,类似于快速思维。它们能区分猫和狗,但我们无法验证其内部运作,因为我们不理解它们是如何做到的。

人类和机器处理着不同类型的知识,其有效性和通用性各不相同。从技术角度看,机器学习产生的知识与科学知识之间存在巨大差异。

机器智能的短板:情境感知与常识

上一节我们比较了思维模式,本节中我们来看看机器在哪些关键领域落后于人类。

机器在情境感知方面难以与人类匹配。例如,自动驾驶汽车可能犯下将月亮误认为黄色交通灯的错误,而这永远不会发生在人类身上,因为人类明白交通灯不可能在天空中。

常识知识是一个世界的语义模型,从我们出生起就通过日常经验自动构建。我们用它来解释感官信息和自然语言。人类的理解结合了自下而上(从传感器到语义模型)和自上而下(从语义模型到感知)的推理。

相比之下,神经网络必须被训练在所有可能的天气条件下识别停车标志,而人类可以凭借心中的概念模型,即使标志部分被雪覆盖也能认出。同样,人类看到一系列图像能立刻解释为飞机事故,而机器只能单独分析每一帧,无法将因果关系联系起来。

总结来说,要让机器与人类的情境感知相匹配,它们需要能够建立环境模型、理解新情况,并整合水平和垂直推理。这是当今人工智能最难解决的问题之一。

人工智能系统的验证与信任挑战

上一节探讨了机器智能的局限性,本节中我们聚焦于确保AI系统可靠性的核心难题:验证。

一个重要的问题是人工智能系统的不可解释性。今天,一个系统被认为是可解释的,如果它的行为可以用我们可以理解的数学模型来描述。理论上,神经网络计算的函数可以被构建出来,但复杂性限制使得这在实际中不可行。

验证系统属性有两种主要方法:

  1. 形式化验证:通过模型推理进行,尤其不适用于神经网络。
  2. 测试:一种经验性验证方法,但存在限制,无法提供形式化验证那样的通用性保证。

系统工程关注三种主要类型的属性:安全性(系统永不进入危险状态)、活性(系统最终会做正确的事)和性能。目前,声称智能系统满足某些特性的出版物往往缺乏足够严格的定义和验证方法。

以下是测试方法的核心概念:

  • 系统具有输入 x,产生输出 y
  • 属性 P 是输入和输出之间的关系。
  • 验证系统满足属性 P,意味着对于任何可能的输入 x 和相应的输出 y,属性 P(x, y) 都成立。
  • 对于具有大量输入的系统,穷举测试是不可能的,因此需要理论来指导测试用例的选择和结果评估。

然而,对于智能系统,我们缺乏这样的理论。另一个关键要求是可重复性,即测试结果应独立于特定输入集的选择。对抗性攻击的存在使得神经网络的测试与可重复性要求不一致。

对于智能系统,我们的验证能力是有限的,因为属性需要被严格形式化指定,这排除了像ChatGPT这样的通用语言转换器。以人为中心的属性(如“可信”或“有效”)也难以验证。

自主系统:人工智能的下一步

上一节讨论了验证的挑战,本节中我们转向一个更具前瞻性的话题:自主系统。

自主系统代表了从弱人工智能到人工通用智能的重要一步。自主系统支持智能系统的范式,超越了通常专门化的机器学习系统。它们源于用自主代理取代人类以进一步自动化组织的需求,例如在物联网、自动驾驶汽车、智能电网和智能工厂中。

自主系统是由代理组成的分布式系统,这些代理通常是关键性的,应表现出广泛的智慧:管理动态变化的相互冲突的目标集,应对物理环境中的不确定性,并与人类和谐合作。

然而,实现自主愿景受到两方面的阻碍:一是我们对必须使用的人工智能系统缺乏信任,二是系统工程中一些与智能关系不大的难题。

让我描述一个自主代理(如自动驾驶汽车)的架构。它包含以下核心组件:

  • 感知功能:分析传感器数据,识别障碍物及其运动学属性。
  • 世界模型:外部世界的内部表示。
  • 决策功能:结合世界模型和多个目标(如避免碰撞、保持轨迹、抵达目的地)产生命令。
  • 知识库:存储关于环境物体的知识。
  • 自学习功能:监控信息并更新知识库,以增强预测和决策。

设计单个代理已经非常复杂,还需要将其集成到复杂的网络物理环境中,确保人机和谐交互,以及多个代理之间的协调(以实现集体智慧,如避免交通瓶颈)。

未来展望与总结

上一节我们勾勒了自主系统的蓝图,本节中我们以此为基础,展望人工智能的未来发展路径。

我认为未来将是传统系统工程与人工智能技术的集成。我们需要能够制造通用的人工智能制品。目前,传统的系统工程实践正在受到干扰,例如,一些制造商采用“端到端”基于AI的方法,并允许自我认证和关键软件的定期更新,这挑战了既定的安全概念。

未来发展的两个重要方向是:

  1. 全智能系统的混合设计:在传统系统工程中集成人工智能组件。
  2. 发展建立可信系统的技术:由于AI组件可能永远无法完全解释,我们需要发展基于统计估计置信度的验证技术,满足于比传统关键系统更弱的保证。

要弥合自动化与完全自治之间的鸿沟,还有很长的路要走。实现完全自治的愿景需要开发新的科学与工程基础。

关于智能本身,我们应该就智能的概念达成一致,并推广“替换测试”来相对化智能的概念。可以有多种智能,取决于选择的任务。人类智能是基准,人工通用智能应该能够执行和协调一系列具有人类技能特征的任务。

一个有趣的想法是探索可能的智能空间。人类和机器在不同维度上各有优势(例如,机器擅长分析多维数据,人类拥有常识、抽象和创造力),通过结合这些技能,可以创造出新的智能形式。

最后,智能系统的验证将是未来的热点话题。我们必须克服当前忽视验证局限性的趋势,避免降低逻辑和认知标准。神经网络的鲁棒性远不如人类思维,问题的细微变化可能导致截然不同的答案。我们应该承认对智能系统验证方法的需求,并以清晰的方式开发新的基础。

本节课总结:我们一起探讨了智能的定义,比较了人类与机器智能的差异,深入分析了机器在情境感知和常识方面的短板。我们审视了当前AI系统在验证与信任上面临的重大挑战,展望了自主系统作为AI发展的重要方向,并最终讨论了未来需要混合设计、新验证方法和更清晰智能概念的发展路径。通往强大且可信的人工智能之路依然漫长且充满挑战。

课程 1:大语言模型前沿与挑战 🚀

在本节课中,我们将学习大语言模型(LLM)的当前发展状态、面临的挑战以及未来的研究方向。我们将探讨模型规模、多模态、安全性、学术与产业合作等核心议题,并了解训练大规模模型的实际工程经验。


大语言模型的突破与反思 🤔

这些模型在某些方面开始变得令人不安地像人类。显然,它目前还不是人类,但它具有一些类人的特质。这无疑吸引了大量的关注、资金和研究投入到这类模型中。因此,在不久的将来,我们显然会看到更多投资流向这个方向。

但关于人工智能、科学乃至技术的一个普遍事实是,总会有意想不到的惊喜。这并不意味着通向通用人工智能(AGI)的道路就是简单地让语言模型越来越大。我仍然期待会有惊喜出现。不过,我们确实从规模、数据和扩展性中学到了一些经验教训,这些经验很可能在未来继续适用,即使架构本身可能出现惊喜和转变。


智源研究院的视角与研究方向 🧭

本次会议的主题是大语言模型,这对于报道AI的我来说,是一个前所未有的激动人心的时刻。

那么,作为智源研究院的主席,我很想听听您对此的看法和思考。

好的,抱歉,这里的音响效果不太好,您能再重复一遍问题吗?

我的问题是,鉴于我们正在经历AI的重大时刻,从宏观角度看,您认为这对AI研究的现状和方向意味着什么?研究院未来可能会采取哪些方向?

这无疑是一个重大突破,它让我们每一个在该领域工作的人都开始重新思考我们一直在使用的方法、构建的系统架构以及研究的算法。

在ChatGPT出现之前,有大量工作在研究各种算法。但我一直非常推崇系统方法,即AI技术、AI本身将成为一个系统,而不仅仅是单一算法。这也是我参加这个论坛讨论的原因之一。

如果您回顾我们过去的工作,在计算机科学的大多数领域,尤其是在学术界,我们倾向于关注单一算法,并试图一点一点地改进它。但OpenAI采取了一种完全的系统方法。特别是,Transformer是由谷歌研究人员发明的,他们也推出了许多相当成功的模型,但其中没有一个真正展现出ChatGPT那样的涌现能力和强大力量。OpenAI如此出色地将数据、对齐算法和推理结合在一起,引领我们取得了这一突破。

因此,我认为整个领域都在重新思考我们如何进行研究,以及什么是解决AI问题最合适、最有效的方法。

举个例子,在自然语言处理这个AI非常基础的子领域,当ChatGPT出现时,据我所知,中国顶尖大学的一些研究组基本上都在告诉自己:我们需要回头审视。实际上,有一所大学真的告诉博士生:如果你今年毕业,我们无法阻止你,因为你必须毕业;但如果你明年毕业,你需要重新思考你的论文,因为你试图解决的问题可能已经被GPT模型解决了。所以,虽然你仍然可以毕业,但继续沿着原来的方向,你的工作就意义不大了,我的意思是,在推动前沿技术方面。

这确实非同寻常。我最近在麻省理工学院参加了一个活动,一些语言学家和认知科学家也在说,GPT-4和这些大语言模型正在改变他们的领域,我想也在改变科学的其他领域。


模型缺失的能力与创新方向 💡

肯尼斯,关于模型可能缺失什么这个话题,您觉得有趣吗?我是说,特别是ChatGPT,有没有让您觉得这是一个真正令人兴奋的新方向?洪江刚才提到了一些事情,我很好奇您的想法。

当我们思考可能缺失什么以及令人兴奋的新方向时,我的意思是,有些新方向是建立在现有成果之上的,现在我们可以探索以前不可能的事情;当然,模型也存在一些局限性。

也许可以先从建立在现有成果之上的令人兴奋的方向说起。我认为有一个非常不寻常的方向,我通常不常听人提起,但我经常思考,那就是我们以前从未有能力让计算机真正去处理“什么是有趣的”这个问题。

即使回想两三年前,你也无法想象从主观角度开始说:看看这个想法,告诉我你的看法,这真的是个好主意吗?它朝着好的方向发展吗?但这是第一次,你实际上可以让计算机开始处理这种主观问题。如果你仔细想想,这是一个极其重要的问题:什么是有趣的,什么是无趣的。尽管这完全是主观的,因为它是所有研究和创新生长的土壤。我决定做什么是基于我认为什么是有趣的。所以,如果这类模型有一天真的要解决我们世界上的重大、关键问题,它们需要思考哪些方向最有趣去追求,这样这些方向才能成为实际解决这些问题的垫脚石。

“有趣性”与你是否在解决问题是分开的,它只是一个问题:这是一个有趣的研究想法、一件有趣的艺术品还是一个有趣的故事?非常引人入胜的是,它突然可以开始参与这个问题,而不仅仅是给你一个评分,它甚至可以给你一个清晰的分析,说明为什么某件事有趣。这是创新的开始,是自主创新的开始。所以我认为这非常有趣,现在这成为可能了。

我也可以谈谈我认为有哪些有趣的局限性,但我不确定你是否想现在就朝那个方向讨论。

实际上,为什么不呢?洪江,您怎么看这个关于算法识别“什么是有趣”的想法,也许这是一种创新?这个概念听起来有前途吗?

绝对是,尽管我自己的专业领域不一定在这方面,但这绝对是一个非常有前途的方向。


模型的原创性与新颖性挑战 🎯

我想知道,肯尼斯,您认为……模型能告诉你一些人类无法告诉你的有趣事情吗?我的意思是,因为有时当你看到ChatGPT时,它令人印象深刻,但似乎并不那么原创。那么,您是否看到过它发现了一些可能没有人会认为有趣的东西的例子?

好问题。是的,我绝对相信,当与人类对有趣性的本能相比时,这些模型存在严重的局限性。确实,它们还差得远。所以,这只是处理“什么是有趣”这个问题的能力的开端。但这仍然非常有用,因为每当你思考“接下来我该做什么”时,它总是会出现。如果你想让某个东西自己思考“完成这个任务后,接下来做什么有趣的事情”,它必须稍微思考一下。即使只能做到一点点,也仍然非常引人入胜。但这显然是我们需要在此基础上继续发展的东西。

事实上,当你谈到缺乏原创性时,这完全正确。它们不会具有原创性,这是我认为需要改进模型的一个非常有趣的局限性。我想指出,原创性与新颖性相关。新颖性出现了,我认为当前的范式在真正识别新颖性方面存在问题。

因为如果你仔细想想,新颖性是时间顺序的函数,它取决于事件发生的顺序,你现在有的想法是否新颖。但如果你想想,模型是同时接触到所有历史数据的,它并不将其训练数据体验为按顺序发生的时间线。因此,它实际上并没有体验到那种“顿悟”的时刻,当你觉得“哦,这真的很有趣,因为我以前从未见过类似的东西”。所以,例如,如果数据中说“那是一个真正新颖的想法”,它并不是在“之前发生了什么”的背景下,而是在“曾经发生过什么”和“之后发生了什么”的背景下。这与我们体验新颖性的方式非常不同。

正因为如此,新颖性在任何实质性意义上都不存在于数据中。这意味着我预计它不擅长思考新颖性、生成新颖性等等。要解决这个问题,我认为需要某种范式转变,因为你必须处理时间顺序。


强化学习、对齐与多模态未来 🤖

这太迷人了。本周早些时候,我和DeepMind的人聊过,他谈到了强化学习的重要性。显然,AlphaZero和AlphaGo能够想出完全新颖的策略,这与语言模型非常不同,但这很有趣,比如人们永远无法想出的东西。

但我想知道,您提到了对齐,洪江,强化学习或其他类型的机器学习是否作为拓宽模型能力的一种方式,引起了研究院的兴趣?

实际上,强化学习和对齐在构建大模型时并不是两件不同的事情。实际上,在训练过程中,强化学习被用于对齐过程。这正是使ChatGPT、使GPT-4比GPT-3.5好得多的原因。从GPT-3到InstructGPT再到ChatGPT,真正关键的是使用了强化学习进行人类反馈的对齐过程。所以,在对齐过程中,强化学习是一种超级重要的学习算法。对齐本身也是通向AGI、大模型安全以及与人类价值观对齐的关键步骤方法。因此,它超级重要。

同时,对齐本身也是一种非常有效的方法,可以将模型精炼和训练到特定的应用中。通过对齐过程将更多领域特定的数据融入模型,这将帮助我们真正使模型适应各种场景、各种应用、各个垂直领域。

这很棒。还有其他您感兴趣或认为……我知道有WuDao模型,我的理解是它与其他模型有些不同,它从一开始就是多模态的,对吧?您是否在关注其他机器学习技术?对于下一代语言模型,您对什么感兴趣?

在ChatGPT或GPT-4之前,该领域的人们一直在研究各种模型,比如谷歌大脑推出了BERT等等。所有这些研究和研究人员都为大规模模型领域做出了贡献。尽管今天我们看到基于Transformer的预训练,结合对齐,是最有效的方法,引领了GPT-4以及许多试图复制GPT-4成功的模型。

但我们确实看到,存在一个广阔的空间,仍有许多问题尚未解决,需要进一步的研究,这为新的架构甚至全新的架构提供了理由。

您也提到了多模态模型。这绝对是该领域人们正在努力追求的一个方向,我们确实将其视为AI模型的未来方向,如果不是最终方向的话。我们人类通过多模态感知信息、获取知识。我们阅读,从语言中学习,但我们也看电影,看视频,看图片。我们获取信息的方式是多模态的。我不是神经科学家,但我相信我们大脑中的思维也是多模态的。所以,没有理由我们的AI模型只能是语言模型。

但我想强调,语言模型是基线,是平台。我们学习如何构建模型、构建语言模型的技术,我们从中学到的内部原理,将帮助我们开发多模态模型。实际上,多模态模型可以简单地看作是语言模型的延续。使用Transformer作为基本架构的好处在于,对于Transformer来说,每个模态的数据都只是一个序列。文本、语言是一个序列。图像,如果你通过图像块扫描,也是一个序列。视频是一个序列,音乐也是一个序列。所以它可以处理、承载所有这些信息,并将它们嵌入到学习训练结构和模型本身中。

所以,如果我们相信未来将是自主智能,意味着模型本身可以进行推理、理解、规划和采取行动,那么模型本身必须是多模态的,并且肯定要应用于机器人技术、未来的自主机器人技术以及通用自主机器人技术,它绝对将是多模态模型。


时间顺序与模型局限性 ⏳

这是一个很好的过渡,肯尼斯。您关于开放式学习、持续学习的工作,以及您刚才提到的关于时间数据表明,也许我们接近智能的方式还有更多维度……这么说公平吗?我的意思是,您如何看待这种多模态性和构建智能系统的其他方式?您认为这需要完全不同的架构和方法吗?

是的,我的意思是,我认为有很多,因为这些模型如此强大,从一个研究者的角度来看,思考缺失了什么非常引人入胜。我经常思考还缺少哪些基本的东西。你知道,没有很多东西是非常明显缺失的,因为你可以说,只要数据里有,它最终总会被捕捉到。所以我们拥有大量数据是一个巨大优势。

但有一些非常具体的事情,新颖性并不仅仅内在于数据中,因为数据呈现的方式。其中之一就是这种时间顺序。时间顺序不在数据中,因为数据不是按时间顺序呈现的。另一个类似的是多模态性。当然,多模态性不在纯文本数据中。所以这显然是一个机会。毫无疑问,我们将会看到多模态方面的进步。

但时间顺序有点不同,因为你不能只是把它放进去。确切地说这意味着什么并不清楚。你不能只是把时间顺序数据放入一个不按时间顺序处理事物的东西中。有一个小地方你可以把时间顺序偷偷塞进这些模型,那就是上下文本身或提示中。这是一个它可以有顺序的地方。但问题是,像所有人类历史这样庞大的信息,通常无法放入当前类型的提示空间中,可能很长一段时间内都无法。对于整个互联网来说也是如此。所以这是一个问题,只是一个有趣的研究问题。

所以我认为只有少数几件这样的事情,比如时间顺序和多模态性,你可以具体指出。其他的则更像是模糊的愿望,比如“幻觉”问题,我们看到问题,但我们不能真正确切指出缺失的是什么,问题到底是什么。有时我在想,也许幻觉问题在于,理解你实际知道什么和不知道什么是一种非语言活动,这意味着它不会出现在数据中。就像我为了思考我是否真的记得某件事而在脑海中进行的推理过程,当我在头脑内部,并没有实际表达出来,只是试图回忆别人问我的事情时,有一个推理过程让我得出结论:我实际上不知道那个,或者我知道那个。也许如果它是非语言的,并且不在数据中,因为数据只是从你嘴里说出来的,而不是之前隐含在你脑海里的,那么也许那里缺少了什么东西。但这更模糊,更难具体指出。但这只是一个普遍有趣的练习,思考还缺少什么,我们可以在哪些地方推进,也许能从认知科学中获得一些重要的见解。


认知科学与神经科学的启示 🧠

所以,如果你想想那些展示人们思考或推理方式的实验,有时它不是语言的或不是文本的。您认为这是一个重要的方法吗?也许可以继续您刚才说的?

也许吧。我的意思是,我认为从历史上看,这并没有很好地实现。如果你看看大语言模型及其成功的方面,这是相当了不起的,其中大部分并不是研究认知科学实验的结果,也许这让认知科学家们感到懊恼。但这并不意味着它将来不会有帮助。但我更多地认为这只是作为一种灵感,因为你知道,非常隐式的非语言推理,如果它存在,是那么难以触及。我更期望它会是某种正确训练方式中涌现出来的东西,而不是你可以明确提取然后写下来“这就是它如何工作的”那种东西。所以我猜想,你更希望以某种方式重组训练,也许你可以强化类似那样的学习,这样我们就能引出这些非语言的步骤,这些步骤对应于当我们试图确定某件事是否真实或是否可以被记住时所做的事情。

洪江,我知道您的研究院里有神经科学家和认知科学家。您认为我们可以从这些领域学到什么?

这是一个奇怪的时代,因为感觉语言模型解决了这么多问题。但是,是的,也许仍然有一些东西我们认为肯定可以从那些领域学习,但这仍然是正在进行的研究,老实说,目前还有很多工作要做,我们还没有得出任何可以应用于构建大模型的重要结论。

另一方面,实际上,我不知道你是否读过OpenAI团队最近发表的工作,关于使用GPT-4来分析GPT-2,以了解神经元在GPT-2中的功能。当GPT-2生成特定的上下文或输出时,这非常非常有趣。所以我实际上鼓励那些从事神经科学研究的人尝试从这里借鉴一些想法。不仅仅是我们从神经科学家那里借鉴想法,反过来也是一个非常有趣的研究方向。

回到你的问题,是的,在智源研究院,我们有一个来自清华大学和北京其他大学的科学家组成的扩展团队,我们正在精确地研究从神经科学学习的问题。我们还有一个小团队在构建我们所谓的生命模型,模拟人类器官和大脑,以帮助神经科学家研究,例如,如果特定的神经元被激活,整个大脑会如何反应。我们实际上有一个小团队在做这个,我们昨天在会议的年度报告中报告了这一点。


模型规模、算力与学术合作 💻

这太酷了。谈到大脑的复杂性,让我想到另一个话题,那就是这些模型的规模、所需的计算能力。你知道,这非常了不起,我想我们都知道这一点,这也是我们看到如此惊人结果的原因之一。但是,洪江,对您来说,您认为这对研究意味着什么?这是否意味着它将变得不那么容易获得,不那么可能让那么多人从事这些模型的研究?您认为我们是否会看到更多努力来制造更小的模型?这些模型的规模和数据量告诉您关于未来方向的什么?

你实际上提出了很多问题。一个非常直接的问题,我想解决的是,你提到了研究人员将如何应对这个问题,因为任何与大模型相关的工作都需要大量的计算能力,这显然需要他们在系统上合作,彼此之间合作,并与产业伙伴合作。

以清华大学为例,如果你数一数有多少教授和研究人员在从事与大模型相关的课题,他们实际上拥有相当多数量的GPU,但它们分散在不同的研究组中,对吧?所以,让他们联合起来,整合他们的资源,显然是解决他们想要研究更大问题的一个方案。

但我也想说,科学家,尤其是大学里的科学家,应该并且倾向于研究基本问题、基础问题,其中许多仍然可以在没有巨大计算能力的情况下进行研究。但如果他们想构建系统,他们绝对需要彼此之间以及与产业界合作。

但我愿意从一个积极的角度看待这个问题。实际上,我认为GPT-4的突破让我们研究界,尤其是学术界的许多人重新思考在计算机科学和人工智能领域进行研究的最佳方式是什么。如果我们想构建一个系统,如果我们相信AI是一个系统,问题只能通过系统方法解决,那么我们就应该集中我们的努力,整合我们的资源,真正将研究问题塑造成我们可以共同合作的东西。

我认为您在将学术界和产业界结合起来方面已经做了一些令人印象深刻的工作。

但这确实需要付出很多努力。


产业与学术界的协作模式 🤝

那么,这其中最具挑战性的事情是什么?

嗯,我想我首先要说,GPT-4的成功实际上对我们帮助很大。所以从现在开始,我认为会容易得多。但两年前要困难得多。学术界的一个基本特征是自由,教授们可以研究他们感兴趣的任何东西,这是学术界的好事。但是,当我们想把学术界的所有人聚集起来共同研究一个问题时,他们自然会从不同角度看待问题,哦,我做这部分,他做那部分。但让他们共同致力于一件事,甚至试图将一个更大的问题分解成若干部分,让每个人负责一部分,这太难了,因为这不是学术界的运作方式。

实际上,这恰恰说明了为什么第一个成功来自OpenAI,因为他们采取了系统和工程方法。而谷歌大脑拥有更大的资源和更知名的科学家团队,但他们无法将努力集中到一个模型上,而是推出了许多模型。这展示了大学学术界的情况更加分散。所以这确实需要付出大量努力、信念以及激励人们和合理分配资源的能力。


资源鸿沟与学术研究的价值 🎓

是的,这很棒。肯尼斯,我的意思是,您曾在OpenAI,我猜他们围绕这种单一方法有很强的信念。但您后来去了学术界,那么您的想法是什么?为什么不留在拥有大量资源的地方?

您的意思是,我在OpenAI之后去了学术界?实际上,我在去OpenAI之前就是学术界的人。哦,我明白了,您实际上是反方向流动的。哦,我明白您的意思了。是什么吸引了您?是那样吗?

这是一个很长的故事。但故事的一部分是,我认识到我将获得 vastly greater resources。我的意思是,这当然是我考虑的因素,我认为这对学术界来说是一个大问题,产业界倾向于把教授从学术界吸走,这伤害了这些院系和整个学术事业。我认为值得大学方面深思如何应对这个问题,因为从他们的角度来看,这是前所未有的。我的意思是,大多数学术领域没有发生过这种事情,去其他地方更有利可图、条件更好,人们没有这种选择权。但在这个领域,情况非常不同。所以我认为大学需要以不同的方式对待这个领域的教授,这样我们才能维持那种培养下一代并孕育这些思想的架构,而这些思想在产业界是得不到的。所以双方都完全重要。


AI安全与长期风险 ⚠️

这些想法很棒。我们讨论了很多关于语言模型和ChatGPT的话题,但还没有提到安全性,以及AGI带来的那种存在性安全。我的意思是,我通常不会提起它,但这是一个讨论的热门话题。似乎很多人都在认真对待短期和长期风险。

所以我想问,这如何影响研究?我的意思是,这似乎将成为一个巨大的新研究领域,它会影响信息披露吗?肯尼斯,您认为这会如何改变现状?我不知道您在AGI和AI担忧谱系上处于什么位置。

不,我认为值得担忧。但我的意思是,我更多处于一种不确定的状态,我不完全确定该有多担心。但我认为值得担忧,因为有很多事情可能最终成为非常重大的短期和长期威胁。但你知道,很多人以确定的态度讨论这个问题,我认为在目前这个时间

生成模型论坛 - P1 - 智源社区 - BV1e14y1m7Rr

课程概述 📚

在本节课中,我们将学习生成模型的前沿进展。课程内容整理自2023年北京智源大会生成模型论坛的演讲,涵盖了从基础理论到多模态应用等多个方面。我们将跟随多位顶尖研究者的分享,深入理解生成模型的核心思想、技术挑战以及最新突破。


论坛开场与嘉宾介绍 🎤

欢迎来到2023年北京智源大会的生成模型论坛。我是论坛的主席和主持人李崇轩。

我们非常荣幸邀请到斯坦福大学Man教授、浙江大学赵州教授、智源研究院刘广研究员、UCLA周博磊教授以及斯坦福大学吴家俊教授,为大家带来生成模型的前沿进展报告。

论坛最后将有一个简短的圆桌讨论,邀请清华大学朱军教授与各位讲者进行更深入的探讨。


第一节:基于分数的生成模型理论 🔬

本节中,我们将跟随斯坦福大学Man教授的分享,探讨如何绕过概率密度函数建模的难题,转而使用“分数”来构建更灵活的生成模型。

生成模型的挑战与目标

生成模型的目标是理解并模拟自然数据的分布,例如图像。我们假设存在一个未知的底层数据分布 P_data(x),它给合理的图像(像素组合有意义、物体结构正确)分配高概率。我们只能访问从该分布中采样得到的大量样本(例如互联网图像)。

目标是构建一个模型分布 P_model(x; θ),使其尽可能接近真实数据分布。如果成功,我们可以:

  1. 从模型中采样:生成符合数据分布的新图像。
  2. 评估概率:判断给定图像是否可能来自该分布,可用于检测异常输入或对抗攻击。

直接建模概率密度的困难

一个自然的想法是使用深度神经网络来构建这个复杂的概率函数:P_model(x; θ) = exp(f(x; θ)) / Z(θ)

  • f(x; θ) 是神经网络的输出。
  • Z(θ) 是归一化常数(配分函数),确保概率总和为1。

然而,计算 Z(θ) 涉及在高维空间(所有可能图像)上的积分,这在计算上是难解的(即使是离散空间,也是#P完全问题)。

分数函数:一个更好的替代方案

解决方案是转而建模概率密度函数的梯度,即分数函数(Score Function)s(x) = ∇_x log p(x)

直观上,概率密度函数 p(x) 在点 x 处的分数是一个向量,指向概率增长最快的方向。

关键优势

  • 分数函数不需要满足归一化约束。当我们对 log p(x) = f(x; θ) - log Z(θ) 求关于 x 的梯度时,与 x 无关的 log Z(θ) 项消失:∇_x log p(x) = ∇_x f(x; θ)
  • 因此,我们可以直接用一个神经网络 s_θ(x) 来建模分数,无需担心难解的归一化常数。

从数据中估计分数函数

给定从数据分布中采样的训练集,我们需要训练分数模型 s_θ(x) 以逼近真实分数 ∇_x log p_data(x)

一个合理的目标是最小化模型分数与真实分数之间的差异。这可以通过分数匹配(Score Matching) 目标函数实现,其基本形式是费舍尔散度(Fisher Divergence):
J(θ) = 1/2 * E_{p_data(x)} [ || s_θ(x) - ∇_x log p_data(x) ||^2 ]

通过分部积分,可以将其转化为一个不依赖于真实分数的、可计算的形式:
J(θ) = E_{p_data(x)} [ trace(∇_x s_θ(x)) + 1/2 || s_θ(x) ||^2 ] + const.

其中 trace(∇_x s_θ(x)) 是分数函数雅可比矩阵的迹。为了高效计算,可以采用切片分数匹配(Sliced Score Matching) 等方法,通过比较随机投影来近似,从而将计算复杂度与数据维度解耦。

使用分数模型生成样本:朗之万动力学

有了分数模型,我们如何生成样本?直观策略是:从随机噪声开始,沿着分数(梯度)方向移动,走向高概率区域。

一个有效的采样算法是朗之万动力学(Langevin Dynamics)
x_{t+1} = x_t + ε * s_θ(x_t) + √(2ε) * z_t, 其中 z_t ~ N(0, I)

它在每一步跟随梯度并添加少量噪声。理论上,当步长 ε 足够小、迭代步数足够多时,生成的样本将服从模型分布。

解决低概率区域分数估计不准的问题

然而,直接应用上述方法可能失败。因为分数匹配只在训练数据覆盖的区域(高概率区域)能准确估计分数。在低概率区域(如随机噪声),分数估计可能非常不准确,导致朗之万动力学迷失方向。

解决方案是用噪声扰动数据。通过向数据添加不同强度的高斯噪声,我们得到一系列扰动数据分布 p_σ(x) = ∫ p_data(y) N(x; y, σ^2 I) dy

  • 添加噪声后,分布的支持集覆盖整个空间,使得我们能够在所有区域估计分数。
  • 但我们现在采样的是噪声数据,而非干净数据。

多噪声水平与退火朗之万动力学

最终的方案是使用多个噪声水平{σ_1, σ_2, ..., σ_L},其中 σ_1 最大,σ_L 趋近于0。

  1. 我们训练一个条件分数网络 s_θ(x, σ),使其能估计每个噪声水平下的分数。
  2. 采样时,采用退火朗之万动力学(Annealed Langevin Dynamics)
    • 从最大噪声水平 σ_1 开始,用朗之万动力学从噪声中采样,得到近似分布 p_{σ_1}(x) 的样本。
    • 将这些样本作为下一级噪声水平 σ_2 的初始点,继续采样。
    • 重复此过程,直到噪声水平足够小(σ_L),此时采样结果近似来自干净数据分布 p_data(x)

这种方法在2019年左右首次在CIFAR-10等数据集上取得了超越生成对抗网络(GANs)的生成质量,成为了当前Stable Diffusion、DALL·E 2、Midjourney等强大文生图模型的核心技术基础。

基于分数的可控生成

分数模型的一个强大之处在于便于进行条件生成。假设我们有一个先验生成模型 p(x) 和一个前向模型(如分类器)p(y|x),我们希望从后验分布 p(x|y) 中采样。

根据贝叶斯规则:p(x|y) = p(y|x) p(x) / p(y)。计算分母 p(y) 同样是难解的。

但如果我们考虑对数后验的分数:
∇_x log p(x|y) = ∇_x log p(y|x) + ∇_x log p(x)

可以看到,难解的归一化项 p(y) 在对数梯度中消失了。因此,后验分布的分数 = 先验模型的分数 + 似然函数的分数。

这开启了多种应用:

  • 类别条件生成:结合无条件图像生成模型和图像分类器,生成指定类别(如“狗”)的图像。
  • 草图生成图像:结合生成模型和草图一致性似然函数。
  • 语言引导图像生成:结合生成模型和图像描述模型,实现文生图。
  • 医学图像重建:结合医学图像先验模型和物理成像前向模型,实现高质量重建。

与扩散模型的联系

当考虑连续无限的噪声水平时,上述框架便与扩散模型(Diffusion Models) 联系起来。

  • 前向过程:定义一个随机微分方程(SDE),从数据 x(0) 开始,逐步添加噪声,直到在时间 T 变成纯噪声 x(T)
  • 反向过程:生成数据对应于从噪声 x(T) 反向运行SDE到 x(0)。关键的是,这个反向SDE的漂移系数依赖于分数函数 ∇_x log p_t(x)
  • 因此,通过分数匹配估计分数,我们就能定义反向SDE,从而从噪声生成数据。

这种SDE视角带来了额外优势:

  • 可以将反向SDE转化为一个确定性的常微分方程(ODE)。
  • 利用数值ODE求解器的丰富技术,可以设计更快的采样器(如通过更粗的时间离散化、并行求解、知识蒸馏等),实现一步或几步的高质量生成。

本节总结

本节课我们一起学习了分数生成模型的核心思想:

  1. 通过建模分数函数而非概率密度,绕过难解的归一化常数问题。
  2. 使用分数匹配目标,可以从数据中直接训练分数模型。
  3. 采用多噪声水平退火朗之万动力学来解决低概率区域分数估计不准的问题,实现高质量样本生成。
  4. 分数模型天然支持可控生成,通过简单相加即可结合先验和似然模型。
  5. 该框架与扩散模型等价,并可通过ODE求解器加速采样。
    这些技术构成了当前图像、视频、语音等领域生成式AI大进展的核心基础。

第二节:多模态音频生成式模型 🎵

上一节我们介绍了生成模型的基础理论,本节中我们来看看生成模型在音频领域的应用。我们将跟随浙江大学赵州教授的分享,探讨语音、歌声及开放域音频的生成技术。

语音合成:从文本到语音

语音合成(TTS)旨在将文本转换为自然的人声语音。其流程通常分为三部分:

  1. 前端:文本分析,提取音素、韵律等信息。
  2. 声学模型:将音素序列映射为声学特征(如梅尔频谱图)。
  3. 声码器:将声学特征转换为最终的语音波形。

本节聚焦于声学模型的生成式方法。

快速推理与高质量生成的平衡

以下是语音合成模型演进中需要解决的关键问题及对应工作:

  • 问题:自回归模型推理慢,存在漏词
    • 工作:FastSpeech 采用非自回归架构,引入长度调节器(Length Regulator)预测每个音素的持续时间,实现并行解码,极大加速推理。
  • 问题:在加速的同时保持或提升音质
    • 工作:FastSpeech 2 扩展了预测目标,不仅预测持续时间,还预测音高、能量等更多声学特征,进一步提升了生成质量。
  • 问题:模型参数量大,不利于端侧部署
    • 工作:PortaSpeech 级联变分自编码器(VAE)和基于流的模型,在保持音质的同时大幅压缩模型参数量。
  • 问题:中文的多音字问题
    • 工作:引入中文词典,结合上下文信息来准确确定多音字的发音。
  • 问题:实现个性化与泛化
    • 工作:对声学特征进行解耦,在韵律等离散特征上应用语言模型,实现零样本语音合成和音色转换。

歌声合成

歌声合成比语音合成更具表现力,得益于扩散模型的应用。

核心思想:采用两阶段级联模型。

  1. 第一个模型(如FastSpeech)捕获语义信息,生成一个初步的、表现力较弱的频谱。
  2. 第二个模型(扩散模型)以初步频谱为条件,进行多步去噪,生成高质量、富有表现力的歌声频谱。

这种方法(如DiffSinger)能合成音高准确、富有情感的歌声,并支持变调、音色克隆、歌声美化等编辑操作。

开放域音频生成

开放域音频生成的目标是根据文本、图像、视频等多种模态的提示,生成对应的音效或环境声。

以下是该方向的系列工作:

  • Make-An-Audio:基于扩散模型,支持从文本、图像、视频生成对应音频,或进行音频修复。通过设计数据增强规则,从有限的音频-文本对数据中构建大规模训练集。
  • Make-An-Audio 2:利用大语言模型(LLM)进行更复杂、时序性的提示词增强,生成更具时序结构和逻辑的音频。
  • Make-A-Voice:对音频进行解耦和离散化表示。将语义信息映射到离散token,声学信息用另一套token表示,从而实现高效的零样本语音合成、歌声合成和声音转换。
  • AudioGPT:将上述多种音频生成与理解能力集成到一个统一的大语言模型框架中,通过对话交互完成复杂的多模态音频任务。

本节总结

本节课我们一起学习了生成式模型在音频领域的应用进展:

  1. 语音合成上,通过非自回归、特征解耦、模型轻量化等技术,实现了高速、高质量、个性化的合成。
  2. 歌声合成上,利用扩散模型增强表现力,实现了富有情感的歌声生成与编辑。
  3. 开放域音频生成上,结合扩散模型与大语言模型,实现了从多模态提示生成复杂音频,并向统一的多模态对话系统演进。

第三节:低资源多语言文生图模型 🌍

上一节我们探讨了音频生成,本节我们将视角转向视觉领域,特别是文生图模型在多语言环境下的挑战。我们将跟随智源研究院刘广研究员的分享,了解如何解决高质量多语言数据稀缺的问题。

背景与挑战

Stable Diffusion等文生图模型取得了巨大成功,但其核心组件CLIP文本编码器主要基于英文训练,导致其对其他语言的理解和生成能力较弱。

主要挑战

  1. 高质量多语言图文数据稀缺:现有开源数据集语言分布极不均衡,中文等语言数据量少,且高质量艺术、设计类数据难以获取。
  2. 可控生成精度有待提升
  3. 生成效果评估困难

解决方案:AltCLIP与AltDiffusion

我们的工作重点解决第一个挑战,核心思路是不依赖大规模多语言图文对,训练多语言文生图模型

步骤一:训练多语言CLIP模型(AltCLIP)

  • 方法:通过知识蒸馏,仅使用平行语料(中英句子对),将英文CLIP的文本编码能力迁移到其他语言(如中文)。
  • 优势:避免了收集海量多语言图文对的困难,且在提升中文能力的同时,基本保持了原有的英文能力。

步骤二:构建多语言文生图模型(AltDiffusion)

  • 方法:将训练好的多语言CLIP(AltCLIP)替换Stable Diffusion中的原始CLIP,固定其参数,然后训练图像生成模块(U-Net)来适应新的文本编码器。
  • 结果:得到了支持18种语言的文生图模型AltDiffusion-M18。

模型特性与应用

  • 文化感知:模型展现出一定的文化感知能力。例如,使用亚洲语言生成“小男孩”可能得到亚洲人脸型,而使用欧洲语言则可能得到欧洲人脸型。
  • 无缝兼容开源生态:模型可与ControlNet、LoRA等流行可控生成工具无缝结合,实现高精度编辑和个性化风格学习。
  • 与语言模型结合:探索将大语言模型与文生图模型结合,通过语言模型解析复杂、多步骤的编辑指令,调用可控编辑模块执行,实现复杂的交互式图像编辑。

本节总结

本节课我们一起学习了针对低资源语言的文生图解决方案:

  1. 通过平行语料知识蒸馏训练多语言文本编码器(AltCLIP),绕过了对海量多语言图文数据的依赖。
  2. 将多语言CLIP与扩散模型结合,构建了多语言文生图模型(AltDiffusion),并观察到其文化感知特性。
  3. 模型能兼容开源工具链,并探索与大语言模型结合实现复杂指令编辑。所有模型和工具已在FlagAI开源平台发布。

第四节:基于鸟瞰图的可控场景生成与仿真 🚗

本节我们将进入三维视觉与机器人领域。跟随UCLA周博磊教授的分享,我们将学习如何利用鸟瞰图这一简洁表征,进行大规模场景的生成与物理仿真。

为何使用鸟瞰图?

鸟瞰图(BEV)提供了物体在三维空间中的布局信息,是一种紧凑且易于编辑的表征。相比于直接在二维图像上编辑,在BEV空间操作能更准确地反映物体的三维位置关系,非常适合用于场景生成驾驶仿真

从鸟瞰图生成多视角图像(BEVGen)

任务:输入一个描述场景布局的鸟瞰图,生成多个第一人称视角的相机图像。

  • 挑战:保证不同视角生成图像的一致性(如重叠区域的物体应对齐)。
  • 方法:采用VQ-VAE-2架构,将鸟瞰图编码为特征,解码时通过设计注意力机制来融合不同视角的位置信息,从而生成一致的多视角图像。

迈向三维感知生成(DiFusion)

目标:生成具有三维一致性的场景,而不仅仅是二维图像。

  • 方法:将生成模型与神经辐射场(NeRF)结合,提出生成式NeRF框架。
  • 流程:输入鸟瞰图布局 → 生成三维场景的神经表征(包含背景和多个前景物体)→ 通过体积渲染得到任意视角的图像。
  • 优势:支持在三维空间中进行直观编辑(如移动、添加、删除物体,改变物体形状材质),并保证渲染结果的三维一致性。

大规模场景生成

将生成范围从单个场景扩展到无限大的场景。

  • 思路:将大场景生成视为空间上的“视频”生成问题,或者训练模型学习场景的局部结构,并通过平移等变性来合成更大范围。
  • 应用:允许用户通过交互界面在鸟瞰图上放置物体,实时生成对应视角的图片,构建一个“神经仿真器”。

基于鸟瞰图的驾驶场景仿真(MetaDrive)

为了将生成的内容用于机器人决策(如自动驾驶),需要可交互的物理仿真。

  • MetaDrive仿真器:一个高效、开源的驾驶仿真平台,支持从真实驾驶数据集(如nuScenes, Waymo)导入道路网络和车辆轨迹。
  • 交通场景生成(TrafficGen):使用生成模型(两部分:车辆布局生成+轨迹

类脑计算专题论坛 - P1 - 视觉稳定与神经编码 🧠

在本节课中,我们将学习类脑计算领域中的两个核心议题:跨眼跳视觉稳定的神经机制,以及大脑信息处理的基本编码问题。课程内容整理自智源社区类脑计算专题论坛的专家演讲与讨论。

概述:从视觉稳定到神经编码

上一节我们介绍了本次论坛的背景和三位主讲人。本节中,我们将深入探讨钱宁教授关于跨眼跳视觉稳定的研究,以及后续圆桌讨论中关于神经编码这一根本问题的见解。理解这些机制是构建类脑智能系统的关键一步。

第一部分:跨眼跳视觉稳定与感受野重映射 👁️

什么是跨眼跳视觉稳定?

视觉信息进入大脑的唯一途径是视网膜。然而,视网膜因眼动(例如每秒3-4次的快速扫视)而不断移动。因此,空间中的同一位置会投射到视网膜的不同部位。问题是,尽管存在这些眼动,大脑如何构建准确且稳定的世界空间表征?

公式化描述:设扫视前,空间点 P 在视网膜上的位置向量为 R_pre。扫视后,眼球位置改变,同一点 P 的视网膜位置向量变为 R_post。如果大脑仅依赖视网膜输入,会感知到 P 的位置发生了跳跃 (R_pre -> R_post)。但实际上我们的感知是稳定的,这被称为跨眼跳视觉稳定。

实现稳定的两种主要机制模型

以下是两种解释该现象的主要计算模型:

  1. 头中心或颅顶中心表征:建立不随眼动而改变的头中心坐标系。

    • 隐式头中心表征:结合视网膜拓扑感受野和眼位增益场,产生分布式的头中心编码。
    • 显式头中心感受野:在视觉处理的高级区域发现具有头中心感受野的神经元。
  2. 视网膜拓扑表征的跨眼跳更新:利用眼动运动指令的副本(即“参考副本”或“corollary discharge”)来预测并更新视网膜表征。

    • 核心思想:当计划从位置A扫视到B时,运动指令的副本被发送到视觉相关脑区,将当前位置 R_pre 的内部表征更新为预期的 R_post。这样,实际的视网膜输入变化 (R_pre -> R_post) 就不再是“意外”,从而维持了稳定感。

本演讲主要聚焦于第二种机制。

感受野重映射:前向与汇聚

实现上述更新的关键机制是扫视期感受野重映射

  • 定义:在顶叶内区或额叶眼动区记录一个神经元。其感受野在视网膜上的位置通常随注视点移动而平移(视网膜拓扑性)。但在猴子执行扫视前,其感受野会提前在空间和时间上扩散,覆盖原始位置和扫视后新位置之间的区域。
  • 术语
    • 当前感受野:扫视前的感受野。
    • 未来感受野:扫视后的感受野。
    • 扫视期感受野:扫视发生期间,覆盖上述两者之间区域的感受野。
  • 争议:重映射的方向存在争议。
    • 前向重映射:感受野朝扫视方向(即未来感受野方向)移动。这被认为与跨眼跳视觉稳定的预测机制直接相关。
    • 汇聚重映射:感受野朝扫视目标位置汇聚。有观点认为这可能与注意机制相关,而非视觉稳定。

实验发现:时间进程揭示双重机制

通过引入延迟扫视范式,研究团队能够更精细地测量重映射的时间进程。以下是主要发现:

  • 在延迟期早期,重映射方向介于初始注视点和扫视目标之间。
  • 在延迟期后期,重映射方向汇聚向扫视目标。
  • 在扫视期早期,重映射仍指向目标(汇聚)。
  • 在扫视期发生时刻,重映射方向转为指向前向(未来感受野位置)。

结论:大脑中同时存在汇聚重映射前向重映射,它们在不同时间点发生,可能承担不同功能。

解释双重机制的电路模型

为了解释上述现象,研究者提出了一个结合两种连接的电路模型:

  • 参考副本门控的连接:解释前向重映射。扫视运动指令的副本门控特定连接,将未来感受野区域的活动“预激活”到当前记录的神经元。
  • 中心环绕式的连接:解释汇聚重映射。通过空间域内兴奋与抑制的中心环绕式连接模式,在调制下可以产生向中心点汇聚的活动偏移。

从任务训练中自然涌现的连接模式

更有趣的是,当训练人工神经网络完成“跨眼跳更新视网膜位置向量”的任务时,网络自发演化出了类似上述模型的连接模式:

  • 一部分连接表现出参考副本门控的特性(产生前向重映射)。
  • 另一部分连接表现出注意调制的对称特性(产生汇聚重映射)。

这表明,为了完成跨眼跳视觉稳定这一计算目标,前向和汇聚两种重映射机制可能是网络自然找到的解决方案。


第二部分:圆桌讨论 - 神经编码的根本问题 💬

上一节我们探讨了视觉稳定的具体神经机制。本节中,我们来看看一个更基础的问题:大脑信息处理的编码原理是什么?这是连接生物硬件与信息处理功能的关键界面。

问题的核心:什么是神经编码?

从信息论角度看,任何信息系统都需要物理载体和编码方案(如比特)。对于大脑,最基本的问题是:神经元的放电活动如何编码信息?即神经编码问题。尽管我们在神经元、突触层面了解很多,但编码的根本机制仍未解决。

当前挑战与观点

以下是讨论中提出的关键挑战和观点:

  1. 响应变异性:即使输入相同,神经元的反应也表现出高度随机性。这与传统确定性工程系统不同。
    • 可能解释:大脑可能在执行概率计算贝叶斯推理。神经活动的随机性可能反映了在后验概率空间中进行随机采样的过程。这要求大脑能表征和计算概率。

  1. 研究范式的反思:传统实验给动物抽象特征刺激(如30度朝向),然后分析神经元响应。但动物脑中可能并不存在这种抽象的数学概念表征。我们寻找的编码,可能并非直接对应实验者设定的参数。

  1. 缺乏合适的数学工具:大脑网络具有高度的各向异性和变异性,缺乏像物理学中那样清晰的对称性。我们可能需要发展新的数学框架(如模糊数学、量子启发框架)来更好地描述神经群体编码的复杂性和不确定性。

  1. 稀疏编码与脉冲:神经脉冲不仅是长距离传递信号的方式,也自然形成了一种稀疏编码。稀疏表征在信息处理和学习上具有优势。如何将时间轴上的采样、稀疏性与信息论结合,是一个重要方向。

  1. 类脑硬件设计的启示:脉冲神经网络硬件设计面临巨大挑战。完全模拟生物细节难以规模化,而过度简化又可能失去类脑优势。核心可能在于抓住概率计算稀疏性超大规模稀疏矩阵运算等关键原则。

    • 冯·诺依曼瓶颈:当前计算机架构在处理大脑式的超大规模稀疏连接和非确定性计算时效率低下,能耗高。需要向非冯·诺依曼架构和概率计算范式转变。
  2. 大模型的冲击与反思:ChatGPT等大模型的成功表明,通过大数据和简单架构(如Transformer)也能涌现出智能行为。这对从微观神经机制逐级向上推导智能的研究范式提出了挑战。我们可能需要重新思考,在哪个层次上理解“编码”和“计算”才是最关键、最有效的。


总结与展望

本节课中我们一起学习了:

  1. 跨眼跳视觉稳定的神经机制,特别是通过感受野重映射(包括前向和汇聚两种形式)来实现视网膜表征的预测性更新。
  2. 关于神经编码这一根本问题的深入讨论,涵盖了响应变异性、概率计算、研究范式反思、数学工具需求、对类脑硬件的启示以及大模型带来的新思考。

核心的共识是,大脑可能采用一种基于概率和稀疏表征的随机计算范式。未来的突破可能依赖于建立一套能融合信息论、概率论和神经动力学的新理论框架,并以此指导新一代类脑计算架构的设计。从微观的编码机制到宏观的智能涌现,中间仍有广阔的未知领域等待探索。


注:本教程根据论坛发言整理,力求简洁直白。部分复杂实验细节和模型公式已做简化处理,以服务于核心概念的理解。

自动驾驶与大模型应用探索教程 🚗🤖

概述

在本教程中,我们将系统性地探讨大模型技术在自动驾驶领域的应用、挑战与未来展望。内容基于多位行业专家的分享,涵盖技术原理、实践案例、安全策略及商业化落地等多个维度,旨在为初学者提供一个全面且易于理解的入门指南。


一、背景与趋势 🌍

1.1 自动驾驶与大模型的交汇

智能网联汽车是全球汽车产业转型升级的战略方向。近年来,随着大模型技术的突破,自动驾驶与人工智能的结合成为科技前沿的焦点。大模型在自然语言处理领域的成功,为自动驾驶的视觉感知、决策规划等环节提供了新的技术路径。

1.2 视觉领域的“图灵测试”

自动驾驶被视为视觉领域的“图灵测试”。当车辆能在复杂环境中自主驾驶并超越人类水平时,意味着人工智能的视觉感知能力取得重大突破。专家预测,这一技术拐点可能在 1到3年 内到来。

1.3 破除“人类中心主义”

在自动驾驶发展中,需避免以人类为中心的思维方式。人工智能具备多传感器融合、持续注意力、高速反应等优势,其驾驶逻辑和安全性能可能远超人类。例如,AI可以通过瞬时加速避免事故,而人类无法做到。


二、大模型在自动驾驶中的应用 🛠️

2.1 感知与决策的AI赋能

自动驾驶系统分为感知、决策、规划、控制等模块。传统方法依赖规则和特征工程,但在复杂场景下泛化能力有限。大模型通过隐式特征提取和多层次处理,显著提升了系统的智能化水平。

2.1.1 感知型AI

  • 特点:基于静态特征表达,如车辆、行人的位置检测。
  • 公式示例
    [
    P(\text{物体}|\text{图像}) = \text{Softmax}(f_{\text{CNN}}(\text{图像}))
    ]
    其中 ( f_{\text{CNN}} ) 是卷积神经网络提取的特征。

2.1.2 决策型AI

  • 挑战:涉及动态交互和博弈,需处理多智能体协作问题。
  • 代码示例(强化学习框架)
    class DecisionAI:
        def __init__(self, state_space, action_space):
            self.policy_network = PolicyNetwork(state_space, action_space)
        
        def choose_action(self, state):
            return self.policy_network.predict(state)
    

2.2 端到端自动驾驶模型

端到端模型将感知、决策、规划整合为单一网络,直接输出控制指令。例如,DriveGPT 基于Transformer架构,输入多帧感知数据,生成未来轨迹和驾驶决策。

2.2.1 模型架构

  • 输入:多传感器数据(摄像头、激光雷达等)的时序序列。
  • 输出:未来轨迹分布或控制指令。
  • 核心公式
    [
    \text{轨迹} = \text{Transformer}(\text{传感器序列})
    ]

2.3 数据闭环与仿真测试

数据是训练大模型的基础。自动驾驶企业通过量产车收集真实道路数据,构建数据闭环系统,并利用仿真测试生成边界场景和危险案例。

2.3.1 仿真场景生成

  • 方法:基于逻辑场景描述(如OpenSCENARIO 2.0),通过大模型自动生成具体测试用例。
  • 示例代码(场景生成)
    def generate_scenario(description):
        # 使用大模型解析描述并生成场景文件
        scenario = llm.generate(description, format="openscenario")
        return scenario
    

三、技术挑战与安全策略 ⚠️

3.1 安全风险

大模型在自动驾驶中的应用面临多重安全挑战:

  1. 安全盲点:低质量数据可能导致模型行为异常。
  2. 黑盒特性:决策过程不可解释,影响责任认定。
  3. 对抗攻击:微小扰动可能引发错误输出。

3.2 “231”安全策略

针对上述风险,行业提出“231”安全策略:

  • 2项安全基础

    • 模型安全:通过奖励模型和强化学习优化决策行为。
    • 数据安全:利用仿真系统筛选和泛化高质量数据。
  • 3层监督机制

    • 规则模型监督:结合传统规则保障行为底线。
    • 独立安全大脑:设计专用模块监控AI决策。
    • 车路云协同:通过云端监控实现全局安全管控。
  • 1套标准法规:推动行业标准建设,确保技术合规发展。


四、实践案例与商业化落地 🚀

4.1 主机厂的探索

  • 比亚迪:构建数据闭环平台,累计 150PB 数据,研发BEV感知模型和规划大模型。
  • 中国一汽:聚焦决策AI,通过混合建模提升系统安全性和拟人化驾驶体验。

4.2 科技公司的创新

  • 毫末智行:推出 DriveGPT,实现端到端自动驾驶生成式模型,并开放云端能力助力行业创新。
  • 文远知行:打造通用技术平台,支持多场景(Robotaxi、小巴、环卫车)快速落地,累计自动驾驶里程 1600万公里

4.3 仿真与测试企业

  • 赛目科技:基于大模型自动生成测试场景,提升仿真效率和覆盖度。
  • 北京理工大学:研究多方协同仿真平台,通过解耦架构促进数据共享与安全协作。

五、未来展望与总结 🌟

5.1 技术趋势

  1. 多模态融合:文本、图像、点云等多源数据统一建模。
  2. 车路云一体化:通过协同计算提升系统安全与效率。
  3. 轻量化部署:模型压缩与蒸馏技术助力大模型上车。

5.2 产业生态

自动驾驶与大模型的结合将重塑汽车产业技术路线。主机厂、科技公司、仿真测试企业需协同创新,共建安全、可靠、高效的智能出行生态。

5.3 伦理与治理

需建立完善的AI治理框架,确保数据隐私、算法透明、人类监督,实现技术向善。


总结

本节课中,我们一起学习了:

  • 大模型在自动驾驶中的应用原理与实践案例。
  • 技术挑战与安全策略(如“231”方案)。
  • 行业生态与未来发展趋势。

自动驾驶与大模型的结合正处于爆发前夜,技术创新与产业协作将共同推动这一领域的快速发展。希望本教程能为您的学习与研究提供有益的参考! 🎉


备注:本教程内容基于公开演讲整理,旨在知识分享,不涉及任何商业机密或未公开信息。

视觉与多模态大模型论坛 - P1 - 智源社区 - BV1ru411h7f5

🎯 课程概述

在本节课中,我们将学习视觉与多模态大模型领域的前沿进展。课程内容整理自智源社区的一场论坛,涵盖了基于关键点的图像编辑、三维内容生成、通用视觉模型以及扩散模型在图像、视频和三维生成中的应用。我们将深入探讨这些技术的核心思想、实现方法以及未来的发展方向。


📝 论坛开场与报告介绍

欢迎来到视觉与多模态大模型论坛。本次论坛共有四个报告。

首先,第一个报告来自新加坡南洋理工大学的潘新刚教授。在报告开始前,我先对潘教授做个简单介绍。潘新刚隶属于MMLab NTU和S-Lab,他的研究方向是生成式人工智能和神经渲染,主要工作包括DragGAN和DeepGenerative等。在加入南洋理工之前,他曾是马克思·普朗克计算机科学研究所Risinen教授组的博士或研究员。他在香港中文大学MMLab获得博士学位,师从汤晓鸥教授,并在清华大学获得学士学位。他今天带来的报告是目前特别火的一个工作,叫DragGAN。大家欢迎新刚。


🖼️ 报告一:DragGAN - 基于关键点的生成图像流形交互式编辑

谢谢主持人的介绍。各位来宾、老师、同学们,大家好。很高兴在这里和大家分享我们近期的工作“Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold”,也就是在生成图像流形上实现基于关键点的交互式图像编辑。我是来自南洋理工大学的潘新刚。这个工作也是和马普所、MIT、宾大、谷歌的合作者共同完成的。

问题背景:图像编辑的挑战

这里我们关注的问题是图像编辑。图像编辑在计算机视觉和图形学中都是一个很经典的问题。近年来,由于生成模型的发展,有一系列的图像编辑方法被提出。例如,基于监督学习的算法,如果用户标注了标签,那么根据标签,我们可以将图像向指定的属性方向编辑。其次,有基于语义图的编辑,用户可以通过重新绘制语义图来实现对图像轮廓的编辑。以及基于人体先验的编辑,通过一个舞蹈姿态或骨架作为输入,可以生成一个人的不同姿态。近期由于扩散模型和大语言模型的发展,基于文字的编辑逐渐成为了主流。这些编辑方法在特定任务上都取得了非常大的进展。

但是,当我们在生成或编辑一张图片时,我们不仅希望编辑它的语义和内容,很多时候用户还需要对它的空间属性进行编辑,例如图片的轮廓、不同物体的位置、物体的姿态、朝向、物体的大小等等。对于空间属性的编辑,这些方法都受到了不同程度的局限性。它们没有办法兼顾灵活性、准确性以及通用性。例如,如果基于语义图编辑,如果我想对其中人的姿态或车的朝向进行变化,那就意味着用户需要重新绘制这个语义图,这不是一件非常直观和容易的事情。再例如,基于人的编辑没有办法拓展到其他类别的物体。基于文字的编辑虽然强大,但是它对于空间属性的精确编辑仍然不是特别方便。比如说这只猫,如果我希望它的头向左偏移10个像素的位置,那么基于文字的模型不太方便做到这一点。

理想的交互方式:直接拖拽

所以,怎样的一个对空间属性的编辑是我们希望实现的呢?如果我们观察人与物理世界的交互,如果一个桌子你希望去改变它的空间属性,最直接的就是你直接去移动茶杯的位置或者移动物体的位置。我们和手机交互也是直接通过手指去拖拽手机。另一个通过这种直接交互的方式来实现图像编辑的例子就是皮影戏。在皮影戏中,操纵者对于图像中的物体有完全的控制权,你只要去指定它的关键点移动到哪个位置,那么根据这个物体本身的结构,它就会发生相应的动作。我们有没有可能像控制皮影戏那样去控制图片呢?

相关的应用,一个是Photoshop中的液化功能,它也可以让用户实现一些拖拽的编辑。但是可以看到,它的拖拽只是一些简单的2D形变,并不考虑物体本身的结构,并且它没有办法生成新的内容,没有办法将被遮挡的部分生成出来或者将嘴巴张开。类似的基于拖拽的编辑,在图形学中有个经典的问题就是形状变形或几何处理。这里展示的是一个经典的方法“As-Rigid-As-Possible Shape Manipulation”,它是把物体网格化,然后假设这个物体具有一致的刚度来实现形变。可以看到这种方法同样假设物体有一致的刚度,那就不符合物体本身的结构了,因为很多时候物体是有骨架的,以及它仍然没有办法生成新的内容。

解决方案:结合生成模型

理想情况下,我们希望这样的编辑符合物体本身的结构,并且能够想象出被遮挡的内容。怎样可以做到这一点呢?能够对物体结构有感知力,并且能够产生新内容的模型,自然就是生成模型。在之前一个经典的生成模型就是对抗生成网络(GAN)。在训练完成后,GAN做的事情其实很简洁,它是将一个符合高斯分布的512维隐向量映射到一张高维图片。通过对隐向量进行一些扰动或变化,就可以实现对图像中内容的变化。

在这个工作中,我们想做的事情就是将这种拖拽式的编辑基于GAN来实现。对于一个GAN所生成的图像,我们希望用户只要指定关键点的移动,我们就可以让图片中的内容发生对应的变化。为了实现这种效果,一个核心的问题就是我们如何去改变GAN的隐向量来实现所需要的这种基于关键点的变化。

方法预览:迭代式算法框架

在介绍方法前,我们可以简单看一下最终所呈现的效果。用户只需要指定红色抓取点和蓝色目标点,算法就会将抓取点朝目标点移动,实现最后比较自然的生成效果。可以看到这个变化是符合物体自身的结构,并且可以想象出被遮挡部分的内容的。

为了实现这一点,我们设计了一个迭代式的算法框架。这里展示的是一个GAN的生成器,将隐向量W映射成为一张图片。这里是一个狮子的图片,然后用户只需要输入红色的抓取点和蓝色的目标点。为了将红色抓取点移动向蓝色目标点,我们需要给它施加一个力,将它朝蓝点推。这样一个力就可以形式化成一个运动监督损失函数。通过这样的运动监督损失函数将红点推向蓝点,这个损失函数用来优化GAN的隐向量W。在优化一步后,我们得到了一个新的隐向量W‘,那么新的隐向量会产生一张新的图片。这张新的图片已经按照我们推动关键点的方式去移动了一下。在它移动之后,其实我们还暂时不知道它移动到了哪里,所以下一步我们需要做点追踪,也就是去更新红色的抓取点的位置,让它跟随图像一起移动。比如说这里这个红点,最开始是在鼻子上面的红点在鼻子的位置,我应该要让它一直跟随着鼻子的位置一起走,只有这样最终才能准确的将它移动到蓝点的位置。在这之后,我们再重复以上的步骤进行运动监督以及点跟踪,直到最终所有的抓取点都移动到了它对应的目标点。

核心子问题:运动监督与点追踪

接下来我们就介绍这其中的两个关键的子问题,一个是运动监督,一个是点追踪。

在设计最终的方法之前,我们进行了一些不一样的初步探索。我们最初的想法其实和最终的实现方式不太一样。最初为了实现对运动的监督,我们想到的是使用光流模型,因为光流是最直观的对于运动的提取。我们的做法是这样,对于一个GAN所生成的图片,我们先复制这张图片作为一个参考图。另外我们还有这个用户的输入的关键点,将两张图片送给光流模型去预测两张图片之间的光流。由于这里两张图片是一样的,那么它的光流自然就是零了。那为了实现对关键点的运动的驱动,我们其实目标是让它这个关键点对应位置的光流不是零,所以我们就用目标的光流去监督关键点对应位置的光流。比如说我希望它是朝左移动,那么它理应输出的光流应该是-10,所以我们把-10作为ground truth去监督光流所预测的结果。这样就得到一个运动监督损失函数,我们用它去优化GAN的隐向量。这种方法是可行的,通过优化,我们确实可以让光流所输出的结果符合我们的预期,也就是说关键点的位置朝左移动了一点。

但是,这样做的一个问题是我们所用到的光流模型是一个经典的模型叫RAFT,它是一个迭代计算的模型,计算开销比较大。如果说我们在编辑的过程中一直使用这样一个光流模型的话,会大大降低运算的效率。我们作为一个交互式编辑的方法,希望它能够给用户及时的反馈,所以我们在想能不能让速度更快一点。我们大致的想法是,这里之所以要用到光流模型,是因为我为了驱动运动,需要提取出对图像空间位置敏感的特征。那么对于GAN来说,它在生成一张图片的过程中,生成的不仅仅是这一张图片,还有在生成这个图片过程中,这个生成器内部的一系列特征。之前的一些方法,其实分析过GAN它的中间特征,其实对于空间位置有很强的判别力或者说很敏感。一些算法展示了它可以用来做Few-Shot Segmentation,但是其实我们这里想说的是它和图像内容的密集对应关系有很强的耦合性。因此,运动监督可以直接基于GAN的特征来实现。

最终方法:基于GAN特征的运动监督

这里介绍我们最终的方法,其实非常简洁。这个方块就是GAN生成图像过程中的特征了。为了将红点移向蓝点,我们的想法是观察这个红点附近的一个小范围的patch,有这个小的红色的圆。为了将它移到蓝点,我们希望它先走一小步,走到这个蓝色patch的位置,因为这蓝色小圆圈的位置。那么这就可以形式化成一个简单的损失函数,也就是说我去优化这个蓝色位置的这个特征,让它的值接近红色特征的值,也就是以红色特征为ground truth来优化蓝色特征。那么当蓝色位置的数值变成红色位置的时候,其实就是红色的这个圈圈移动到了蓝色圈圈的位置。这里要注意的是为了使这种拖拽是单向的,所以我们需要将红色圈圈从反向传播的计算图中分离出来,也就是一个detach的操作。这样的运动监督的损失函数可以用来优化隐向量。

其实这里我们还让用户可以选择性的输入一个mask。因为用户在编辑图片的时候,可能有一些区域是他想要动的,有一些区域他希望保持不动,比如说背景的部分。这里这个图片中可以看到一个白色的圆圈,这个就是用户指定的可动区域。为了限制背景区域不动,我们在设计了一个在特征空间的重建损失,也就是这个特征中的阴影部分让它与最初的特征保持一致。好,那通过这两个损失进行优化之后,我们得到了一个新的隐向量。新的隐向量生成了新的图片和新的特征。

点追踪:基于特征匹配

那么下一步问题就是如何更新抓取点的位置来跟踪图像的内容。关于关键点的跟踪其实也有一些相关的研究了,那么我们其实之前也尝试了一些不一样的方法,并且有一些专门做关键点跟踪的方法。但是在这个工作中,其实我们发现并不需要引入额外的神经网络,因为GAN特征就像刚才提到的,它对于空间位置有很强的敏感性。因此关键点跟踪也可以直观的通过特征匹配的方式来实现。具体来说,在这个新的特征中,我们去关注这个红点附近的一小块范围,就这个红色方框的范围。我们在其中去寻找那个和最初的抓取点所对应的特征值最近的那个像素的位置,也就是一个最近邻搜索。那么这样的找到的一个关键点,就是对应于最初的那个关键点所对应的语义的那个点,也就是说它实现了一个跟踪的功能。最初的关键点是在鼻子上的,那么通过特征匹配找到的关键点也会是在这个狮子的鼻子上。

通过这两个简单的设计,我们实现了运动监督和点跟踪。那么再结合前面所介绍的迭代式的算法框架,DragGAN的算法就实现了。

应用效果展示

通过这种交互的方式,我们可以对物体的很多不同的空间属性进行编辑。例如张开嘴或者将耳朵提起来,或者让这个狗坐下来,或者让他的头转一下,或者重新设计一辆车子的外形,可能汽车外形设计者会喜欢这个功能。或者编辑各种各样的其他的动物,或者让一个猫只睁一只眼睛,那么这是在训练数据之外的一种结果。或者对人脸的编辑,那么瘦脸或者改变头发都可以比较直观的实现。或者对模特的衣服的编辑,或者是任何奇怪的物体,比如微生物。对风景的编辑,以及让太阳升起来等等。

与同期工作的对比

我们做的过程中,其实出现了一个同期的工作叫User-Controllable LT,或者User-Controllable Latent Transformer。它所实现的目标其实非常相似。但是这里它有两个重要的局限,一个是它对于位置的精确控制其实不够精确,因为它只能粗略的移动物体,并没有办法把关键点精确的移动到目标点的位置。其次是它对于多点的支持并不好。另外他也没有办法去只编辑图片的一部分区域,要保持背景不变。我们的方法可以更好的保持背景不变,以及实现更精确的控制。

这里展示了更多对比。第一行是输入的图片,还有用户的编辑。下面两行是User-Controllable LT和我们方法的结果。从第一个例子,马的例子就可以看出,他们对于多点的编辑并不好。那么我们方法可以对马尾、腿还有头都移动到对应的位置。我们方法同样可以编辑更加密集的关键点,比如说对于人脸的比较密集的关键点的编辑。这里每一个例子里面左边两个展示的是输入图片和目标图片,那么这里的目的就是把输入图片这个人脸的关键点挪动到和目标图片的关键点保持一致。所以可以看到这个输入图的表情,还有脸的轮廓都变成了和目标点差不多。

定量实验

这里我们进行了一个定量实验。我们计算我们的方法所编辑达到的目标点的位置,以及目标图像本身的目标点的位置之间的误差。可以看到我们方法的误差显著优于基准的方法User-Controllable LT。我们也和其他的点跟踪的方法进行了对比,可以看到基于RAFT的跟踪,以及基于PIPs的跟踪方法,都是弱于我们的方法。另外我们进一步进行了一个匹配图像重建的定量实验。对于一个GAN所生成的图片A,我们对于隐向量进行扰动,随机得到另一个图片B,那么B相比较A发生了一点变化。我们计算它们之间的光流,在光流图上抽取32个稀疏的点,然后将图A和这个稀疏的光流作为我们的基于点的操纵方法的输入。那么这里可以用来测试我们的方法或者其他的方法,得到一个对B的估计。那么这样的话,我们通过比较对B图的估计以及真实的B图,就可以得到一个误差,这个误差可以用于衡量方法的好坏。那么同样我们的方法也是比其他的方法取得了明显的提升。

这里对比了点跟踪的结果。可以看到左边是输入的图片,还有用户的编辑。右边展示了编辑过程中点跟踪的过程。第一列展示了我们的方法,那可以看到这个红点抓取点是一直在狮子的鼻子上方一点点的位置。但是其他的点跟踪的方法,他们可能在编辑过程中逐渐出现了一些偏移。那么一旦出现了偏移,它最终就没有办法准确的将抓取点移动到目标点的位置。所以对于生成模型,我们也提供了一种进行点跟踪的一个新的思路。

真实图片编辑

对于以上展示的结果,其实基本上都是GAN所生成的合成的图片的编辑。但是在实际应用中,其实我们关注的是对真实图片的编辑。用GAN编辑真实图片,就需要进行一个额外的操作,也就是GAN重建。我们去优化这个GAN的隐向量来实现对一个用户输入的图片的重建,这样就可以进行后续的编辑。这里展示的是一个人脸的编辑效果,可以改变表情朝向或者头发,或者让眼睛睁大一点,诸如此类。这里展示了更多真实图片编辑的结果。

编辑的奇异性与用户控制

这里基于关键点拖拽的编辑,很多时候是存在多解的。为了让狗实现头朝右移动一点,可以有不同的方式,狗可以整体移动,狗可以身体旋转,狗可以只改变头。在这个算法中如果不施加额外的限制,它会寻找实现这种目标最近的解。那么在这里右侧的结果就是狗的一个旋转的效果。那么为了减少这种奇异性,用户也可以进行一些额外的限制,比如输入这个mask也来指定可动的区域,这样就可以只让狗的头的部分动。

超出数据分布范围的编辑

此外,我们也展示了一些超出数据集范围之外的一些编辑效果。比如说让这个狮子张开一个血盆大口,或者让车的轮胎大到夸张。那么也可以实现一些符合预期的效果,但是与之伴随的也会带来一些畸变等问题。对于GAN来说,它的隐空间有两种选择,一种是W,一种是W+。W+它的空间会更大一些,也就是说图像的编辑会允许更多的灵活性。在W+中间编辑的话,可以更好的实现一些超出训练数据之外的效果,例如说这种睁一只眼闭一只眼的情况。

方法局限性分析

最后来分析一下方法的局限性吧。前面提了一些超出训练数据分布之外的一些编辑。那么当这种编辑当这种超出的范围过大的时候,会很容易产生一些不失真的效果,比如说这里这个人体的模型是在模特的数据上训练的,那么它很少会有一些夸张的动作,比如说手或者腿张的非常大。那么如果我们进行这种编辑的话,会容易产生一些畸变或者失真模糊。

此外,对关键点的选取也有一点讲究。它和这个关键点的纹理的丰富度有关。如果说是在非常平滑的部分选的关键点,例如这个车的车门的位置的话,那么在拖动的过程中,它会更容易发生一些偏移,就跟点跟踪的偏移。但是如果选在纹理丰富的位置,比如说车窗,那么它就可以更好的实现跟踪。

但是我觉得最重要的一个局限性其实是对真实物体的编辑。这也是可能需要澄清的一点吧。因为可能之前这个方法的视频在网上流传的时候,大家可能觉得类似的效果,它输入任意图片就可以做到。但是目前还不是这样。因为我们所展示的真实图片编辑更多的是有一个明确的主体物体,并且背景不是那么的复杂。但是如果你是这样的一个有非常多物体或者背景非常复杂的图片的话,GAN重建就很难保证质量,那么编辑的质量也会大大降低,这也是后续研究的一个重要的拓展方向。

总结与展望

最后总结一下。我们提出了一种能够像控制皮影戏那样去控制图片的方法。通过关键点的目标位置的指定,就可以实现对物体空间属性的编辑。为了实现这一点,我们提出了两个模块:运动监督和点跟踪。它们都是基于GAN本身对空间属性具有判别力的特征而实现的。

最后可能大家会想,现在基于文字的编辑这么火,那么这种拖拽式的编辑,它的地位怎样?它是哪一种编辑会成为主流呢?那其实我觉得这两者是互补的。因为你通过文字很难直观的控制这些空间属性,那么空间属性也没有办法做文字能做的一些对内容的编辑。所以我觉得最终的AI生成图片的框架应该是将文字,还有对这种对空间拖拽的编辑都囊括在其中的一个系统。所以往后的话,在这个方向还有很多可以拓展的方向。所以如果说有同学对这个方向感兴趣的话,其实我们最近也在招生,那欢迎大家来申请。好的,我的介绍就到这里,欢迎大家提问。


🤖 报告二:机器学习用于三维内容生成

谢谢各位老师,也欢迎大家来听我的报告。因为不好意思,因为我现在人在加拿大,所以就只能在远程上给大家做报告,非常抱歉。如果大家有什么问题,都欢迎大家在给完报告之后或者是报告中间提问。

今天我要报告的内容,因为今天的这个论坛主要是探究的事情是视觉与多模态大模型,那我就跟大家来介绍一下大模型在这种三维内容生成当中的一些应用场景,以及我们组所做的一些相关的工作。

为什么需要三维模型?

首先第一个问题我们需要去回答的事情是为什么我们要做一个三维世界上的一个模型?在我看来一个最简单的回答,就是说我们人类生活在一个三维的世界,而创造一个三维的数字世界或者说一个三维的虚拟世界,不但可以帮助我们更好的去理解这个世界,同时也可以帮助我们去解决很多现实生活当中所无法解决的问题。

在一个三维的虚拟世界当中呢,我们可以进行交流或者互动,即便说在现实生活当中,比如说人与人之间相隔千里,比如说像现在我们可能是只能通过Zoom去开会。但如果说有一个虚拟世界,我们就可以不用通过Zoom了。创建虚拟世界,同时也能够带来很多的其他的应用场景,比如说是机器人学

posted @ 2026-02-05 08:55  绝不原创的飞龙  阅读(1)  评论(0)    收藏  举报