导航

谷歌DeepMind CEO Hassabis对未来12个月的的预测

Posted on 2025-12-12 15:26  蝈蝈俊  阅读(0)  评论(0)    收藏  举报

最近,谷歌 DeepMind CEO Hassabis 在一场访谈中,对未来12个月的「关键趋势」做出重磅预测。

主要有以下五大核心观点:

  • 多模态融合彻底打通
  • 类人的视觉智能
  • 语言+视频深度融合
  • 世界模型成为主流
  • 智能体达到可靠应用水平

https://www.youtube.com/watch?v=tDSDR7QILLg

多模态融合彻底打通

在访谈中,Demis Hassabis 将多模态融合视为未来12个月AI进步的核心趋势之一。

他强调,这是一种模态的深度整合,即AI系统能够同时处理和生成多种类型的数据,如图像、视频、文本和音频,从而实现更丰富的“交叉授粉”(cross-pollination)。

他以Google DeepMind的Gemini模型为例,指出Gemini从一开始就是多模态的,它可以接受图像、视频、文本和音频输入,并逐步扩展到生成这些输出的能力。

这种融合不是简单的叠加,而是通过不同模态之间的互动来提升整体性能。例如,他提到通过多模态方法,AI可以获得更强的视觉理解和创意输出,这将彻底打通不同感官数据的壁垒,让AI更接近人类的多感官认知方式。

他预测,在下一年,这种融合将带来显著进步,使得AI在处理复杂任务时更高效和智能。

类人的视觉智能

Demis特别突出了AI在视觉智能方面的类人化发展,他认为这将是多模态融合的一个关键体现。

他举例说明了最新的图像模型 Nano Banana Pro,这个模型展示了“惊人的视觉理解”(amazing visual understanding),能够创建准确的信息图表,并处理复杂的视觉任务。

这接近于人类的视觉智能水平,因为它不仅仅是生成图像,还能理解图像中的语义和上下文。

他进一步解释,如果给 Gemini 一个YouTube视频,它可以回答关于视频内容的各种问题,甚至提供概念性洞见,

比如分析电影《搏击俱乐部》中的场景含义。例如,他描述了AI如何解读Brad Pitt或Edward Norton脱下戒指的象征意义,推导出哲学观点,如“抛开日常生活”(symbolically showing shedding everyday life)。

Demis表示,这种类人视觉智能目前在许多情况下令人印象深刻,但并非总是完美,他预测在未来12个月内,这种能力将进一步提升,让AI在视觉任务上更可靠和细腻。

语言+视频深度融合

Demis强调语言模型与视频处理的深度融合将是下一年AI能力跃升的亮点之一。

他指出,当视频与语言模型结合时,会产生“非常有趣的能力组合”(very interesting capability combinations)。

这不仅仅是简单地将视频输入语言模型,而是实现两者之间的无缝互动,例如AI可以分析视频内容并用语言进行推理或生成描述。

他以Gemini的实际应用为例,说明如果输入一个YouTube视频,AI能理解视频中发生的概念性事件,并给出元洞见(meta-insights)。

此外,他提到Gemini Live功能,用户可以用手机指向物体,并让AI充当“机械师”来指导任务,这体现了语言和视频的融合在日常生活中的潜力。

Demis认为,这种融合将使AI更强大,因为人们尚未充分意识到多模态能力的深度,未来12个月内,这将带来更多创新,如在眼镜等设备上的应用,让AI成为随身助手。

他还提及视频模型如Veo 3将与语言模型如Gemini结合,进一步推动这一趋势。

世界模型成为主流

Demis个人非常看好“世界模型”(world models)在未来12个月内成为主流趋势。

他介绍了一个名为Genie 3的系统,这是一个互动视频模型(interactive video model),用户可以生成一个视频,然后像在游戏或模拟环境中一样“四处走动”(walk around),模型能保持连贯性长达一分钟。

https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

他认为这非常令人兴奋,因为它代表了AI构建内部世界表示的能力,即模拟物理或虚拟环境的动态变化。

这类似于游戏中的世界构建,但更通用,能应用于科学模拟、规划等领域。

Demis表示,这种世界模型将从实验阶段转向主流应用,帮助AI更好地理解和预测现实世界,从而提升整体智能水平。

他将此视为他个人正在研究的重点,预测它将在下一年内取得显著进步。

智能体达到可靠应用水平

关于智能体(agents),Demis承认当前AI代理系统虽被广泛讨论,但还不够可靠,无法完成整个任务。

然而,他乐观地预测,在未来12个月内,这一领域将看到更多进步,代理将接近可靠应用水平。

作为多模态融合的最终输出形式,智能体(agents)将整合多模态能力成为“通用助手”,这将使 agents 从概念转向实际可靠应用,推动AI在商业和个人场景中的广泛采用。

总结

Demis Hassabis的预测以多模态融合为核心原理,预见2026年AI将从孤立模态转向全面整合,实现类人认知跃升。

这五点相互关联:

  • 融合打通壁垒,提供视觉智能和语言-视频结合的基础;
  • 世界模型扩展为动态模拟;
  • 智能体则作为应用端点,确保可靠落地。

整体上,这将推动AI从实验工具向日常生活助手转型。