读2025世界前沿技术发展报告04人工智能技术

1. 人工智能技术
1.1. 人工智能是引领未来的新兴战略技术,是驱动新一轮科技革命和产业变革的重要力量
1.2. 2024年,语言大模型、多模态模型、智能体和具身智能等领域不断出现突破性创新,或推动人工智能迈向通用智能初始阶段
2. 大模型技术
2.1. AI大模型的缩放定律(Scaling Law)依然有效。在语言大模型领域,多维度能力持续进化,主要体现在上下文窗口长度的扩展、知识密度的提升及推理能力的优化
2.2. 在多模态领域,多模态模型从早期的子任务模型组合转向端到端的跨模态统一特征表示,实现了原生多模态支持
2.3. 交叉模态融合处理能力正成为研究热点
2.4. 谷歌公司聚焦AI模型能力升级,推出多模态推理模型
-
2.4.1. 大模型训练框架ASPIRE,可增强AI模型的选择性预测能力
-
2.4.2. DeepMind研究部门发布了关于训练人工智能模型的最新算法JEST
-
2.4.2.1. EST算法首先创建一个较小的人工智能模型,对来自极高品质来源的数据进行质量分级,按品质对批次数据进行排序
-
2.4.2.2. 将该分级与更大的、品质较低的数据集进行比较
-
2.4.2.3. 小型JEST模型确定最适合训练的批次,然后根据小型模型的结果训练大型模型
-
2.4.2.4. 与其他方法相比,JEST算法训练模型的效果提升了13倍
-
2.4.3. 首个多模态推理模型Gemini 2.0Flash Thinking,可展现推理步骤
2.5. OpenAI公司推出文生视频AI模型Sora,同步提升推理大模型性能
-
2.5.1. Sora可以根据用户的文本提示创建逼真的视频
-
2.5.2. 名为GPT-4o的生成式AI大模型具有更强大的多模态理解与生成能力
-
2.5.3. o1系列人工智能模型,着重增强了推理能力,专注于复杂任务推理,能在科学、编程和数学等领域解决比以往模型更难的问题
-
2.5.4. “思路链”的推理技术,可将复杂问题分解为更小的逻辑步骤
2.6. Meta公司发布多款视觉大模型,重视视觉处理与元宇宙体验提升
-
2.6.1. AI视觉模型SceneScript,可快速建立3D场景
-
2.6.1.1. SceneScript能够高效且轻量地建立室内3D模型,只需要数千字节的内存即可生成清晰且完整的几何形状,并且相关形状数据具有可解释性,用户可以轻松阅读和编辑这些数据表示
-
2.6.2. 开源模型SAM2,并将其分割能力扩展到了视频领域
-
2.6.2.1. 可帮助用户更快地标注视觉数据,用于训练计算机视觉系统,包括自动驾驶汽车中使用的系统,并能以创造性的方式,在实时视频中选择对象并与之互动
-
2.6.3. AI视频生成器Movie Gen,可生成带有声音的高清视频
-
2.6.3.1. 可用于剪辑现有片段,改变风格和转场效果,或添加以前不存在的内容
-
2.6.4. Meta Motivo的人工智能新模型,有望增强元宇宙体验
-
2.6.4.1. 可以控制一个类似人类的数字代理动作,并使其以更逼真、更像人类的方式进行运动,解决了数字化身中常见的身体控制问题
2.7. Anthropic公司发布Claude3系列AI大模型,赶超谷歌和OpenAI
-
2.7.1. Claude3系列AI大模型,性能优异
-
2.7.2. Claude3 Haiku、Claude3 Sonnet和Claude3 Opus,可提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求
-
2.7.3. Opus、Sonnet和Haiku更少拒绝回答接近系统安全限制的提示词
-
2.7.4. AI智能体,可使用计算机做复杂任务
2.8. 微软公司拓展AI模型竞争赛道,向轻量级与多元应用迈进
-
2.8.1. 轻量级AI模型Phi-3 Mini,可在手机上运行
-
2.8.1.1. Phi-3 Mini是微软拟发布的三款小语言模型(SLM)中的第一款,Phi-3 Mini的可测量参数为38亿个,其前一版本是微软研究院于2023年年底发布的Phi-2模型,该模型具备27亿个可测量参数
-
2.8.2. 首个大规模大气基础模型Aurora,可用于预测和减轻极端天气影响
-
2.8.2.1. 即使在数据稀缺地区或极端天气情况下,该模型也能出色地完成各种预测任务
-
2.8.2.2. 与如今数值预报系统界的SOTA相比,其计算速度提高了约5000倍
-
2.8.3. 名为Correction的工具,可以自动修改人工智能生成的错误文本
-
2.8.3.1. Correction首先标记可能存在错误的文本,然后通过将文本与事实来源进行比较来核实事实
-
2.8.3.2. 利用小语言模型和大语言模型将输出与基础文档对齐
-
2.8.3.3. 有望提高人工智能的准确性,但没有从根本原理上避免“模型幻觉”的产生
2.9. 英伟达公司加快搭建AI平台,致力于学习框架和软件的优化
-
2.9.1. Nemotron-4 340B(3400亿个参数)系列模型
-
2.9.2. 名为权重分解低秩适应(DoRA)的新微调方法
-
2.9.2.1. DoRA增强了LoRA的学习能力和稳定性,而不会引入任何额外的推理开销
-
2.9.2.2. DoRA在各种大语言模型(LLM)和视觉语言模型(VLM)上表现出显著的性能改善
-
2.9.2.3. 在常识推理任务中,DoRA的表现优于LoRA
-
2.9.2.4. DoRA在多轮基准测试、图像/视频文本理解和视觉指令调整任务中表现出更好的结果
3. 具身智能
3.1. 具身智能(Embodied Intelligence)是一种基于物质实体进行感知、决策和行动的智能系统,其核心在于通过智能体与环境的动态交互来实现认知与行为的高度融合
3.2. 是实现通用人工智能(AGI)的重要路径之一
3.3. 加利福尼亚大学伯克利分校开源大型机器人操控基准,可应对复杂自主操控任务
-
3.3.1. 智能机器人实验室(RAIL)开源大型机器人操控基准(FMB)
-
3.3.1.1. 创新设计、多样化任务、大型数据集和模仿学习基线
-
3.3.1.2. 单物体多步骤操控任务和多物体多步骤操控任务
3.4. 英伟达公司发布人形机器人通用基础模型项目GR00T,旨在进一步推动其在机器人和具身智能方面的突破
-
3.4.1. 人形机器人通用基础模型项目GR00T,旨在进一步推动其在机器人和具身智能方面的突破
-
3.4.2. 能够理解自然语言,并通过观察人类行为来模仿人类动作
-
3.4.3. 其能快速学习协调各种技能,具备更好的灵活性,以适应现实世界并与之互动
3.5. 北京人形机器人创新中心发布全球首个纯电驱拟人奔跑全尺寸人形机器人
- 3.5.1. 该机器人采用了成本更低的纯电驱技术,配备多个视觉感知传感器,配备每秒550万亿次浮点运算的算力,并配备高精度的惯性测量单元和3D视觉传感器,以解决基本运动控制问题,还配备了高精度的六维力传感器以提供精确的力量反馈
3.6. 北京大学发布机器人多模态大模型RoboMamba,可赋予机器人端到端的推理和操纵能力
-
3.6.1. RoboMamba通过将视觉编码器与高效的状态空间语言模型Mamba集成,构建了一个全新的多模态大模型,使其具备对视觉常识任务和机器人相关任务的推理能力
-
3.6.2. 提升推理与操作能力;提升泛化能力;增强视觉与语言理解能力;降低训练成本与资源消耗
3.7. Figure公司发布号称“地球上最先进的人形机器人”Figure 02
-
3.7.1. 将人体形态的灵活性与先进的人工智能相结合,能够学习并进行自我纠正,可在商业应用中执行各种任务
-
3.7.2. 通过与OpenAI合作训练的定制AI模型,Figure 02实现了与人类进行实时的语音对话
-
3.7.3. 为了方便在工业环境中实操,Figure 02采用集成布线,将电源和计算通信所需的全部线缆,都内封并隐藏在机器人躯干和肢体中,以增强可靠性和更紧密的封装,从而保护其免受外部环境干扰,距离向工业用户销售量产人形机器人的目标又近了一步
3.8. 挪威研究团队研发出一款新型基于AI技术的机器人,可操纵柔性物体
-
3.8.1. 基于AI技术的机器人Bifrost,可利用其触觉能力对柔软且可塑性强的物体进行排序
-
3.8.2. 通过让机器人执行与实际任务类似的操作对其进行训练,从而提高机器人的泛化能力
3.9. 苹果公司开发出以“自我为中心”的人形机器人感知系统,避障率与计算效率显著提升
-
3.9.1. 人形机器人感知系统ARMOR
-
3.9.1.1. 该系统软硬件协同,不仅增强了机器人“空间意识”,实现动态防碰撞,同时计算效率也大幅提升
-
3.9.1.2. 硬件方面,ARMOR通过在机器人手臂上安装小型智能深度传感器,为机器人提供几乎完整的环境视图,解决了传统机器人感知中的盲点和遮挡问题
-
3.9.1.3. 软件方面,基于Transformer的AI驱动ARMOR-Policy可学习人类动作,帮助机器人动态规划行动
4. 军事AI战略布局与应用
4.1. 涉及指挥控制系统、无人作战平台、核武器等方面
4.2. 有利于实现智能预测、智能决策、多智能体协同、情报分析等目标
4.3. Scale AI公司测试与评估大语言模型
4.4. 成立人工智能特别工作组,以帮助其识别具有潜力的AI技术并全面应用
4.5. 发布新的人工智能战略
-
4.5.1. 全面了解人工智能可提供解决方案的具体任务问题
-
4.5.2. 提高现役人员的人工智能技能和知识
-
4.5.3. 实现可靠、快速和有效的人工智能解决方案
-
4.5.4. 为人工智能项目建立政策、管理和沟通渠道
-
4.5.5. 加强合作伙伴关系,促进知识、资源和技术的交流
4.6. 网络防御测试自动化工具
-
4.6.1. 基于人工智能技术的“自主渗透测试”(APT)平台,可用于测试网络防御能力
-
4.6.2. 该平台将向国防供应商提供用于加快对内部资产的渗透测试,发现问题,实施缓解措施,并确认有效修复可识别的漏洞
-
4.6.3. 人工智能驱动的渗透测试可以让安全研究人员更广泛地评估其系统中的漏洞,并持续监控网络是否存在漏洞
4.7. 将AI应用于情报数据集
-
4.7.1. 利用人工智能处理海量数据,以应对数据量挑战
-
4.7.2. 旨在改进处理、刻画和分发(Processing,Exploitation and Dissenmination,PED)流程,通过多情报数据融合和机器学习模型集成来减轻分析师的负担
-
4.7.3. 关键在于使用军事数据训练算法,确保其在机密环境中的可靠性,同时构建可信的人工智能和机器学习生态系统,以检测模型漂移并进行调整
-
4.7.4. 尽管技术不会取代人类士兵,特别是在瞄准和决策领域,但道德原则将贯穿算法应用,以辅助分析师快速识别威胁,提升作战效率
4.8. Anthropic、Palantir及亚马逊公司展开合作,将为美国情报和国防机构提供AI服务
-
4.8.1. 旨在将Claude集成到Palantir平台上,并利用AWS的云托管服务
-
4.8.2. 该环境托管在AWS基础设施上,适用于处理对国家安全至关重要的数据
-
4.8.3. 快速处理大量复杂数据、提升数据驱动的洞察力、更有效地识别趋势、简化文件审查和准备工作、辅助决策但保留官员的决策权
4.9. 设立AI快速能力小组,以加速尖端AI在国防领域的部署
浙公网安备 33010602011771号