实用指南：51c大模型~合集55

我自己的原文哦~https://blog.51cto.com/whaosoft143/12038175

#新型忆阻器

昂贵LLM的救星？Nature新研究提出新型忆阻器，比Haswell CPU高效460倍

前些天，OpenAI 发布了 ο1 系列模型，它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的利用成本也很高，以至于 OpenAI 不得不限制每位用户的使用量：每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

实在是少！

为了降低 LLM 的应用成本，研究者们已经想出了各式各样的方法。有些办法的目标是提升模型的效率，比如对模型进行量化或蒸馏，但这种方法往往也伴随着模型性能的下降。另一种思路则是提升运行这些模型的硬件——英伟达正是这一路线的推动者和受益者，但该公司的核心策略还是提升 GPU 的性能；另一些研究者则正在探索针对 AI 构建高效高性能的新型硬件体系。忆阻器（memristor）便是其中一个重要的研究方向。

忆阻器是一种电子元件，其能够限制或调节电路中电流的流动，并且可以记忆之前通过的电荷量。忆阻器在许多实际应用中具有重要意义，原因之一是其具备非易失性特性，即在断电情况下仍能保持记忆，这使得其在无电源或电源中断时依然能够持续运用。忆阻器被认为是和电阻器、电容器、电感同层级的基础电子元件。忆阻器的概念最早在 1971 年由华人科学家蔡少棠提出。

近日，Nature 发布了一篇来自印度科学学院、得克萨斯农工大学和爱尔兰利莫瑞克大学的一篇论文，其中提出了一种「线性对称的自选择式 14 bit 的动力学分子忆阻器」。

论文标题：Linear symmetric self-selecting 14-bit kinetic molecular memristors论文地址：https://www.nature.com/articles/s41586-024-07902-2

该论文的核心亮点是，其中提出的分子忆阻器在核心的矩阵运算上能实现远超电子器件效率的 14 bit 模拟计算；并且其搭建了超过 73 dB 的信噪比，比之前的最佳水平直接高出了 4 个数量级，同时其能耗量比电子计算机低 460 倍！

这样的出色表现让 AI 工程师 Rohan Paul 忍不住惊叹：「如果这是真的，算是到了 LLM 的真空管变硅晶体管时刻吗？」

那么，这篇论文究竟提出了什么呢？真的有希望将 LLM 从高功耗高成本的困境中解脱出来吗？让我们来简单了解一下。

挑战

我们知道，向量-矩阵乘法（VMM）是神经网络等许多计算算法的基础。但是，VMM 很难实现，因为对于长度为 n 的向量，所需的计算步骤为 n²。尽管对称运算允许降低 VMM 的复杂性，但它们只适用于特定的矩阵结构，比如人工智能中的非结构化素材。

为了得到高效的通用型 VMM 引擎，人们一直在推动硬件的发展，尤其是点积引擎（DPE）——一种可在单个时间步长内实现 VMM 的模拟加速器。尽管 DPE 有应对计算规模扩展的潜力，但其应用也受限于其精度，因为模拟电路元件仅给出 2-6 个等效比特。这种精度不足的根源在于其物理性质不够理想，包括非线性的权重更新、不对称行为、噪声、电导漂移和设备间差异。这是神经形态计算的一个根本性挑战。

为了解决这个问题，需要发明一种能嵌入到电路中的元件，并且嵌入数量要比目前可用的模拟级别高出几个数量级。

解决方案

该团队宣称已经发明出了这样的元件。这是一种分子忆阻器交叉开关矩阵，可集成在电路板中。其展现出了 14 比特的模拟精度、近乎理想的线性和对称权重更新，以及每个电导层级的一步式可编程性（one-step programmability）。

如图 1a 所示，该团队构建了有史以来最大的分子忆阻器交叉开关矩阵（64×64）结构。使用的材料是夹在顶部和底部金电极之间的 60 nm 厚的

薄膜。更多详细的设计参数请参看原论文。

总之，该器件实现了想要的作用，并且具有相当好的非易失性和稳健性。如图 2a 所示，这个交叉开关矩阵耐久性很好，经过 10^9 个操作周期后，权重更新特性依旧保持不变。另外，图 2b 表明启用 500 mV 直流电压在 85°C 环境下，该结构能在 11 天内不出现明显的电导漂移。另外，他们还测试发现，其能维持长达 7 个月的电导保持率。

实验

使用这个 64×64 的分子交叉开关矩阵，该团队执行了 VMM 实验，这用到了一个他们定制的超过 16 比特准确度的混合信号外围电路，如下图 4 所示。a 图是对其编程，使之执行离散傅里叶变换（DFT）。b 图则比较了计算出的 DFT 输出与软件计算的结果，可以看到它们之间非常一致，这表明这个结构是实用的。

此外，他们还执行了矩阵-矩阵乘法运算，这是几乎所有 AI 和机器学习算法的基础运算。结果发现，要是让两个 64×64 的矩阵相乘，则该结构仅需要执行 64 步，但若是让电子计算机来干同样的事，则需要执行 262,144 次运算。

处理非结构化数据的一个关键属性。就是图 4c 表示其矩阵乘法的准确度不依赖于对称性，这

该团队评估了不同矩阵组合，包括对称、随机和双随机矩阵。最终得到了 73-79 dB 的信噪比。该团队表示这是一个极其重大的进步。

他们还展示了一个非常有趣的用例。运用矩阵乘法，他们使用从韦伯望远镜数据库检索到的频域数据，通过逆傅里叶变换重建了标志性的「创生之柱」图像，见图 4d-f。

之所以选择外太空数据，是因为它缺乏对称性。这项任务每个平面都得 26,256 个时间步骤，而数字计算机所需的步骤数超过了 10^8。

结果，他们得到的信噪比为 74 dB，峰值信噪比为 76.5 dB，直接高出了之前最佳的 DPE 4 个数量级。

这个转译过程的后续阶段将需要进一步扩展这个交叉开关矩阵，并编写具有高精度的片上外围电路。

该团队在论文中描述了一种经过功率优化的外围电路设计，能够提供超高的能效：每秒每瓦 4.1 万亿次运算 (TOPS/W) 。该数据比 18 核 Haswell CPU 高 460 倍，比当前最高效的英伟达 K80 GPU 高 220 倍，并且这还有很大的改进空间。

这个示例展示了基于分子的技术的巨大潜力，通过将其集成到 CMOS 电路中，可以大幅超越最先进的加速器的性能。

如果 OpenAI 等未来开发的大模型也能运行在基于此类技术开发的硬件上，那 AI 的利用成本必定能下降很多。

更多研究细节、素材和代码请访问原论文。

参考内容：

https://x.com/rohanpaul_ai/status/1834202945581441420

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#Agentic Entropy-Balanced Policy Optimization（AEPO）

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

在智能体强化学习的快捷发展中，如何在探索与稳定之间取得平衡已成为多轮智能体训练的关键。主流的熵驱动式智能体强化学习（Agentic RL）虽鼓励模型在高不确定性处分支探索，但过度依赖熵信号常导致训练不稳、甚至策略熵坍塌问题。

为此，中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization（AEPO），一种面向多轮智能体的熵平衡强化学习优化算法。

AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题，并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配，后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。

图 1：AEPO 性能概览：左图对比深度搜索任务性能，右图对比通用推理任务性能

实验结果表明，AEPO 在 14 个跨领域基准上显著优于七种主流强化学习算法。专门是深度搜索任务的 Pass@5 指标：GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持训练稳定性的同时进一步提升了采样多样性与推理效率，为通用智能体的可扩展强化训练提供了新的优化范式。

论文标题：Agentic Entropy-Balanced Policy Optimization
论文链接：https://arxiv.org/abs/2510.14545
代码仓库：https://github.com/dongguanting/ARPO
开源数据 & 模型：https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

目前 AEPO 在 X 上收获极高关注度，Github 仓库已获星标 700 余枚，同时荣登 Huggingface Paper 日榜第二名！

研究动机：在高熵中寻求平衡

随着 Agentic RL 的发展，如何在持续探索与训练稳定之间取得平衡已成制约智能体性能的关键。现有方法（如 ARPO）通常依赖熵信号作为依据，并在高熵时刻触发分支采样探索潜在推理路径。大家的研究发现熵驱动的探索虽能提升多样性，却也带来了显著的训练不稳定：模型在连续高熵的工具调用阶段容易出现单一链条过度分支，导致探索受限（如下图左侧）；同时在策略更新阶段，高熵 token 的梯度常被无差别裁剪，使模型难以学习的探索行为（如下图右侧）。这种熵失衡也使智能体在强化学习中容易陷入局部最优解。

图 2：智能体中的高熵 Rollout 坍缩与高熵梯度裁剪现象

因此，如何在高熵驱动下同时实现高效探索与稳定优化，成为智能体强化学习亟待突破的核心瓶颈。为此，我们提出 AEPO，一种面向多轮智能体的熵平衡强化学习优化算法。我们的贡献如下：

我们系统性分析并揭示了现有熵驱动的 Agentic RL 在高熵阶段易出现的「rollout 坍缩」和「梯度裁剪」问题，为后续算法设计献出了经验与理论依据。
我们提出了 AEPO 算法，旨在通过「动态熵平衡 Rollout 采样」与「熵感知策略优化」两个阶段实现强化学习探索与稳定的协同优化。
在 14 个挑战性基准上的实验结果表明，AEPO 在采样多样性、训练稳定性及工具调用效率方面均优于 7 种主流强化学习算法，为智能体在复杂开放环境下的可扩展训练供应了新的启发。

工具调用的熵变现象：高熵集聚与梯度困境

通过分析智能体在多轮工具调用强化学习中的 token 熵变与训练过程，我们发现以下核心现象：

高熵工具调用步骤存在连续性：连续的高熵软件调用轮次占比达 56.5%，部分轨迹甚至出现 6 次连续高熵调用，这种连续性导致 rollout 阶段的分支预算分配严重倾斜（如下图左侧）；
在推理中激发设备调用，反思等行为的提示（如下图右侧）。就是高熵 Token 梯度裁剪：传统 Agentic RL 算法在策略更新阶段存在「无差别梯度裁剪」问题，未区分其是否包含有价值的探索行为，这些 token 大多

图 3：智能体强化学习训练中两种熵相关问题的量化统计

上述现象本质是高熵信号的双重矛盾：高熵是智能体探索程序运用潜力的必要条件，但无约束的高熵连续性会破坏 rollout 资源分配，激进的梯度裁剪又会扼杀高熵的探索价值。

AEPO 算法：熵驱动的精准探索与梯度保护

图 4：AEPO 概述

动态熵平衡 Rollout 采样：

1.熵预监测：按信息增益分配采样预算

传统 RL 算法（如 ARPO）凭经验分配全局采样与分支采样的坍缩资源，AEPO 则基于信息增益理论，根据困难与工具的信息增益动态调整采样预算，具体来说，在总 rollout 采样的预算为 k（包含 m 次全局采样与 k-m 次高熵分支采样）的条件下，将 Rollout 阶段的信息增益简单地建模为：

在语言模型的自回归解码过程中，输入障碍的信息增益通常由模型解码的 token 熵值来衡量，因此我们可以得到如下正相关关系：

因此，大家的目标是尽可能增大 Rollout 阶段的信息增益，基于上述公式，AEPO 按信息增益分配采样预算：

起初让模型预生成 1 条完整器具调用轨迹，以监控问题初始熵
与工具调用平均熵
；
若
（即问题本身不确定性更高）：增加全局采样数量 m，多探索不同完整轨迹；
若
（即工具反馈不确定性更高）：减少「全局采样数量」，将预算向分支采样 k-m 倾斜，聚焦高熵软件步骤的局部探索。

我们的最终预算分配公式：

，其中 σ 为 sigmoid 函数（确保 m 在 0-k 之间），β 控制熵差异敏感度，k 为总采样预算。这一设计让资源分配有理论支撑。

2.连续高熵分支惩罚：避免单一轨迹过度分支

即使预算分配合理，连续高熵调用仍可能导致单一轨迹过度分支。因此 AEPO 通过动态分支概率施加惩罚：

实时监测每步工具调用后的熵变化：
；
追踪每条轨迹的「连续高熵分支次数
」，分支概率公式：
，其中惩罚概率
与
正相关；
分支决策规则：若
（预设阈值），则对当前步骤分支（生成 Z 条子轨迹）；否则继续当前轨迹，并累计连续高熵次数（
+1）。

实验验证：如下图所示，相比于 ARPO 通常仅分支 2-3 条轨迹，而 AEPO 可覆盖全部 8 条预算轨迹（右图），采样聚类数从 54 提升至 62（左 2 图），大幅提升 Rollout 采样的多样性。

图 5：采样多样性 ARPO vs AEPO（左）与 Rollout 的分支采样分布（右）

熵平衡策略优化：

1.熵裁剪平衡机制：保留高熵 Token 梯度

收到 GPPO 启发，AEPO 将「梯度停止」操作融入到策略更新的高熵裁剪项中，保证了前向传播不受影响，同时保护了高熵 token 的梯度在反向传播时不被裁剪。AEPO 在策略更新时使用如下公式：

其中，

表示重要性采样比率，

表示「梯度停止」操作。值得注意的是，

的值始终为 1，从而确保了 AEPO 的前向传播不变。在反向传播过程中，AEPO 的梯度更新公式为：

其中，

的定义如下：

这一设计让高熵探索性 Token 的梯度得以保留，避免训练初期探索能力流失。

2.熵感知优势估计：优先学习高价值探索行为

不同于仅考虑准确率优势的传统 RL 算法，AEPO 引入熵优势

，构建融合优势函数，让模型优先学习高熵且对任务有贡献的 token：

准确率优势
：基于轨迹最终奖励（如答案准确率）的标准化值，计算方式为
（
为奖励均值，
为奖励标准差），反映 token 对答案正确性的贡献；
熵优势
：基于当前 Token 熵与轨迹平均熵的差异，计算方式为
（
为轨迹平均熵，
为熵值标准差），反映 token 的探索不确定性；
融合优势：
，其中 α 为熵优势权重（实验中设为 0.3），确保高熵 token 在「对任务有贡献」时能获得更高优势值，引导模型重点学习。

实验结果：14 个基准验证 AEPO 的高效与稳定

为了充分评估 AEPO 的泛化性和高效性，我们考虑以下三种测试集：

计算型推理任务：评估模型的计算推理能力，包括 AIME24、AIME25、MATH500、GSM8K、MATH。
知识密集型推理任务：评估模型结合外部知识推理的能力，包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
深度搜索任务：评估模型的深度搜索能力，包括 HLE、GAIA、SimpleQA、XBench、Frames。

深度信息检索任务：小样本实现大突破

如上表所示，仅用 1K RL 训练样本，Qwen3-14B+AEPO 在关键任务上表现优异：

AEPO 在 Pass@1 上较 ARPO 平均提升 3.9%；在 Pass@5 上较 ARPO 平均提升 5.8%；
对比梯度裁剪优化 RL 算法（DAPO、CISPO、GPPO）：AEPO 在 GAIA 任务上领先 7%-10%，在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 与 65% 的 Pass@5，这证明熵平衡机制优于单纯的梯度裁剪优化 RL 算法；
对比传统 RL（GRPO、Reinforce++）：AEPO 在 HLE 任务上领先 2.6%-3.4%，在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 与 26% 的 Pass@5，凸显 Agentic RL 中熵平衡的必要性。

我们比较了 7 种强化学习算法在 10 个推理任务中的表现，发现：

梯度裁剪优化算法的稳定性差：在 Qwen 2.5-7B-instruct 上，梯度裁剪优化算法表现良好，但在 Llama3-8B 上未显著优于 GRPO，且易导致熵崩溃。
Agentic RL 算法具备泛化能力：ARPO，GIGPO，AEPO 等算法在不同模型上表现稳定，证明在高熵环境下的分支探索有效。
AEPO 优势显著：AEPO 在所有测试中表现突出，一致性高于 7 种主流 RL 算法。并且平均准确率比 GRPO 高 5%，更适合训练多轮次 Web 智能体。

实验：熵稳定与准确率分析

在 Agentic RL 训练中，熵动态稳定性与训练准确率收敛性是衡量算法有效性的核心指标：熵过高易导致探索失控，熵过低则会引发探索不足；而准确率的持续提升则直接反映模型对有效工具启用行为的学习能力。

我们对比 AEPO 与主流 RL 算法（含 ARPO、GRPO、DAPO 等）在 10 个推理任务中的训练动态，清晰揭示了 AEPO 在「熵稳定」与「准确率提升」双维度的优势。实验发现训练的熵损失骤增与下降都不会对性能带来增益；相比之下，AEPO 的熵损失全程维持高且稳定，对应稳定的性能增益。其表现远超其他 RL 算法，且解决了 ARPO 在训练后期熵波动的问题。

图 5：训练指标可视化，包括各训练步骤的熵损失（左）和准确率（右）

总结与未来展望

未来可从三个方向进一步拓展：

多模态 Agent：当前 AEPO 与 ARPO 均聚焦文本任务，未来可扩展至图像、视频等多模态输入，探索多模态应用的熵平衡优化，解决多模态反馈带来的熵波动问题。
程序生态扩展：引入更复杂器具（如 MCP 服务、外部订机票酒店服务调用、代码调试器），基于 AEPO 的熵感知机制优化多设备协作策略，提升复杂任务表现，超越现有工具协作能力。
多智能体强化学习：探索在更多智能体的协作学习，互相任务交互与博弈中找到平衡，实现收敛。

作者介绍

董冠霆目前就读于中国人民大学高瓴人工智能学院，博士二年级，导师为窦志成教授和文继荣教授。他的研究方向主要包括智能体强化学习、深度搜索智能体，大模型对齐等。在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文，并在快手快意大模型组、阿里通义千问组等大模型团队进行实习。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

个人主页：dongguanting.github.io

本文的通信作者为中国人民大学的窦志成教授与快手科技的周国睿。

....

#空中F1

5分钟上手，无照就能飞：91万「空中F1」已经排到了2027

马斯克看了都沉默。

几十年来人们一直幻想，要是有一天能直接飞去上班，不用再堵在路上就好了。

但现实远没那么简单，真正的个人飞行器并不像《杰森一家》动画里那样，只要背上装满易燃燃料的喷气包就能飞。

，时长00:41

一架外形类似飞碟或气泡舱、能够垂直起落、在空中快速穿梭的个人飞行器。驾驶员乔治・杰森经常开着它上下班，在云端城市间穿梭，甚至还能像折叠伞一样收起来，直接装进公文包。就是注：《杰森一家》（The Jetsons）是一部上个世纪 60 年代的美国动画片。动画片中，杰森一家的出行方式相当带感，

如今，一家名为 Jetson 的公司声称，它可能会真正改变我们的出行方式。

Jetson 推出了一款名为 Jetson ONE 的个人飞行器。更准确地说，这是一种单人电动垂直起降飞行器，靠电力驱动，有八个电机，机身采用铝合金与碳纤维结构。

，时长00:51

社交媒体上流传着一个视频，两架允许坐人的 Jetson ONE 在树林间快速灵活飞行。目前该视频在 X 上播放量达 400 多万次。

它在 2025 年的 UP.Summit 上亮相，并举办了全球首场 Jetson ONE 飞行比赛。四架飞行器在赛道上展开角逐，Jetson 的首席技巧官兼联合创始人 Tomasz Patan 也亲自参赛。

，时长03:04

UP.Summit 是一个与众不同的航空盛会，仅限受邀嘉宾参加，聚集了全球 300 位交通领域的顶尖创新者。

Jetson 把它称作「空中的 F1 赛车」。纵然速度还达不到赛车的级别，但性能也相当亮眼：整机重量仅 121 镑（不加电池），加上电池 253 磅。八个电机驱动的螺旋桨可让其在最大载重（210 磅）下达到软件限制的最高时速 63 英里（约 101 公里）。

在安全性上，它借鉴了赛车设计理念，配备防护舱、弹道降落伞体系、自动降落系统、悬停系统，甚至可以在失去一个电机的情况下继续飞行，最大飞行高度超过 1500 英尺（约为 457.2 米），相当于大约 150 层的楼高，和东方明珠差不多高。

更有意思的是，根据美国 FAA 第 103 部分，该飞行器被归类为超轻型飞机，因此驾驶它不得飞行执照。只要用一个四轴操纵杆就能单手控制，再配合独特的飞控系统，据说 5 分钟就能上手，续航时间大约 20 分钟。

价格也很美丽，现在预定的话只需 12.8 万美元（约 91 万人民币），其中包含 8000 美元定金。但从下周一起，价格将上调至 14.8 万美元（约 105 万人民币）。

目前 2025 年和 2026 年款已售罄，新订单预计最早要到 2027 年才能交付。

有网友评论称，它们根本不适合上路，你不可能悬停在路面上，因为有电线和交通信号灯，这就必须从头开始建造一条全新的「空中高速公路」。

还有网友吐槽噪音太大、安全性没有保障

当然，这类飞行器也有独特的使用场景。比如农场主可以用它在更短的时间内巡视自己的土地、牛群、羊群，以及其他一切需要查看的地方。

这么说吧，这家公司真的在做现实版的《杰森一家》，不过暂时还只是给富人准备的「未来玩具」。

五花八门的飞行器

我们又去搜了下，发现这类奇形怪状的飞行器还有不少。

比如此前马斯克投资的飞行汽车公司 Alef Aeronautics，于 2022 年发布原型车 Model A。

这是一辆黑色纯电动汽车，没有外露螺旋桨，能在普通道路上启用，飞行续航为 170 公里，允许垂直或水平起飞，最多可搭载两人。该车售价约 30 万美元（约合人民币 214 万元），已获得 3300 份预订单。

再比如日本学生制造并试飞了一架人力驱动的飞行自行车。它装有巨大的机翼，后方配有一台大型螺旋桨。螺旋桨与脚踏环境相连，骑手在踩动踏板时便能驱动它旋转。

虽然以脚踏为动力，但它的运作方式与普通飞机类似，需要在一条长而平直的跑道上加速，以获得足够的动能和升力来起飞，螺旋桨让飞行器能够升空并维持高度。

据读卖电视台主办的鸟人拉力赛公布，这辆飞行自行车创下了 19 公里的飞行距离纪录。

，时长01:00

你能想象，没有机翼也没有旋翼，骑个「摩托车」就能在天上飞？

这就是 Volonaut Airbike，由波兰发明家、Jetson ONE 的创造者 Tomasz Patan 打造而成。

这不是概念噱头或 PPT 产品，而是真实存在的飞行摩托。它颠覆了传统个人飞行器的设计逻辑：没有外露螺旋桨、没有驾驶舱，只有超轻机身、喷气推力和骑手本人。

驾驶方式像骑摩托一样，握紧车把、身体前倾即可起飞。控制系统通过配备遥测特性的头盔完成，机载飞行计算机会将驾驶者的身体动作实时转换成飞行指令。

，时长01:33

自亮相以来，Airbike 在网络上掀起了热议，许多人将它与《星球大战：绝地归来》中的飞行摩托相提并论。尤其是尾部的红色灯带，更让它看起来像是从科幻电影里飞出来的一样。

尽管设计独特，Airbike 的实用性仍有限。Airbike 仅重 67 磅（约 30 公斤），比普通摩托车轻得多，但目前最大载重为 210 磅（约 95 公斤），最高时速为 63 英里 / 小时（约 100 公里 / 小时），续航约 10 分钟，还不足以支撑长途旅行。

更大的门槛还在于价格，它的预售价格高达 88 万美元（ 620 万人民币左右），相当于一辆劳斯莱斯的价格。嗯，要不起。。。

参考链接：

https://x.com/Rainmaker1973/status/1983771228667249141

https://x.com/Smile_1Please/status/1983969471506346220

https://x.com/Volonaut/status/1948005178247889364

....

#最新外国「自研」大模型，都是套壳国产？

哈哈我真是服了咱们就不能好好做技术天天的扯淡越来越和韩国人一样`~~~~

外国开发者：我们该开始学习中文了吗？

绷不住了，美国科技公司最新发布的大模型，思考时怎么一直在说中文？

本周，知名 AI 代码工具 Cursor 发布了 2.0 版重大更新，推出了首个自家的代码模型 Composer，以及用于并行协作多个智能体的新界面。

新模型一发布，大家在祝贺 Cursor 终于「扬眉吐气」、用上自家模型的同时，也发现这个大模型在思考的时候一直讲中文，而且行为和国产模型极其相似。

Cursor 使用强化学习训练的一个大型 MoE 模型，能够出色地处理实际代码，并且速度特别快。就是Composer

内部基准测试中该模型在编码任务上达到行业前沿水准，生成速度比同类模型快四倍。

据官方博客介绍，在研发过程中，他们试验了一个代号为 Cheetah 的原型智能体模型，以更好地理解更高速智能体模型的影响。Composer 是该模型的更智能升级版，凭借足够的速度支撑交互式体验，让编码始终丝滑。

不过在看到模型输出了这么多中文之后，人们纷纷开始猜测它背后的「基础」是哪家大模型，难道是 Qwen Code？

无独有偶。

AI 编程独角兽 Cognition 近期也推出了他们最新 AI 模型 SWE-1.5。这是一款快速智能体模型，参数量达到了数千亿，在编码性能上接近 SOTA，并显著提升了速度 —— 比 Haiku 4.5 快 6 倍，比 Sonnet 4.5 快 13 倍。

目前该模型已在他们的 IDE 平台 Windsurf 上开放利用。

不过，模型发布出来之后很快就被人们仔细分析了一通，有网友认为 Cognition 的新模型背后也是基于中国的 AI 模型进行开发和改进的。

有人对 SWE 1.5 进行了大模型「越狱」，结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。

智谱的官推也来转推祝贺。

业界大佬：证据指向中国开源模型

X 博主 @deedydas 认为，Cognition 的 SWE-1.5 是基于中国公司智谱的 GLM 4.6 模型进行定制（精调 / 强化学习），并运行在 Cerebras 的硬件上；Cursor 的 Composer 模型也带有中国式推理痕迹。

最新消息，cerebras 发邮件官宣，11 月 5 日推出 zai-glm-4.6 作为新编码模型，这是给实锤了？

架构架构师 Daniel Jeffries 也发帖表示，有很多证据表明 WindSurf 和 Cursor 这些新模型都是经过微调，而不是从零开始训练的，这对于开源社区来说是一个胜利。

Jeffries 进一步指出，从头开始训练一个基础模型的成本极其高昂，许多资金和计算资源更雄厚的公司都未能成功。因此，WindSurf 和 Cursor 团队选择在后期训练阶段投资强化学习是特别合逻辑的，尤其是他们已经拥有强大的数据集和大量用户编码数据，这些数据更容易进行处理。

无法成功的。就是他还认为，Cursor 和 WindSurf 的团队并没有足够的资金来建设一个庞大的训练集群，也没有足够的数据和团队支持从零开始建立一个大模型。在当前，许多大型实验室已经在这一领域建立了强大的规模，单靠独立研发

此外，他还指出，一些反对开源的公司和个人阻碍了开源模型的发展，影响了现代软件开发和创新的进程。他呼吁美国公司意识到开源的重要性，回归开源理念，而不是发布功能受限的专有模型。

目前，Jeffries 发布的这篇帖子已被 LeCun 转发，进一步引发了讨论。

网友们纷纷表示，中国的开源基础模型已经具备了足够的能力来支持西方产品的开发，这意味着全球 AI 正进入多极化竞争的新格局。

有网友幽默评论道：是不是该开始学中文了？

国产开源模型，已成为 AI 领域主流

10 月 29 日，英伟达 CEO 黄仁勋在华盛顿的 GTC 大会上，除了发布新 GPU，也说了一番对目前 AI 行业现状的观察。他表示开源模型已变得非常强大，大大加速了 AI 应用的进程，开发者、研究者、全球的公司都需要开源。

在老黄展示的全球开源模型的下载及采用情况图中可以看到，2025 年以来，阿里的通义千问模型（Qwen）已占据开源模型的大部分市场份额，并且领先优势还在持续扩大中，衍生模型数量也是全球第一。

这样。就是随着开源模型的推理能力、多模态能力、专业领域能力的提升，它们不仅仅在帮助开发者，甚至已成为初创公司的命脉。或许对于 Cursor 和 Cognition 来说就

除此之外，在 AI 社区 HuggingFace 的趋势榜上，排行前列的模型都出自国内公司，有 MiniMax、DeepSeek、Kimi、百度、混元、千问，还有美团的 LongCat。

在第三方的基准平台 ArtificialAnalysis 上比较和分析模型质量、性能、推理速度、上下文窗口、参数数量和许可详情等性能指标，排行前列的也大多数是国产模型。

全球开发者、科技公司的接受度上，国内开源大模型都已经确立了领先的地位，正在改变着全球 AI 领域的竞争格局。就是看起来不论是在模型技术水平与能力，还

这场大模型技术竞赛中，追赶者和领先者的身位，正在慢慢发生变化。

....

#语言先验「基础过强」

MLLMs 视觉衰减有何解？

引言：在业内关于多模态大模型的研究进展中，MLLMs 凭借强大的语言能力能够处理繁琐的视觉问答和推理任务。但是，文本主导的注意力偏差和视觉信息在长推理链中的衰减，也成为制约 MLLMs 达成真正跨模态理解的瓶颈。这一发现正推动相关的研究从单纯的规模扩展，转向对多模态模型架构和推理机制等的进一步探索。

01. 「只看字不看图」，MLLMs 视觉信息被忽略？

文本主导性跨越图像、视频、音频等不同模态，成为了 MLLMs 的普遍缺陷？当推理链延长，模型的注意力如何从视觉 Token「迁移」至语言 Token？...

02. 万亿级文本主导，MLLMs 深层推理下视觉累计误差被放大？

「跨模态连接值」的指数衰减定律如何影响描述视觉信息在深层架构中的失效？...

03. 从 MODA 的显式对齐到 Look-Back 的隐式引导，MLLMs 如何「纠偏」？

双通道注意力对齐通过什么机制来消除模态间的不一致？VAR 如何确保所有推理都基于可追溯的视觉事实？...

「只看字不看图」，MLLMs 视觉信息被忽略？

1、近年来，以 Transformer 架构为基础的多模态大模型（MLLMs）通过有效融合大语言模型的推理能力和视觉编码器的感知能力，在视觉问答、图像描述等任务表现上取得了进展。

2、然而有研究者发现，多模态大模型存在模态失衡的问题。这种失衡表现为 MLLMs 的内在注意力分配机制存在系统性偏差，过度依赖语言先验，并系统性地轻视或忽略同时输入的视觉信息。[2-1]

① 在复杂的推理场景中，模型往往倾向于仅基于文本上下文生成输出，即使图像中涵盖丰富的、与文本相关甚至矛盾的关键信息。

3、这种现象并非特定于某类多模态模型，而是普遍存在于以大规模预训练语言模型（LLM）为核心骨干的 MLLMs 中，包括视觉-语言模型（如图像-文本、视频-文本）、音频-语言模型、时间序列-语言模型和图材料-语言模型等多种模态对。[2-1]

4、同样地，有研究指出随着推理链的延长，模型对图像内容的关注显著下降，而对指令等语言 token 的注意力显著增强，导致生成过程越来越依赖语言线索而非图像内容。[2-2]

① 研究者对模型内部的注意力分布进行了系统分析后，认为模型推理的增强是以牺牲视觉关注为代价换取语言推理能力的提升。

5、具体来说，相较于非推理模型，R1 类推理模型在生成过程中显著减少了对视觉 token 的关注，取而代之的是将大量注意力分配给指令 token 与语言上下文。[2-2]

6、更为关键的是，此种「注意力迁移」并非固定偏差，而是随着推理链条的延展而逐层加剧，即越往后层，模型越倾向于忽略图像输入，而完全依赖语言信号进行推理。[2-2]

① 在视觉聚焦任务中，非推理模型（Qwen2.5-VL）在多层均展现出对关键区域的稳定关注。

② 而 R1 模型（R1-OneVision）在同样问题下，注意力热图呈现出明显的视觉退化，深层几乎完全失焦。

③ 研究者还发现这一现象在模型进入「过度思考」阶段时表现得尤为明显。

7、这种衰减现象同样普遍存在于各类以 LLM 为核心的 MLLMs 中。例如，在视觉-语言模型中，深层解码器更关注文本语义，而视觉特征被压缩。在音频-语言模型中，音频细节在长序列推理中更容易被忽略。[2-2]

万亿级文本主导，MLLMs 深层推理下视觉累计误差被放大？

1、根据目前的研究工作，MLLMs 的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡。

2、MLLMs 核心是经过万亿级预训练的文本数据，此种超大规模的文本训练给予了 LLM 强大的语言先验、内在逻辑和通用知识。在多模态输入场景下，模型倾向于利用这种内在的、较为可靠的语言先验进行预测和生成。[2-1]

3、尽管视觉特征通过视觉编码器进行了高维表示，但与上述语言特征空间相比，其代表性不充足，容易被模型在融合初期被忽略或者抑制。[2-3]

① MLLMs 在跨模态注意力过程中，语言 token 往往分配到更高的注意力权重。

4、模态失衡也和模型训练目标的特性有关。相比于视觉数据，语言数据通常是高度抽象和紧凑的，这种特性导致模型在训练时倾向于采用偏向语言的「捷径学习」策略，也就是利用学习文本中的统计模式而非依赖复杂的视觉信息来预测答案。[2-3]

5、同时，当前 MLLMs 的训练通常使用文本生成损失来进行监督，这种损失函数主要聚焦于优化输出文本序列的质量，但对模型内部视觉通路的指导较为稀疏，这进一步强化了模型在不确定情况下依赖表现更好的文本特征进行预测的趋势。[2-4]

6、而对于视觉信息逐层衰减的问题，则和跨模态连接值的层级退化有关。...

....

#大模型的自我纠正新视角

华为诺亚方舟实验室研究员。就是本文作者来自香港城市大学和华为诺亚方舟实验室。其中，第一作者姚宇璇是香港城市大学计算机系的二年级博士生，研究方向涉及大模型的繁琐推理和生成，师从宋林琦教授。吴涵，郭志江

通过大型语言模型（LLMs）虽然进展很快，很强大，但是它们仍然存在会产生幻觉、生成有害内容和不遵守人类指令等挑战。一种流行的解决方案就是基于【自我纠正】，大概就是看自己输出的结果，自己反思一下有没有错，如果有错就自己改正。目前自己纠正还是比较关注于让大模型从错误中进行学习。更多相关内容能够参考这篇 TACL 的 survey [1]。

但是呢，现有的很多自我纠正的方法依赖于复杂的 prompt engineering，人类反馈，或外部程序，但这些方法往往比较麻烦（试 prompt），不稳定（换了个模型 prompt 可能就要修改了），昂贵（人类反馈很贵的），增加时延（要调用不同的外部应用）。为了克服这些限制，本文提出了一种无需 prompt engineering 也无需外部反馈的办法 ——Learning from Correctness（LeCo，是的，作者们是乐高爱好者 XD），我们想倒反天罡，从正确而不是错误中进行学习，让自己变得更强大。

论文链接：https://arxiv.org/pdf/2403.19094arxiv.org/pdf/2403.19094
代码链接：https://github.com/starrYYxuan/LeCo

一句话总结：LeCo 通过大模型自己生成的推理步骤进行自我纠正，无需人类反馈，手工提示和外部工具。其核心思想就是：模型如果知道更多的正确推理步骤，那他的搜索空间就可能压缩，从而更有高效地找到完整的正确推理路径。LeCo 为每个推理步骤计算置信度分数，凭借分数给推理步骤打分，低分的推理步被视为潜在错误，之前的步骤被视为正确。通过将这些正确步骤附加到输入中，模型许可逐步接近正确答案。如下图所示，LeCo 首先得到对当前问题的解（左边 output），然后大家逐渐去收集正确的推理步骤知道得到末了正确的解。这种渐进式学习方法不仅提高了推理准确性，还减少了 tokens 消耗（穷人友好）和迭代次数（和投票，从错误中学习相比）。

LeCo 方法示意图

如何找出正确的推理步骤？

一些预设知识：在生成任务中，logits 代表候选词被选为下一个词的对数概率。另一方面，置信度指的是模型对其预测的确定性。在推理任务中，大家提出步骤置信度来衡量模型对每个推理步骤的正确性的置信度。于是我们设计了三种基于 logits 的评分，从单步推理步和不同推理步出发，全面评估每个推理步骤的置信度。

办法：为了找出大模型自己生成的正确推理步骤，本文开发了一种基于生成 logits 的高效途径来测量每个推理步骤的置信度，无需额外标注或应用。通过综合考虑每个步骤中的平均置信度、步骤置信度差异和步骤传递概率，LeCo 能识别出近 65% 的错误步骤。具体来讲，我们的置信度设计考虑了 3 个不同的角度：

单步置信度（average token score）：一种简单的方法来衡量步骤置信度是平均计算某一步中的 token 概率。这个平均值反映了模型在该步骤中推理的确定性。单步置信度定义为：

单步散度分数 (step divergence score)：虽然平均 token 概率看似直观，但它可能会产生误导。在一个步骤中，大多数 token 通常是常见词汇，具有高置信度分数，但携带的信息很少。相反，对于推理至关重要的 token，例如数学计算，通常置信度较低。这种矛盾导致整个步骤的平均 token 置信度偏高。为了解决这个问题，本文提出了 Step Divergence Score。这个指标测量了步骤中标记概率的分布均匀性。理想情况下，正确的推理步骤 token 概率不仅高，而且在所有 token 之间均匀分布。为此我们定义了 token 概率的归一化分布

和均匀分布 U 来设计：

步间转移分数 (Inter-step Transition Score) : 在步骤内部测量之后，我们寻求量化连续步骤之间的转换。初步实验发现了两个关键点：

（1）整体置信度较低的步骤倾向于在初始的几个 tokens（通常是前三个）中具有较低的置信度，更多讨论行在附录中找到。

（2）这些初始的几个 tokens 也是在不同程序运行中最有可能改变的。基于这些观察，我们建议运用步骤中的开头的借个 tokens 概率来表示该步骤和下一个步骤之间的交叉转换分数。换言之，转换分数：

结合以上三个分数，我们能够得到针对每个推理步骤的置信分数：

LeCO：从正确的推理步中学习

好了，现在我们已经拥有了衡量推理步置信分数的办法，现在只要求迭代式地收集正确的推理步骤，优化搜索空间去拿到最终的正确推理路径。LeCo 分为两个阶段：

有推理步骤的。就是初始阶段（Initial Stage）：用任何 CoT 的方法生成一个初始的解即可，要求就是需这个解
反思阶段（Rethink Stage）：拿到这个解之后，大家用上述方法去计算每个推理步骤。然后选择分数最低的那个步骤作为 “犯错的第一步”。之前的的推理步骤我们都认为是 “正确的步骤”。然后我们将正确的步骤也作为输入给到大模型去进行推理。

LeCo 就是在推理和反思两个阶段交替进行直到达到停止的条件。我们设置的条件有两个：1. 达到最大的迭代次数；2. 连续两次的解都是一致的。

LeCo 算法总结如下：

实验结果

要求多次推理的 Self-Consistency（SC [2]），Adaptive Consistency（ADPSC [3]）和 Recursively Criticizes and Improves（RCI [4]，从错误中学习）：就是我们使用 LeCo 在推理任务上面进行了验证，包括逻辑推理，常识推理和数学推理。对比的基线系统包括了也

表 1：LeCo 在逻辑，常识和数学推理上面的性能表现

表 2：LeCo 在应该更加复杂的推理 MATH 上的表现

从上面的两个表格中我们可以看到：

LeCo 的普适性：适用于不同的模型（GPT3.5，GPT4，DeepSeek）和不同的 CoT 手段（Initial Stage 用的）；
LeCo 的性能提升：在不同类型的推理任务上面都有提升，越难的任务，需要越多推理步骤的任务提升越多（比如 MATH）；
LeCo 的效率提升：如下两个表格所示，LeCo 除了在各种任务上对性能有一定提升之外，所消耗的 token 数量更少（如：比 self-consistency 低 80%），并且所需的迭代轮数更低。

表 3：LeCo 和不同技巧的 Token 消耗比较

表 4：LeCo 和不同方法的迭代次数比较

人工分析：为了进一步验证 LeCo 是否真的能识别到推理中正确的步骤，本文人工标注了 100 题 GSM8K，找出推理过程中正确和错误的时间步。Exact Correct 表示 LeCo 能精确定位到第一步犯错的步骤，Partial Correct 表示定位在 1 步的误差范围内，Wrong 表示定位误差范围大于 1 步。总体来说，LeCo 可以凭借计算置信度的方式而无需外部信息较为准备地找出正确和错误的步骤，不过仍然存在提升空间。使用whaosoft开发板商城设备测试

表 5：不同手段计算推理步骤置信度的准确率（人工分析 100 题）

总结

1. 本文提出了一种新的多步推理范式，称为从正确中进行学习（LeCo），经过逐步积累正确步骤接近最终答案；

2. 本文挑战了高质量反馈只能来自外部的观点，并提出了一种仅仅使用模型自身的 confidence score 来近似每个推理步骤的正确性的方法；

3. 无论是开源和闭源模型，都可以在各种多步推理任务中从 LeCo 中获益，同时减少 token 和迭代轮次的消耗。更令人振奋的是，和大家的题目一样，LeCo 消除了 rethink 阶段重新编写 prompt 的需求。

....

#LLM生成的想法比人类专家撰写的想法更新颖！

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

斯坦福大学的最新研究通过大规模实验发现，尽管大型语言模型（LLMs）在新颖性上优于人类专家的想法，但在可行性方面略逊一筹，还需要进一步研究以提高其实用性。

大型语言模型（LLMs）在各个领域都是一个优秀的助手，广大科研人员也对LLM在加速科学发现方面的潜力充满期待，比如已经有研究提出了能够自主生成和验证新想法的研究智能体。

然而，至今还没有评估结果能够证明LLM系统能够生成新颖的、达到专家水平的想法（idea），更不用说接手完成整个研究流程了。

为了填补这一空白，斯坦福大学的研究人员最近发布了耗时一年完成的新实验，获得了第一个具有统计学意义的结论：LLM生成的想法比人类专家撰写的想法更新颖！

论文链接：https://arxiv.org/pdf/2409.04109

在论文中，研究人员设计了一个完整的实验，可以评估模型在新研究思路生成方面的能力，同时对可能的干扰因素进行控制，首次将专家级的自然语言处理（NLP）研究人员与LLM创意代智能体进行直接比较。

博士和博士后。就是实验招募了超过100名高水平NLP研究人员来撰写新想法，然后对LLM生成的想法和人类想法进行盲审，参与者来自 36 个不同的机构，大部分

通过这种方式，研究人员首次得出「LLM在研究创意生成」能力的统计显著结论：LLM生成的想法在新颖性方面优于人类专家的想法（p < 0.05），但在可行性方面略逊一筹。

在深入研究基线模型时，研究人员发现了构建和评估研究智能体中的一些开放性问题，包括LLM自我评估的不足以及在生成过程中缺乏多样性。

在实验过程中，研究人员意识到，即使是专家，对想法新颖性的判断可能也非常困难，因此，文中提出了一个端到端的研究设计，招募研究人员将这些想法转化为完整的项目。

问题设置

研究人员将科研想法评估（research idea evaluation）分为三个独立的子部分，主要关注潜在的混杂因素，如研究领域、研究想法的格式和评估过程。

1. 想法本身，根据指令产生；

2. 传达想法的书面报告（writeup）；

3. 专家对书面报告的评估。

构想的范围和指令（Ideation Scope and Instructions ）

研究想法既可以是一个能够提高模型性能的技巧，也能够是博士论文中描述的大规模研究计划，任何关于构想的实验都必须仔细平衡研究想法的「现实性」和「趣味性」。

受思维链等计划的启发，一些容易的提示思路就能大幅提升LLM的性能，还能够在不麻烦的计算硬件上执行，故而研究人员选择「基于提示的自然语言处理」研究作为初步实验领域。

在提示词的编写思路上，LLM更倾向于安全的主题，与人类的偏好不一致，所以研究人员为了统一目标，从最近的NLP会议的征稿页面中提取了七个具体的研究主题，包括偏见（bias）、编码（coding）、安全性（safety）、多语言性（multilingual）、事实性（factuality）、数学（math）和不确定性（uncertainty）。

想法书面报告（idea writeup）

一个想法只有在被写出来后，其他人才能以此交流并评估，但写作过程会引入其他混杂因素，例如人类研究者可能会用春秋笔法让研究内容看起来更高大上，比如包括更多的例子和建立细节。

研究人员从资助申请中使用的指南中获得灵感，编写了一个模板来指定想法提案的结构和详细程度，包括标题、问题陈述、动机、提出的方法、逐步实验计划、测试用例示例和备选计划等字段。

不过，即使有了模板，可能仍然存在微妙的写作风格差异，例如，人类可能倾向于以更具吸引力和非正式的语气写作。

为此，研究人员又开发了一个风格标准化提示，使用LLM将所有想法转换为相同的写作和格式化风格，而不改变原始内容。

评审和评估（review and evaluation）

设计一个明确定义所有评审标准的表格，以尽可能地将评审过程标准化和锚定评估。就是对研究想法的评审往往是主观的，研究人员的目标

研究人员在设计评审表格时，遵循了AI领域会议（如ACL和ICLR）评审的最佳实践，定义了四个分解指标，包括新颖性（novelty）、兴奋度（excitement）、可行性（feasibility）和预期效果（expected effectiveness）。

每个指标在评审时，都有一个1-10的数字评分，和一段文本作为理由。

盲审评估从三种不同条件下对想法进行对比：

1. 人类想法（human ideas）：由招募的专家研究者撰写的想法提案。

2. AI想法：由LLM智能体生成的想法提案，直接从智能体的输出中获取排名靠前的想法。

3. AI想法+人类重新排名：由LLM智能体生成的想法提案，再由人工手动从LLM智能体生成的所有想法中选择了排名靠前的想法，以便更好地估计AI想法的上限质量。

想法生成智能体（idea generation agent）论文检索

为了使创意生成有据可依，智能体得检索与给定研究主题相关的论文，以便在生成新创意时能够了解相关研究。

研究人员利用检索增强生成（RAG），给定一个研究主题后，例如「能够提高事实性并减少大型语言模型幻觉的新型提示方法」，首先提示一个LLM生成一系列对Semantic Scholar API的函数调用，然后使用claude-3-5-sonnet-20240620作为智能体的骨干模型，论文检索的动作空间包括：{KeywordQuery(关键词), PaperQuery(论文ID), GetReferences(论文ID)}。

然后根据一系列标准对检索到的文献进行评分和排序，包括文献与主题的相关性、是否包含计算实验的经验性研究，以及文献的创新性和启发性，最多检索120篇论文。

创意生成

研究人员的思路是，首先用LLM为每个研究主题生成4000个种子创意，创意生成提示包括示范示例和检索到的论文；然后用排序器来从中选取出一小部分高质量的，为了从庞大的候选创意池中去除重复的创意，使用Sentence-Transformers中的all-MiniLM-L6-v2对所有种子创意进行编码，然后计算成对的余弦相似度来进行一轮去重，最后得到大约5%非重复创意。

创意排名

为了对创意进行排名，研究人员利用了1200篇ICLR 2024会议中与大型语言模型相关的论文及其评审分数和接受决定的数据。

结果发现，当直接要求LLMs预测论文的最终分数或接受决定时，模型的预测准确性不高，但在成对比较中判断哪篇论文更优秀时，却能够达到较高的准确性。

研究人员使用Claude-3.5-Sonnet模型作为自动排名器，在零样本提示下，通过成对比较任务达到了71.4%的准确率，优于其他模型。

为了确保所有计划提案的排名可靠性，采用瑞士制比赛平台进行多轮评分；在验证集上，发现排名前10的论文与排名后10的论文在平均评审分数上有明显差异，证明了排序器的有效性；在实验中，选择了5轮作为评分标准。

此外，为了比较AI排序器与人类专家的差异，研究人员还设置了一个条件，即由人工手动对生成的项目提案进行重排，结果显示两种排名手段存在一定差异。

参考资料：

https://x.com/ChengleiSi/status/1833166031134806330

....

#大模型六小虎生存现状

抱有一丝乐观又何妨？

ChatGPT横空出世，打响了生成式AI创业热潮的发令枪。

在国内，智谱AI、百川智能、零一万物、月之暗面、Minimax率先领跑。今年6月，前微软全球副总裁姜大昕创办的阶跃星辰，开始受到资本的青睐，一轮20亿美元的融资，将其送上了第一梯队的牌桌。

自此，大模型创企的“六小虎”的格局形成。

从新年伊始，AI应用层的井喷被预告为今年AI领域的最强看点。

3月份，Kimi200万字长文本横空出世，率先出圈。此后大模型厂商开启了激烈的用户争夺战，用铺天盖地的投放轰炸目标用户的心智，越来越多的人开始了解AI程序，使用AI工具。

同时，今年的融资情况也异常顺利。纵观大模型“六小虎”，每位玩家都在今年取得了亿元以上的融资进展。

然而，我们也无法忽视大模型能力的增长正陷入普遍的停滞。

今天，距离OpenAI发布GPT-4已经足足过去了一年又六个月。新一代模型的发布就像“狼来了”的故事，AI社区普遍对奥特曼的谜语和炒作开始感到疲倦。

而作为AI创业的领头羊，OpenAI的商业化探索都依然迷茫。在ChatGPT增长呈现饱和后，OpenAI开始借助一系列开发工具的发布向B端发力，但收收支来看，仍然需要大笔的融资入账才能“续命”。

观之国内，大模型厂商们是否遇到了同样的困境？2024年已经过半，“六小虎”们过得还好吗？

01 模型能力增长放缓，各家如何开卷产品差异化？

很多人期待GPT-5的发布能使模型能力再跃上一个台阶。

从目前的确切消息来看，OpenAI即将在秋季发布模型“草莓”，爆料称该模型特别擅长应对复杂的数学问题和编程问题，其生成的合成数据，正用于训练传说中的“下一代模型”猎户座。因此，“草莓”更像是针对特定领域的补丁，无法对其通用能力的提升抱有太多期待。

领跑者都在放慢脚步，模型能力的增长乏力有目共睹，追随者正渐渐跟上来，差距不断缩小。

放眼大模型“六小虎”，今年年中推出的新模型们纷纷“追平”了GPT-4。5月份，百川智能和零一万物前后脚发布的模型Yi-Large和Baichuan 4都在对标之余，实现了某几项能力的超越。同个月内，OpenAI展示了GPT-4o令人惊讶的“Her”功能，又掀起了大模型厂商对多模态能力的一轮追逐。7月，阶跃星辰发布了Step-1.5V多模态大模型，到了8月底，智谱发布的GLM-4-Plus已经持平GPT-4o，甚至抢先开始进行Her视频通话特性的内测上线。

模型能力卷不动的大前提下，怎么用AI能力、给谁用AI能力变成了极为重要的商业抉择。杨植麟和他的月之暗面坚定的选择了To C这条路，3月份Kimi打出的“长文本”作用带来了极大的关注，此后月活量在一众国产chatbot中居高不下，此后又率先推出了浏览器插件进一步争夺流量入口。

相较月之暗面的all in Kimi，MiniMax和阶跃星辰在C端产品的布局更相似，两者都推出了主打生产力工具的产品（海螺AI、跃问），又推出了一款AI陪伴产品（星野、冒泡鸭）。

希望该产品最终形成小红书、B站等APP的社区形态，虽然目前距离这一目标尚且遥远。就是以最近月活表现大好（据AI产品榜统计，8月的月活跃率长达7天）的星野为例，倘若以AI陪伴功能来评判星野，其独特的玩法和用户共创的各种角色使得其成为一款完成度很高的产品。MiniMax的创始人闫俊杰，却不认为星野是中国版的Character.AI，他说“（星野的）底层设计不是陪伴用户聊天，而是一个内容社区。”从这里判断，闫俊杰的野心

同样注重To C的还有零一万物，创始人李开复不看好AI产品在B端的市场推广，提出“零一万物要坚决地做to C，坚决不做赔钱的to B”。与前面三个“小虎”不同，零一万物选择了出海，推出了生产力工具PopAi。假设按照李开复的C端路线图来走，零一下一个阶段应该会尝试推出AI-first的娱乐、音乐、游戏等方向的应用。

综合来看，C端能成为AI时代Super App的形态还没有被挖掘出来。差异化仍然没有逃脱出“雕花”的范围，给人一种“草色遥看近却无”的迷离之感。

相对的，智谱AI和百川智能把更多的精力投入到To B赛道。智谱看好B端用户的付费意愿，也认为公司的基因适合做To B, CEO张鹏曾坦言：“我们推C端产品的目的是为了向B端用户展示能力”。值得一提的是，这家清华系出身的企业，现在客户总数已超过1000家，多次中标大型企事业单位的合作，这可能成为智谱最坚实的壁垒。

同样选择To B，王小川对医疗行业的浓厚兴趣，使得百川智能似乎是唯一一个有专攻领域的“小虎”。王小川曾说，““医疗是大模型皇冠上的明珠”。从此出发，百川智能也与许多医疗机构达成了合作，最新的进展是8月底宣布将与北京儿童医院推出儿童健康大模型。

当然，大模型“六小虎”虽然在To B和To C的选择上有所侧重，但并未完全放弃对另一条路的探索。例如百川智能姗姗来迟的chatbot“百小应”。

大模型厂商想卷出产品上的差异化，却卷得不够明白。

加之AI应用在大众层面的渗透率还不够高，谁能抢先触达到用户就变成了模型间竞争的一个关键。大模型厂商在线上线下纷纷铺开营销，其争夺用户和流量的强度有着愈演愈烈的趋势——烧钱，烧更多的钱。

02 烧钱的游戏还在持续，但资本只垂青强者**

当杨植麟在采访中被问到“如果你今天拿到的钱是最后一笔钱，你会怎么花这笔钱？”，他坦诚地回答：“ 我希望这个永远不会发生，缘于我们未来还需要很多钱。 ”

杨植麟所言非虚，今年上半年，AI“六小虎”开启了激烈的用户争夺大战，一度达到了“百家投流”的局面。以月之暗面为例，3月起Kimi在B站开启了持续的轰炸式投放，涌入的新增用户让月之暗面尝到了甜头。

根据媒体报道，月之暗面对于Kimi PC端的新增用户报价在38-40元范围内，从此推算，Kimi通过B站投流获得一位新增用户，起码要支付30元——这是一个让其他创业公司都望而却步的价格。

上图：Kimi在B站的投放

B站用户相对年轻、乐于尝试的特点，让其成为大模型广告投放的绝佳场域。此外，也不乏有大模型厂商尝试线下渠道，例如智谱清言就在地铁铺放了“更懂打工人的AI助手”海报，凭借结合一系列办公痛点，力图精准击中挤在早晚高峰的职场白领。

为抢在对手之前获得更多的早期用户。就是此番投流的效果显著，根据报道，AI五小龙（未统计入阶跃星辰）产品的总访问量，在6个月内暴涨了963%。然而，这波高调的投放并未瞄准直接的商业化回报，只

毛毛雨。从OpenAI的数据来看，外媒爆料这家AI模型领头羊每年支出85亿美元，包括40亿的算力成本、30亿的训练和数据成本以及15亿元的人力成本。手握全球最成功的C端AI应用ChatGPT，OpenAI在年收入到达35亿的情况下，还得亏损50亿美元左右。就是不过，相比更为烧钱的研发支出来说，这些营销费用可能只

可想而知，国内的情况也并不乐观，李开复曾透露，“零一万物今年 ToC 单一产品收入达 1 亿元人民币，ROI 在 1 左右。因此这样的结果至少从国内大模型公司来看是非常有优势的。”考虑到海内外用户付费意识的差距，“六小虎”距离收支平衡还有很远、很难的路要走。

因此，对于包括OpenAI在内的大模型厂商来说，没有真正的安全——一旦融资不顺利，失去的可能就是最后的“救命钱”。

不过，今年“六小虎”的融资情况还算乐观，场上的所有玩家都拿到了亿元以上的融资。从近两个月来看，资本对AI创企的热情依然高涨。7月底，百川智能完成A轮融资，总融资金额达50亿元，并将在接下来以200亿元（人民币）估值开启 B 轮融资。8月初，零一万物又拿到了数亿美元的新一轮融资。更不用说月之暗面，在阿里占股四成的情况下，还罕见地拿到了腾讯的参投，这轮融资后其估值也来到了33亿美元的新高点。

此外，假如全球投资材料也展现了对人工智能的偏好，根据智库CB Insights的报告，即使全球风投交易整体处于低迷状态，但人工智能却逆势上涨，仅2024第二季度，AI初创就获得了183亿美元的融资总额，占全球VC融资总额的28%。

值得注意的是，在这183亿元中，马斯克的 xAI 公司就占到 60 亿美元，约为总金额的三分之一。考虑到xAI在特斯拉公司获得的材料和人才，以及在X平台上获取实时数据的独特优势，很难将其当做一家纯粹的初创公司看待。

报告给出的结论是，投资者对那些已有成熟技术生态系统的企业情有独钟，资本会对更少的公司进行更大规模的投资，而不是扶持那些排行榜位次靠后的小企业。

这样的，接下来融资都很难。 ”就是朱啸虎的观点则更加激进，在近期接受界面新闻采访时直说，独立大模型公司活不下来：“我上次发朋友圈说（5年内就没有独立的大模型公司）的时候，就有很多国内知名投资人在下面说5年都太长了，可能3年就没有独立的大模型公司了。确实

融资难，却并不代表不能成。OpenAI新一轮数亿美元的“续命”融资即将到位，对标其1000 亿美元的身价，国内大模型“六小虎”的估值上升空间还很大。

提到对标OpenAI，有一件有趣的事情：国内大模型厂商也开始布局对AI创企的投资了。今年1月份，智谱AI曾公布将联合生态伙伴正式推出AGI生态基金“Z 基金”，基金总额达到10亿元人民币，截至目前，其投资的公司已达10余家。同时，月之暗面也似乎有投资动作，该公司创始成员汪箴拥有投资机构的从业经历，知情人士透露曾就其产品接洽过月之暗面的投资部门。

大模型厂商的“不务正业”，是一种“既要又要”的野心，也是迫于AI生态链不完善的一种无奈。

03 从人事变动看增长停滞：裁员、出走与内斗大戏

最近，小红书上的AI博主@橘子汽水铺爆料称，“大模型六小虎的情况，略显悲观”。这篇帖子及后续内容透露了大模型头部厂商“裁员”“锁HC”“团队出走”“内斗”等一系列人事变动的爆料。

虽然这些逸闻的真实性有待考证，但我们能捕捉到这场动荡的蛛丝马迹。

8月底，零一万物的算法副总裁黄文灏被证实已加盟字节的大模型团队，负责技术项目管理和规划。紧接着，另一位公司的核心成员李先刚也被爆出走，选择返回“老东家”贝壳任职，他曾任过零一万物的法定代表人。

核心成员的频繁变动，揭开了AI企业内部动荡的冰山一角。但从招聘平台上看，智谱AI、百川智能、Minimax、阶跃星辰都还有大量的岗位放出，其中不乏薪酬待遇优厚的技术岗位。

看起来，大模型厂商并未放弃团队扩张的计划。

04 AGI的等待：冲刺上市，旷日持久

大模型“六小虎”的路绝不是一帆风顺。

时间拨回到23年，美团联合创始人王慧文在创建光年之外时，提出过“双轮驱动”的设想。哪怕光年之外由于种种原因退出了大模型的竞技场，但不少AI创企延续了该思路的探索。

，在整理此篇文章的时候，越来越直观地感受到：模型能力增长与商业化探索，这两条路皆阻碍重重。站在这个角度，也许更能理解王慧文当时所感受到的压力和焦灼，最终光年之外以被美团收购草草离场。就是但

依照朱啸虎的看法，这或许是一家独立大模型的最好结局。

从硅谷的先例来看，微软花费40亿，“吞掉”了初创企业Inflection AI，带走了其联合创始人Mustafa Suleyman和Karén Simonyan，以及“大多数员工”。时隔不久，谷歌又如法炮制，支付数十亿美元，吸纳了独角兽Character.AI联合创始人Noam Shazeer和Daniel De Freitas，以及约30名研发人员。

每个投资人都要思考的问题，大厂会不会为了这些人才花这么多钱去并购？”就是于是朱啸虎提出了一个扎心的困难：“好的结果就是卖给大厂。但是在国内来说，你到底有没有一些额外的人才是大厂没有的？这

不过，答案没有那么绝对。

通过根据外媒The Information推测，IPO或将成为OpenAI的出路。上市能够为OpenAI提供大量的、源源不断的资金承受，提高品牌知名度。此前，OpenAI在聘请Sarah Friar担任首席财务官时，外界就对其上市动向有所猜测，这位信任CFO曾辅助支付公司 Square、社交网络Nextdoor完成上市安排。

此前的爆料透露，“六小虎”已经有公司在冲刺上市了。而零一万物的李开复也早有这个想法，他曾分享说，一年前，他就跟投资人自愿主动承诺：10年内自己不会套现。他说：“我认为套现最好的方式是赶快上市，这是我们未来努力的方向。”

这场努力可能旷日持久。AGI带着改变世界的宏大愿景，其完成必然不可能一蹴而就。对于AI技术来说，负面的声音可能会在漫长的瓶颈期中一直持续。

，抱有一丝乐观又何妨？2013年，斯派克·琼斯执导的电影《Her》上映了，谁能设想仅仅十余年之后，我们就将遇见自己的萨曼莎呢？就是但

参考链接：

1.https://www.cluebenchmarks.com/superclue_2404

2.https://finance.sina.com.cn/roll/2024-07-06/doc-inccevzf3094386.shtml

3.https://36kr.com/p/2677672437708552

4.https://new.qq.com/rain/a/20240815A06W4V00?suid=&media_id=

5.https://new.qq.com/rain/a/20240513A07HQR00

....

#保守派中间派原生派，谁将主导搜索引擎未来三十年？

拥有智能索引库、专属知识库、混合大模型调度系统的 AI 原生搜索，能否成为正统，引领搜索引擎的下一个三十年？

如今的科技界，没有比 AI 搜索更强的新共识了。

在过去的几十年里，以 Google、百度为代表的「搜索引擎」，和以抖音、TikTok 代表的「推荐引擎」，轮番引领了信息经济的发展。

而今天，大语言模型（ LLM ）的出现，有望进一步增强搜索引擎的地位和价值，让它以 AI 搜索的新身份，再次引领人工智能应用的浪潮。

一、保守还是激进？涌向 AI 搜索的三大支流

AI 正成为「端掉」传统搜索引擎业务的最大变量，但如何构建 AI 搜索，争议不绝。目前，涌向 AI 搜索的众多玩家已经分化出三股主要支流，各自蜿蜒前行：保守派，中间派，原生派。

保守派以 Google AI Overviews，和国产搜索「AI 智能回答」为代表，即在现有搜索引擎上添加 AI 功能模块，增强传统搜索性能。
以 New Bing 为代表的中间派，虽然通过 AI 对搜索进行了更加深入的改造，但保留了传统搜索引擎这个「基础设施」，也有人称之为「答案引擎」。
最激进的当属 Perplexity、360AI 搜索为代表「原生派」——从 0 到 1 打造 AI 原生的搜索引擎，因其回答质量更高，信息结构化更强，也被称为「知识引擎」。

业内人士认为，在人工智能时代，若是按照「含 AI 量」来为搜索引擎做代际划分，那么：

保守派仅对搜索引擎做了「插件」化改造，AI 含量最低，只能算是搜索引擎 1.0 。
中间派对传统搜索引擎的改造比较深入，AI 含量明显上升，具有较强的生成回答的能力，可以称之为搜索引擎 2.0 。
「为 AI 而生」的原生搜索引擎，将 AI 作为系统中无法分割的一部分，含 AI 量最高，被称为搜索引擎 3.0 。

如果用户仅需网址导航，传统搜索引擎和搜索引擎 1.0 完全够用。一旦搜索需求变复杂，包含推理、计算等要求，不同代际的搜索引擎表现差距，就立刻凸显出来。

举个例子。我们先问 Google，「《里斯本丸沉没》豆瓣评分高达 9.3，口碑炸裂，为什么票房才 1000 万？」

结果，面对这个比较复杂的提问，Google AI Overviews 无法回答，甚至都没有启动。

即便是对于一些看似有能力回答的简单问题，Google AI Overviews 也会翻车：

「怎么吃石头？——石头要磨细了吃，咽不下的时候还用水来送服，石头有很丰富的营养」
「怎么不让芝士从披萨上滑落？——在酱汁中加入 1/8 杯无毒胶水」
「怀孕时抽烟怎么样？——医生建议怀孕期间每天抽 2-3 根烟」

当然，这并不意味着 Google 的 AI 技能逊于其他公司。问题的根源在于，AI 环境仅充当传统搜索引擎的插件，被内容不准确、但用户点击较多的网页搜索结果带沟里了。

传统搜索引擎倾向于 CTR 导向（ Click Through Rate ，点击率），这直接关系到广告收入，所以，返回内容往往倾向点击率高的网页（很多时候是一些 UGC 网站，比如论坛、知识问答网站，或者「内容农场站」和「 AI 内容站」），而不是最准确的答案。一旦遭遇标题党、误导甚至错误答案，大模型也会跟着翻车。

同一个问题，New Bing 回答要好不少，但仍然会受到传统搜索引擎按照点击率排序网页的影响。

而作为人工智能时代搜索引擎 3.0 的代表，Perplexity、360AI 搜索之所以被称为「知识引擎」，是因为抛出一个问题，你得到的不只是答案，还是结构化的知识。

还是同一个问题，AI 原生搜索引擎的回答质量明显更进一步。

除了回答平均长度超过 700 字（其他 ChatBot 或 AI 搜索回答一般只有 200 多字），360AI 搜索返回的结果还能从更多角度解析同一个问题，信息丰富。最重要的，几乎每句话都会注明出处，就像学术论文务必注明引文来源，引注数量也颇为可观。

除此之外，结果还包括图片、思维导图以及所有参考文章链接。

为了更加明确 AI 搜索的不同流派和路径之间的效果差异，和背后原因，我们决定再拿新的困难做进一步的测试。

尽管有些心理预期，提问「如何评价 17 岁中专生姜萍闯入 2024 阿里全球数学竞赛决赛」，选择「深入回答」模式后，360AI 搜索的表现还是让人感到意外。

，时长00:23

阅读了全网 46,834 篇相关资料，精选 39 篇文章，它很快整出一篇小作文，不仅篇幅可观，内容也非常丰富。除了开门见山汇总了社会各界对姜萍闯入决赛的评价，还谈到了她的预赛表现和个人特点，最后「升华」到讨论中专生参加这类竞赛的优势与挑战。

在严谨性上，几乎每个论点都会标注相关论据内容出处，方便读者进一步核实。全文一共有 25 个引注，还附上了全部 39 篇文章链接。

在呈现方式上，除了文字，还有姜萍、决赛榜单等相关新闻图片以及思维导图。

比对「保守派」的回答，优势可谓一目了然。

这是百度「AI智能问答」返回的结果。

微软必应返回的结果。就是这

而大家熟悉的 ChatGPT 等 AI Chatbot 产品，在少数情况下才涉及 RAG 调用，因此，生成答案中的参考链接较少，难免存在幻觉问题。

从搜索结果质量上来看，三代搜索引擎中，无疑是激进的「原生派」的搜索引擎 3.0 占了上风。但商业世界不止看「效果」，还要看「成本」等诸多因素。

如果 AI 原生搜索引擎投入大、回报低，那么再好的搜索质量也无法帮助它完成商业闭环。

二、AI 原生虽好，「三大支柱」门槛高

要打造一个真正的 AI 搜索引擎，门槛和投入不可谓不高。

360 集团副总裁、AI 产品负责人梁志辉估算，要打造一个通用搜索引擎，至少必须 20 亿至 40 亿元的预算。这还不包括网页排名的服务器成本、终端厂商合作费用和人力资源开支。这也正是为何全球只有少数几家通用搜索引擎的原因。

从技能架构层面来看，一个可以被称为「知识引擎」的 AI 原生通用搜索引擎，包括了「智能索引库+专属知识库+混合大模型智能调度平台」三大支柱。

1、智能索引库

冰山一角。就是对于一个搜索引擎而言，自建索引库也非常关键，但同时成本极为高昂。即使是传统搜索引擎，爬取 1000 万个网页就需要投入百万级预算。而这仅仅

因此，除了极少数创业公司选择自建小规模的垂直索引库，市面上的多数所谓 AI 搜索产品，实际上依赖于购买 Google 或微软 Bing的 API 服务，这又带来两个显著问题。

首先，成本高昂。调用 Google 或 Bing 的索引库需要购买昂贵的第三方服务，这可能会吞噬企业的全部利润，使得项目难以维系。

其次，知识理解受限。若选择接入现有的索引库服务（如 Perplexity AI ），通常只能获取与查询相关的约 100 字信息。这种限制使得大模型无法对内容全文进行通读和深入分析，导致对许多知识的理解变得片段化和表面化。

作为 2012 年就开始做搜索的老牌厂商，360 搜索已经建立了约由 1000 亿个网页构成的动态更新索引库，这也为 360AI 搜索奠定了基础。

但对于 AI 搜索来讲，索引技术和索引库同样重要。在传统关键词索引之外，360AI 搜索使用向量索引、KV 索引等技术，对索引库进行了重构，使得索引效率大幅提升。

2、专属知识库

知识库是知识引擎的「高质量内容原料」，更多用于困难推理和深度理解任务。但公域的内容质量整体下降，优质内容逐渐被有丰富内容的 App 分走。借助自建、购买和合作等方式，360AI 搜索的知识库收录了大量的高质量内容来源，包括但不限于论文、知识视频、访谈节目、课堂录音、专业网站等。

而且，通过对知识库引入了 GraphRAG，利用知识图谱进行检索，处理复杂查询更加得心应手。这使得专属知识库内容能够以大模型最容易理解和计算的方式来抓取、索引、召回，让优质知识真做到「可计算」，「可理解」。

3、混合大模型智能调度系统

生成式大语言模型，是 AI 搜索能够输出结构化高质量内容的关键。但一个直接接入大模型的 AI 搜索并不高效，也不足够智能，因为每一个大模型都有短板。360AI 搜索的解决方案是，构建了一个 CoE（ Collaboration-of-Experts，专家协同）技术架构，用实现了对包括 360 智脑在内 16 家主流国产大模型厂商、54 款大模型，和大量的专家模型的智能调度。

CoE 架构的手艺原理，和近日刚刚发布的 OpenAI o1-preview 大模型理念相同、方法类似，都是基于强化学习和「思维链」，大幅优化了记忆、检索、推理机制，提升了大模型解决复杂疑问的能力。

通过思维链和「多系统协同」的方式建立「快思考」和「慢思考」。另一个不同点在于，CoE 架构的发布时间，要比 o1 早了接近两个月。就是只不过不同点在于，OpenAI o1遵循的可能是「双系统理论（ Dual Process Theory）」，是 GPT 和 o 系列结合思维链的融合系统，前者用于「快思考」，后者实现「慢思考」。而 CoE（ Collaboration-of-Experts,专家协同）架构则集合了数量更多的大模型和专家模型，

这种分工协作的模式，使得 CoE 架构在推理任务中的表现更加灵活且精准，尤其在处理复杂问题时，能与 OpenAI o1 媲美，甚至在某些场景下更胜一筹。

而具有工艺前瞻性的 CoE 架构所支撑的混合大模型智能调度环境，正是 AI 搜索的第三大支柱。

在 CoE 架构面世之前，国际主流的大模型调度系统是 MoE（ Mixture-of-Experts ,专家混合）架构。但是，MoE 架构一次只能让一个专家模型回答问题，又由于单个模型能力有限，无法及时对网页内容去伪存真，答案也难免带有幻觉和噪声。

在 CoE 的工作流程中，人们输入的问题首先给到能够识别 1 亿多种意图分类的专家模型；在完成意图识别后，再交给任务路由模型进行复杂任务拆解，决定任务由哪款模型来处理，或是哪几款模型进行配合。通过对任务的细致分解和不同模型能力调度，大大提升了答案的准确性、时效性和严谨性。

「今天你看到的 AI 搜索背后，一个简单的搜索至少有 7 次模型调用，一个深度回答至少有 15 次大模型调研。它的背后不仅有意图识别，还有多种能力调度、阅读分析、任务编排等等，」梁志辉说道。

在高门槛、高投入之下，AI 搜索确实实现了更好的效果。越来越多的用户也选择「用脚投票」。

8 月材料显示，1 月底上线的 360AI 搜索用户访问量已超 2 亿，是 Perplexity AI 三倍以上，并且还在以 113% 的月增速增长。不仅蝉联全球最大 AI 原生搜索引擎，还是全球增速最快的主要 AI 搜索引擎。

从用户行为来看，AI 搜索和传统搜索引擎也有很大不同。AI 搜索中，70% 以上用户是在找信息，寻址的用户下降到了 10%；在找信息的用户中，近 20% 的需求是直接用于文档创作，而这正是 AI 搜索的优势所在。从用户时长来看，360AI 搜索用户平均搜索次数已提升 2-6 倍，平均停留时长已经超过 500 秒。

而在用户画像上，AI 搜索用户群体现在已覆盖「两端」。一边是从事内容生产、对内容质量有要求的知识群体；另一边，得益于语音输入、结果复制等能力持续降低的使用门槛，中小学生用户占比突出。

，传统搜索引擎已经挖掘了所有可能性，也充分暴露了其弊端；而另一面，转向 AI 搜索的保守派、中间派、原生派的不同路线以及其各自产品的优劣，也已经清晰地呈现在人们眼前。就是让我们重新抬头看如今的搜索引擎市场。一面

不过，人们还是会心存疑虑：

AI 原生搜索引擎效果虽好，但如今的 AI 原生应用鲜有单独实现商业闭环的，而单次搜索就需 7-15 次模型调用的 AI 搜索，是否永远无法实现商业闭环？又或者，这样的模式会不会只是昙花一现？

三、「革自己的命」，鲶鱼无惧

AI 搜索商业模式能否闭环的关键因素。就是没错，推理成本，就

对于传统搜索引擎而言，Google 的单次搜索成本仅为 0.2 美分。而以 360AI 搜索为代表的 AI 原生搜索引擎，单次搜索有 7-15 次大模型调用，推理成本则要高得多，但这个问题并非无解。

事实上，凭借巧妙地选择和整合不同的 AI 模型，CoE 架构行充分利用各模型的分析优势和差异化定价结构，以此提升产品性能并控制成本。国内第三方大模型激烈价格战也为 AI 搜索成本的整体下降奠定了基础。此外，依据为大模型厂商提供用户和「bad case」反馈，360AI 搜索与大模型厂商之间已经形成了互利合作关系。从长远趋势来看，情况也在好转，推理成本呈快速下降态势，有点类似摩尔定律。

更多的用户。」因此，我们完全不必担心一个大用户量的搜索引擎会一直赔钱。据了解， 360AI 搜索已经实现了商业闭环。就是尽管 AI 搜索的商业模式仍未完全建立，但这更多只是一个时间问题。微软 CEO 纳德拉强调：「据我所知，搜索业务是地球上软件业务中最赚钱的，我所需要的

鲨鱼。这条「鲶鱼」，早在十二年前，就以「3百大战」的方式，搅动了中国搜索市场，至今仍然位列中国搜索引擎市场第二名。就是创始人周鸿祎曾把 360 比喻为中国互联网的「鲶鱼」，不是巨头，不

十二年后，人工智能浪潮来袭，市场风云再起。秉承一贯的快速行动力，360 这条「鲶鱼」仅用八、九个月时间就迅速超越 Perplexity AI，一跃成为全球规模最大的 AI 原生搜索引擎，而且势能不减，依然全球增速最快。

纵观全球商业史，在几乎每一场需要「自我革命」的科技浪潮中，行业老二都往往比行业老大更果断、更有勇气，也更具灵活性。庞大的沉没成本迫使传统巨头们采取「保守式」创新，以期步步为营，柯达、诺基亚、谷歌和百度亦是如此。而另一方面，对于「没有历史包袱」的初创企业而言，AI搜索领域也并非「颠覆式创新」的理想突破口。

目前，AI 搜索还处于迅速发展过程中，搜索体验将继续快速提升，与传统搜索引擎的差距也将越拉越大。AI 搜索会让搜索引擎从信息检索工具，进化成帮助用户完成知识探索的「知识引擎」，并最终，凭借不可逆的历史趋势，取代传统搜索引擎，成为用户检索信息、获取知识的首选。

或许到那时大多数人才惊觉，今天我们以为的搅动市场的「鲶鱼」，原来就是一条「鲸鱼」。

....

#OpenAI押注的「1X」训出专用世界模型

首证机器人Scaling Law

机器人能认出镜子中的自己吗？目前来看，依然做不到。

去年 3 月，OpenAI 领投了一家xxx智能公司「1X」。这是一家成立于 2014 年的挪威人形机器人公司，致力于研发双足机器人 NEO 和商用轮式人形机器人 EVE。

本月初，1X 正式推出了专为家庭使用而设计的双足人形机器人 NEO Beta，让人们看到了大模型加持下活灵活现、超拟人机器人的不断进步。

如今，1X 迎来了自己的世界模型。具体地，基于视频生成（Sora）和自动驾驶世界模型（端到端自动驾驶，E2EAD）领域的进展，1X 训练出了一个世界模型，作为自家机器人的虚拟模拟器。

1X 人工智能副总裁 Eric Jang 表示，过去几个月，1X 一直在编写通用机器人的学习模拟器，如今终于问世了。

1X 工程师 Daniel Ho 表示这是机器人世界模型的初步进展，模型可以理解接触到的物理世界并生成高保真视频，使机器人可以在自己的神经空间中执行规划、评估和模拟操作。并且，很多生成的视频片段很难与真实视频区分开来。

人形机器人数据显著增强扩展定律的首个证据，「没有勺子」。就是1X 创始人兼 CEO Bernt Bornich 表示，这

各路网友也对这个机器人世界模型给予了很高评价。

世界模型加持下的 1X 人形机器人还让一些人直呼《西部世界》重现。

从 1X 官方给出的 Demo 允许看到，从相同的起始图像序列开始，1X 的世界模型许可从不同的机器人（EVE）动作建议中想象出多种未来。

这个世界模型还能预测非平凡物体（如刚体）的相互作用、掉落物体的影响、部分可观测性、可变形物体（窗帘、衣物）和铰接物体（门、抽屉、窗帘、椅子）。

机器人的「ChatGPT 时刻」，同样需要扩展定律

世界模型解除了构建通用机器人时一个非常实际、但屡屡被忽视的挑战，即评估。如果你训练的机器人可以执行 1000 项任务，与先前模型相比，我们也很难确定新模型用在机器人上，在这 1000 项任务上表现优越。由于周围环境如光照细微的变化，即使模型权重相同，机器人也可能在几天内经历性能的迅速下降。

此前 1X 训练了一个模型，在 50 天的时间里，机器人性能下降了

倘若环境随着时间的推移不断变化，那么此前在该环境中达到的实验性能很难复现，因为旧环境不存在了。如果你在不断变化的环境（如家庭或办公室）中评估多任务系统，那么该疑问将会变得更加糟糕。这一状况使得在现实世界中进行机器人科学研究变得异常困难。

经过深入研究我们不禁会问，当材料、计算和模型规模增加时，机器人的能力将如何扩展？在大模型领域，扩展定律普遍得到大家的认同，如果机器人技术要迎来「ChatGPT 时刻」，必须首先建立它的扩展定律。

其他评估方法

基于物理的模拟（Bullet、Mujoco、Isaac Sim、Drake）是快速测试机器人策略的合理方法。这些方法可重置且可重现，这样一来，研究人员能够仔细比较不同控制算法带来的的差异。

为刚体动力学设计的，必须大量手工资产创作。就是然而，这些模拟器大多

如何让机器人打开咖啡滤纸的纸盒、用刀切水果、拧开冷冻果酱罐或与人类等其他智能体互动还是一个值得思考的问题。众所周知，家庭环境中遇到的日常物体或者饲养的宠物很难模拟，因此机器人使用的模拟环境往往在视觉上很单调，缺乏现实世界用例的多样性。对现实或模拟环境中有限数量任务的小规模评估无法泛化到对现实世界中的大规模评估。

世界模型

1X 正在采用一种全新的方式来评估通用机器人，即直接从原始传感器资料中学习模拟器，并使用模拟器来评估新策略。依据直接从真实内容中学习模拟器，你行在不手动创建资产的情况下了解真实世界的复杂性。

通过在过去的一年里，1X 收集的 1X 旗舰产品 EVE 机器人的资料高达数千小时，这些数据包括在家中和办公室中执行各种移动操控任务以及与人互动的任务。研究人员将这些视频和动作数据结合起来，训练了一个世界模型，该模型能够根据观察和动作预测未来的视频。

动作控制

该研究训练的世界模型能够根据不同的动作指令产生不同的结果，下面展示了在四种不同轨迹条件下的世界模型生成的效果，每种轨迹都从相同的初始帧开始。

左门轨迹

右门轨迹

弹奏空气吉他

世界模型的主要价值来自于模拟对象交互。在抓取盒子实验中，研究团队为模型给予相同的初始框架和三组不同的动作来抓取盒子。在每种情况下，所抓取的盒子都会根据夹具的运动而被提升和移动，而其他盒子则保持不受干扰。

即使没有提供动作，世界模型也会生成看似合理的视频，例如学会驾驶时应避开人和障碍物：

长视野任务

模型还可以生成长视野视频。下面的示例模拟了完整的 T 恤折叠演示。T 恤和可变形物体往往很难在刚体模拟器中实现。

故障

对象连贯性

模型可能无法在交互过程中保持对象的形状和颜色，有时对象甚至可能会完全消失。此外，当对象被遮挡或以不利的角度显示时，它们的外观可能会在整个生成过程中变得扭曲。

物理定律

左边的生成结果表明模型对物理特性有了新的理解，当抓手松开勺子时，勺子掉到桌子上就证明了这一点。然而，在很多情况下，模型生成结果都未能遵守物理定律，例如右侧的盘子悬浮在空中。

自我认知

研究团队让 EVE 走到镜子前，以观察它能否生成与镜子中动作相一致的行为。

结果显示，模型虽然开始自我反思，但没有出现「自我识别」或「自我理解」的觉醒。

博客地址：https://www.1x.tech/discover/1x-world-model

....

#Theory, Analysis, and Best Practices for Sigmoid Self-Attention

Sigmoid注意力一样强，苹果开始重新审视注意力机制

Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，之后通过 softmax 函数归一化，会得到每个键对应的注意力权重。就是注意力

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性，但它并非没有局限性。例如，softmax 函数有时会导致注意力集中在少数几个特征，而忽略了其他信息。

近来，一些研究探索了 Transformer 中 softmax 注意力的替代方案，例如 ReLU 和 sigmoid 激活函数。最近，来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明：从理论上讲，与 softmax 注意力相比，具有 sigmoid 注意力的 Transformer 是通用函数逼近器，并且受益于改进的正则化。

论文地址：https://arxiv.org/pdf/2409.04431
项目地址：https://github.com/apple/ml-sigmoid-attention
论文标题：Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明，合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当，而之前的 sigmoid 注意力尝试无法实现这一点。

此外，该研究还用 sigmoid 内核扩展了 FLASHATTENTION2，将内核推理挂钟时间减少了 17%，将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示：如果想让注意力快 18% 左右，你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。

Sigmoid 注意力

假设

d 维。接着研究者定义了三个可学习权重矩阵就是为向量 n 的输入序列，每个向量

、

以及

。这三个矩阵用于计算查询

，键

，以及值

。可以得到如下公式：

根据先前的研究，自注意力可以简写为：

其中 Softmax 函数将输入矩阵的每一行进行了归一化。该研究将 Softmax 做了以下替换：

实际上，将

作为输出序列，允许得到：

将多个 SigmoidAttn 输出进行组合，得到多个头的形式，如下所示：

Sigmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析，分析的目的首要有两个：（1）证明当 SigmoidAttn 取代 SoftmaxAttn 时，Transformer 架构仍然是一个通用函数逼近器；（2）通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗？

经典 Transformer 可以将连续的序列到序列函数近似到任意精度，这一特性称为通用近似特性 (UAP，Universal Approximation Property)。UAP 非常受欢迎，因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构，因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究凭借以下定理提供此保证。

结果表明，即使使用 SigmoidAttn，一系列 transformer 块也可以搭建上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样，SigmoidAttn 的正则性值得研究，因为它行深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为：

结果证明，SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID：硬件感知搭建

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法供应的速度提升，该研究构建了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID，采用了三个核心思路：

Tiling：注意力分而治之的途径：与 FLASHATTENTION 和 FLASHATTENTION2 类似，FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出，有效地组合部分结果以生成最终的注意力输出。
内核融合：与 FLASHATTENTION 和 FLASHATTENTION2 一样，FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核，借助避免高带宽内存 (HBM) 上的中间激活具体化，最大限度地减少内存访问并提高内存效率。
激活重计算：sigmoid 注意力的向后传递需要 sigmoid 激活矩阵，假如在 GPU HBM 上具体化，则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 利用仅保留查询、键和值张量来解决这个问题，以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs，但事实证明，与具体化和保留注意力矩阵的替代方法相比，这种途径在挂钟时间上更快，并且内存效率更高。

实验

为了实验验证 SigmoidAttn，该研究在多个领域进行了评估：运用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL（Bootstrap Your Own Latent）和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化，在所有这些领域和算法中，该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当（图 2 和 21），同时提供训练和推理加速。

该研究得出以下观察结果：

SigmoidAttn 对于没有偏置的视觉任务是有效的（MAE 除外），但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn（图 9-a）的性能。除非另有说明，否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。

LM 和 ASR 对初始范数

较为敏感。需要通过 (a) 相对位置嵌入进行调整；(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可能阅读论文原文，了解更多研究内容。

....

#探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

近年来， AIGC 领域发展十分迅猛。在计算机视觉中，扩散模型已经成为一种有效且常用的模型。相反，在自然语言处理领域，内容的生成通常通过使用 Transformer 去生成离散的 token。受到这种差异的启发，越来越多的研究（以 VQGAN 作为典型代表）开始探索这种基于离散 token 的生成范式在视觉合成中的应用。与扩散模型不同，这些方法采用类似于语言模型的离散 token 作为生成的基本单元。

为什么要探索基于离散 token 的生成模型？我们认为核心有以下几点原因：

1) 由于与语言模型范式相同，它们可以直接利用语言模型中已经成熟的训练、推理技术

2) 有助于研发更先进的、具有共享 token 空间的、scalable 的多模态基础模型

3) 有助于建构统一视觉理解与生成能力的通用视觉基础模型

在基于离散 token 的生成里，近几年非自回归 Transformer (Non-autoregressive Transformer, NAT) 展现出了显著的计算效率与生成质量方面的潜力，不同于传统的自回归生成范式，NAT 能够在仅 4 到 8 步内生成质量不错的图像。它的生成过程如下图所示：

NAT 生成过程的示意图

便捷来说，这类模型从一个完全 mask 的 token map 开始，每步并行解码多个 token，直到所有的 token 被解码，然后再通过一个预训练的解码器把 token 空间变换到图像空间，得到生成结果。

虽然 “并行解码” 的机制让模型生成过程更加地高效和灵活。但它也引入了许多复杂的设计挑战，例如每一步应该解码多少 token、应该选择哪些 token、以及采样时应该有多大的随机性等。

现有的工作通过构建一套包括多个人工设计的调度函数（统一记为）的生成策略来缓解这一困难。如下图所示：

NAT 的默认生成策略，其中 T 为总生成推理步数，t 为当前推理步，均为超参数。每一行策略的具体含义可能参见原文

然而，这种人为设计的方式不仅需要大量的专业知识和人力成本，最终得到的策略函数仍然可能并非最佳。与此同时，我们认为不同样本都有其独特的特性，一个应用于所有样本的、全局共享的生成策略可能难以灵活应对样本之间的差异性。

基于上述观察，我们提出 AdaNAT，核心思想是引入一个可学习的策略网络，自动根据每个样本自适应地配置生成策略：

现有工作与 AdaNAT 的对比，这里

是当前生成样本在时刻时的 token map

论文标题：AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
论文地址：https://arxiv.org/abs/2409.00342
代码与预训练模型已经开源：https://github.com/LeapLabTHU/AdaNAT

方法介绍

然而，训练一个自适应、自动配备生成策略的网络面临一个直接的挑战：基于离散 token 的生成过程是不可微的，因此大家无法直接采用标准的端到端优化科技如梯度下降的方式来优化这个网络。为应对这一挑战，我们将生成策略的优化问题形式化为马尔可夫决策过程（MDP），在此基础上，策略网络可以自然地被定义为一个「观察生成状态，自适应地配置策略以最大化生成质量」的 agent，也因此可以通过强化学习算法（如策略梯度）进行训练。

另一个值得注意的点是，在我们的问题中，设计合适的奖励函数对于高效训练策略网络至关重要。为了解决这一问题，我们首先考虑了两种现成的设计选择：

标准评估指标如 Fréchet Inception Distance (FID)
预训练的图像奖励模型，如 ImageReward 模型

然而，我们的实验结果表明，尽管这些设计能够有效地最大化奖励函数，但最终的生成模型往往无法生成足够高质量或足够多样化的图像，如下图所示：

以 FID 作为奖励函数的图像生成效果 (FID=2.56)

以预训练的奖励模型作为奖励函数的图像生成效果 (FID=33.1)

换句话说，策略网络倾向于 “过拟合” 这些预先设定的、静态的奖励函数。受到这一现象的启发，我们的核心思路是在策略网络学习的同时，动态更新奖励函数以防止策略网络过拟合，让二者 “相互对抗，共同进步”。此种思想自然地让我们联想到生成对抗网络 (GAN) 的想法，因此，我们提出了一个对抗奖励模型，该模型类似于 GAN 中的判别器，以生成样本为真实图片的概率作为奖励。当策略网络学习最大化奖励时，我们同时优化奖励模型，以更好地区分真实样本和生成样本。总结来看，AdaNAT 的技巧示意图如下：