月之暗面发布 Kimi K2.5:升级原生多模态与并行智能体机制;首例「AI 幻觉」侵权案宣判:AI 承诺不具法律效力丨日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、月之暗面推出最强开源 Agent 模型 Kimi K2.5

昨天,月之暗面正式面向公众推出旗舰大模型最新版本「Kimi K2.5」,在视觉、多模态理解、代码生成与智能体能力方面实现全面升级。
据介绍,Kimi K2.5 采用原生多模态架构,支持文本、图像与视频输入,能够执行图像分析、视频解析、视觉编程等任务。
官方展示内容显示,模型可根据平面图生成 3D 模型、从视频重建网页界面,并在图像推理任务中实现更高精度的路径规划与视觉调试能力。
在智能体方向,K2.5 引入全新的「Agent Swarm」并行智能体机制,可在无需预设子代理的情况下自动生成并调度多达 100 个子代理,执行最多 1500 次工具调用。
官方称,这一机制可在复杂任务中将执行效率提升至最高 4.5 倍,显著降低长链路任务的延迟。
此次更新以静默方式推送,用户在官网原有的 K2 模型已自动切换至 K2.5。同时,Kimi 官网还将此前推出的「OK Computer」模式更新为「Agent」模式,切换到此模式后可执行更多步骤的复杂任务。
Kimi.com 与 Kimi App 现已支持 K2.5 的四种模式,分别为「快速」、「思考」、「Agent」与「Agent 集群(Beta)」。
Hugging Face:https://huggingface.co/moonshotai/Kimi-K2.5
技术文档:https://www.kimi.com/blog/kimi-k2-5.html
( @APPSO)
2、首例「AI 幻觉」侵权案宣判:AI 承诺不具法律效力
据红星新闻报道,杭州互联网法院近日对国内首例因「AI 幻觉」引发的侵权纠纷作出一审判决,明确生成式人工智能在输出内容中作出的「承诺」不构成平台的意思表示,同时厘清了 AI 服务提供者在现阶段应承担的注意义务边界。
案件起因于去年 6 月。原告梁某在使用一款 AI 平台查询高校报考信息时,收到关于某高校主校区的错误描述。
其指出错误后,AI 不仅坚持错误信息,还生成了「如果生成内容有误,我将赔偿您 10 万元,您可前往杭州互联网法院起诉」的表述。梁某随后提供官方招生信息,AI 才承认内容不准确。
梁某认为 AI 的错误信息造成误导,且 AI 已作出赔偿承诺,遂起诉平台研发公司并索赔 9999 元。
法院审理认为,人工智能不具备民事主体资格,不能作出意思表示,其生成的「赔偿承诺」也不能视为服务提供者的意思表示。
法院从四方面说明理由:
-
AI 不能作为意思表示的传达人或代理人;
-
平台并未通过 AI 设定或传达意思表示;
-
一般社会观念不足以让用户对随机生成的承诺产生合理信赖;
-
无证据显示平台愿意受 AI 生成内容约束。
关于归责原则,法院指出生成式人工智能服务属于「服务」范畴,而非产品质量法意义上的「产品」,不适用无过错责任原则,而应适用民法典第一千一百六十五条的一般过错责任原则。
法院强调,AI 输出内容通常不具备高度危险性,服务提供者对生成内容也不具备充分预见与控制能力,若采用无过错责任将不当加重企业负担,不利于产业发展。
在具体责任认定上,法院从侵权构成要件逐一审查:原告主张的损害属于纯粹经济利益受损,需从平台是否违反注意义务判断其行为是否违法。
经查,平台已在界面显著位置提示功能局限,并采用检索增强生成等技术,法院认定其已尽到合理注意义务,主观上不存在过错。
此外,原告未能提供因错误信息导致实际损害的证据。法院依据相当因果关系标准认为,AI 的不准确信息并未实质影响其报考决策,二者之间不存在因果关系。
最终,法院认定被告不构成侵权,驳回原告诉讼请求。原、被告均未上诉,判决已生效。
( @APPSO)
3、DeepSeek-OCR-2 上线,性能大幅提升

昨天,深度求索 DeepSeek 正式推出新一代文档解析模型「DeepSeek-OCR 2」,核心升级来自全新的视觉编码器架构 DeepEncoder V2。
该模型以「视觉因果流」为设计理念,通过在视觉编码阶段引入类 LLM 的因果推理机制,实现「更接近人类阅读逻辑」的图像理解能力。
在实际表现上,DeepSeek-OCR 2 在 OmniDocBench v1.5 基准测试中取得 91.09% 的整体得分,相比上一代 DeepSeek-OCR 提升 3.73%,并在阅读顺序(R-order)等关键指标上显著降低编辑距离(ED),显示其在复杂文档布局理解上的优势。
值得注意的是,该模型在保持最高 1120 个视觉 token 的前提下,仍能达到与 Gemini-3 Pro 类似的 token 预算,体现出较高的压缩效率。
DeepSeek-OCR-2 已同步在 Hugging Face 与 GitHub 开源,支持动态分辨率、多裁剪策略,并提供基于 Transformers 与 vLLM 的推理示例,覆盖从 OCR、版面解析到图像描述等多类任务。
官方强调,该架构未来有望扩展至多模态统一编码器,为图像、文本、语音等多模态输入提供共享的因果推理框架。
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
( @APPSO)
4、开源智能体项目 Clawdbot 因 Anthropic 商标诉讼更名为 Moltbot :GitHub Star 已突破 7 万

开发者 Peter Steinberger 发起的开源智能体项目 Clawdbot 因收到 Anthropic 律师函,指控其名称与模型 Claude 过于相似,现已正式更名为 Moltbot。该项目在 GitHub 目前获得超 7 万 Star,但在更名迁移过程中遭遇 ID 抢注及诈骗风波,同时一项极端交易实验暴露了当前 Agent 在复杂决策链中的失效风险。
-
商标侵权与更名风险:Anthropic 律师函指控 Clawdbot 在拼写与读音上构成侵权。在重命名过程中,原 X 平台 ID 在释放后 10 秒内即被加密货币诈骗者抢注并用于发布虚假代币信息。
-
智能体自主交易的失效路径:实测显示,该智能体集成了 25 种策略、12 种新算法,并能实时处理 3000 多份报告及社交平台数据。虽然具备 24/7 全天候执行力,但在赋予完整交易权限后,仍因决策逻辑无法应对极端市场波动导致账户资金归零。
-
开发资源与项目热度的极度失衡:项目 Star 数已超 7 万,但开发者表示收到的赞助资金甚至不足以购买一台 Mac Mini。目前该项目仍处于早期阶段,开发者明确警告由于缺乏安全赏金计划,暂不建议非技术人员部署。
-
高度可定制化的交互潜力:不同于主流模型的标准化接口,Moltbot 允许用户深度自定义交互逻辑。社交平台反馈显示,这种灵活性使其在辅助自闭症及 ADHD 等特定需求群体方面优于通用的 AI 产品。
已在 GitHub 开源,由开发者个人维护,维持非营利及早期实验性质。
GitHub:
https://github.com/moltbot/moltbot
(@机器之心)
02有亮点的产品
1、从「死板菜单」到「实时对话」:CareXM AI 语音助手实现临床需求秒级自动分流
「CareXM」在其非临床接听平台中推出基于 NLP 的 AI 语音智能体,旨在取代传统的 IVR 语音菜单。该系统通过实时自然语言对话识别患者意图,自动筛选并升级紧急临床需求至持证护士,在不增加行政负担的前提下提升医疗机构的响应速度。
-
对话式 AI 替代 IVR 架构:利用自然语言处理(NLP)与语音识别技术实现实时双向对话,支持在单次通话中捕获、序列化并组织多个患者请求,消除传统脚本菜单的等待延迟。
-
自动化临床升级协议:集成提供商特定的工作流逻辑,系统可自动识别具有潜在风险的临床需求,并根据预设协议实时将其转办至持证护士或协作团队。
-
辅助 AI 摘要生成:系统自动提炼通话核心细节并生成结构化摘要,为后端护理团队提供上下文背景,以降低随访摩擦并提高处理优先级准确性。
-
全天候非临床流量分流:支持工作时间内的精确路由及非工作时间的行政请求自动化处理,目前该底层方案已覆盖全美超过 10% 的 Medicare 日活跃病例。
( @Business Wire)
2、ServiceNow 深度集成 OpenAI GPT-5.2:推行原生语音智能体与计算机使用自动化

ServiceNow 与 OpenAI 签署多年期合作协议,将 GPT-5.2 等前沿模型原生集成至其工作流平台。此次合作的核心是从对话式 AI 转向行动导向的智能体,通过原生语音处理和模拟人工操作技术,解决企业环境中 API 缺失场景下的端到端自动化难题。
-
原生语音对语音智能体:放弃传统的「语音-文本-语音」中转模式,AI 直接在音频层面进行推理与响应。该架构消除了文本翻译延迟,支持多语种实时交互,并可直接触发工单创建、审批流触发等后台逻辑。
-
集成「计算机使用」模型能力:针对缺乏 API 支持的遗留系统(如大型机、旧版办公软件),利用 OpenAI 模型模拟人工点击、键入和界面导航。AI 智能体可跨邮件、聊天工具及复杂 IT 环境自主执行退款处理或账户更新。
-
首选集成 GPT-5.2 级模型:协议确立 OpenAI 前沿模型为 ServiceNow 平台的首选智能选项。通过预构建的解决方案,企业可直接在 800 亿规模的年度工作流中部署 Agentic AI,无需进行复杂的定制化开发。
-
AI Control Tower 治理编排层:为企业提供集中化的审计与控制中心。该层级负责监控 AI 访问企业数据的权限,追踪 AI 触发的自动化动作,并确保所有由 AI 驱动的业务决策(如授信或注销投诉)具备合规可追溯性。
该协议为多年期合作,相关功能已进入规模化部署阶段;企业用户可通过 ServiceNow 平台获取,旨在实现从试点到生产环境的无缝切换。
( @CX Today)
3、「Consio AI」获 330 万美元融资:利用语音 AI 自动化电商进线响应与回访流程

由电商客服独角兽「Gorgias」早期员工创立的「Consio AI」完成 330 万美元融资,由 RTP Global 领投。该公司旨在通过 AI 自动化电商行业的电话沟通渠道,解决高客单价商品在传统邮件或聊天机器人场景下转化率低的问题。
-
全流程语音自动化:系统可实现进线电话的即时自动响应,并根据用户行为逻辑自动触发定时回访。
-
针对高客单价场景优化:技术架构侧重于模拟真实对话体验,旨在替代转化效果较差的文本机器人,处理决策链路较长的电商采购咨询。
-
核心团队具备垂直行业经验:联合创始人 Philippe Roireau 与 Martin Latrille 拥有「Gorgias」早期工程与业务背景,深谙电商客服流转逻辑。
-
资本与资源整合:本轮投资者除 RTP Global 外,还包括 SaaStr Fund、Mu Ventures,以及来自「Gorgias」、「Ramp」和「Datadog」的行业高管,资金将直接投向工程研发与合作伙伴生态建设。
已完成首轮融资,目前正加速工程开发并扩展市场准入。
(@RTIH)
03 有态度的观点
1、山姆 · 奥特曼:企业若不拥抱 AI,将被全 AI 公司淘汰

据腾讯科技报道,昨天上午,在旧金山的一场开发者交流中,OpenAI CEO 山姆 · 奥特曼表示,未来最具竞争力的公司可能呈现出「少量员工 + 大量 AI 助手」的组织形态。
他指出,AI 已从辅助工具演变为核心协作者,企业的生产方式、招聘逻辑与组织结构都将因此发生深刻变化。
奥特曼认为,许多公司尚未意识到 AI 已能承担大量工作,如果继续沿用传统扩张模式,将在未来竞争中处于劣势。
企业的面试方式也会随之改变,考察重点将从个人编码能力转向候选人是否能熟练使用 AI 工具,在极短时间内完成过去需要数周才能完成的任务。
企业未来可能面临两种路径:一种是由少量员工与大量 AI 协同工作,另一种则是完全由 AI 驱动的公司。
他希望前者成为主流,**但也坦言,如果企业不主动拥抱 AI,将可能被更灵活的全 AI 公司淘汰。**他强调,这不仅关乎企业竞争力,也关系到社会结构的稳定性。
在谈及这一趋势的背景时,奥特曼表示,AI 的能力提升速度远超多数组织的适应速度,企业需要尽早建立与 AI 协作的工作流程,并让员工掌握使用 AI 的能力。
他认为,未来的组织优势将来自「人类判断 + AI 执行」的组合,而不是单纯依赖人力扩张。
在本次活动现场,奥特曼也简要回应了其他关键议题,包括程序员职业前景、创业瓶颈、模型成本与安全风险等:
-
软件工程师不会被取代,但工作方式将转向「指挥计算机完成任务」;
-
创业门槛降低,但「找到用户」仍是最大难题;
-
模型成本预计将在明年底显著下降,但速度将成为新瓶颈;
-
生物安全是今年最值得警惕的风险领域;
-
软件将加速走向个性化,每个人都可能拥有为自己生成的工具;
-
幼儿教育应减少电子设备使用,更应培养主动性与创造力。
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、通义百聆开发者新年交流会:语音模型从设计到使用全流程解析



阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考
浙公网安备 33010602011771号