AI一周资讯 251024-251031

原文:https://mp.weixin.qq.com/s/kNHdNdrTHQfwo2-cznpiOw

谷歌上线Google Skills平台：超3000门AI课程全民可学

2025年10月23日，谷歌上线AI技能学习平台Google Skills，旨在帮助人们提高AI技能和整体数字素养。该平台整合了Google Cloud、DeepMind等多部门内容，形成一站式教育平台，拥有超3000门课程，将过去分散平台的学习入口集中。课程重点是人工智能，有游戏化激励，涵盖大型语言模型技术和伦理等方面，呈现形式多样，动手环节通过谷歌协作平台运行，还有反思性问题和知识测试。不同用户群体有适配课程，采用游戏化激励方式，打通招聘通道，有150多家雇主联盟。部分开发者有免费积分，部分机构可通过计划获免费培训，平台有免费选项，谷歌云客户可享个性化培训和特定排行榜激励，该平台回应了AI取代人工的焦虑，为人们掌握AI开发技能开辟路径。

OpenAI曝光Sora升级线路图，多方面更新引期待

OpenAI的CEO山姆奥特曼转发推文曝光Sora升级线路图。升级内容包括：接下来几天有机会上线角色客串扩展创作工具，可将现实物品等作为客串角色，更新UI显示热门角色，APP添加视频编辑功能；进行社交优化，探索新组织方式，让朋友和特定社群人员能一起使用、组队分享互动；开展体验优化，优化APP运行流畅度和方便性，减少过度内容审核；安卓版即将上线，可在谷歌应用商店预注册。OpenAI试图通过这些社交粘性功能促进玩家在Sora上创造和互动。

快手进军AI Coding赛道，发布“三位一体”编程产品矩阵

快手宣布进军AI Coding赛道，发布包含顶尖自研模型、智能开发工具和MaaS平台的“三位一体”AI编程产品矩阵，构建闭环AI编程新生态。其中，CodeFlicker智能开发伙伴有Jam和Duet两种模式，覆盖开发核心场景，超80%快手工程师高频使用，已全面开放；KAT - Coder编码大模型在SWE - bench Verified榜单成绩优异，有闭源、KAT - Dev - 72B - Exp和免费版KAT - Coder - Air，性价比高；快手万擎MaaS平台模型丰富，提供高可用性保障，成本透明可控；此外，快手B2B品牌StreamLake从“音视频 +”扩展至“AI +”，扩大目标客户群体。

官网介绍：
- CodeFlicker产品官网：CodeFlicker
- KAT - Coder产品页面：KAT - Coder
- 快手万擎产品页面：快手万擎
下载地址：CodeFlicker

港科大贾佳亚团队开源DreamOmni2：开启AI多模态创作新时代

港科大贾佳亚团队开源的AI图像模型DreamOmni2，该模型意义重大。当前AI图像模型在统一生成与编辑方面存在不足，难以处理抽象风格和复杂图案。而DreamOmni2基于FLUX Kontext模型，保留原有能力并新增处理多参考图像及抽象概念的能力，优于谷歌Nano Banana。实测中，其在图像编辑和生成上表现出色，远超GPT - 4o等模型。实验验证显示，它在多模态指令编辑和生成方面均有优势。团队通过三阶段数据构建范式构建综合数据集，并进行框架革新。DreamOmni2推动AI创作工具从单一语言模态走向多模态融合，为创作者带来更智能的创作时代。

Github：https://github.com/dvlab-research/DreamOmni2
huggingface: https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit，https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
官网介绍：https://pbihao.github.io/projects/DreamOmni2/index.html
论文：https://arxiv.org/html/2510.06679v1
Video Demo：https://www.youtube.com/watch?v=8xpoiRK57uU

字节跳动Seed3D 1.0：开启具身智能3D生成新时代

字节跳动Seed团队推出3D生成大模型Seed3D 1.0。该模型研发源于世界模拟器对具身智能发展重要但现有技术存在瓶颈的背景。它基于创新的Diffusion Transformer架构，经大规模数据训练，可实现单张图像到高质量仿真级3D模型的端到端生成，模型能集成至仿真环境供机器人训练，综合能力达行业领先。技术上构建了三阶段数据处理管线、开发分布式数据处理框架和训练基础设施，采用Diffusion Transformer设计多类模型。测评显示其在多方面达SOTA水平。应用场景包括仿真级3D模型生成和完整3D场景生成。虽性能良好，但搭建世界模型仍有挑战，未来将引入多模态大语言模型推动其在世界模拟器大规模应用。

官网介绍：https://seed.bytedance.com/seed3d
体验地址：https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D

Meta AI部门大裁员：战略转向引发行业震荡

Meta本周三在AI部门大规模裁员约600个职位，波及FAIR、AI产品及基础设施团队。华人AI大佬田渊栋及其团队、成批华人AI研究员受影响，田渊栋贴文评论区成“招聘现场”，受影响研究员在社交平台寻求新机会。杨立坤负责的FAIR实验室成重灾区，他可能辞去首席科学家一职，而新成立的TBD实验室未受影响，仍积极招聘。裁员原因是公司认为原有AI组织架构官僚化，想缩减规模、减少决策层级、提升产品落地效率。后续部分FAIR人员被建议转入TBD，公司会协助转岗并继续招募顶尖人才。此次裁员是Meta AI布局大调整，此前小扎对进展失望，公司将重心从开放式基础研究转向超级智能军备竞赛，还达成数据中心融资协议。

OpenAI重燃AI音乐梦，商业化野心几何？

OpenAI被曝盯上AI音乐赛道商业化，Suno首当其冲。OpenAI已与茱莉亚学院长期合作，和学生标注海量乐谱用于模型训练，目标是创作高质量音乐，推动自动化与个性化，外界猜测模型可能整合进Sora 2，也在探索To B市场，但发布时间未知。当前AI音乐生成竞争集中在初创公司，头部效应不明显，全球有Suno、Udio受关注，国内字节跳动等在布局，谷歌今年5月推出Lyria。OpenAI曾在2019 - 2020年尝试音乐模型，因资金不足未走远。此次入局是因Suno盈利可观，音频模型成本低且市场潜力大。不过，人们担忧其音乐产品会带来版权问题，也引发AI应用公司对自身壁垒的思考。

阿里夸克AI眼镜：开售即火，为AI眼镜行业带来新变量

阿里首款自研AI眼镜夸克AI眼镜于10月24日凌晨在天猫旗舰店开售，京东、抖音等平台同步一元预约，12月初发货。叠加双11补贴，88VIP会员最低3329元，上线半日登顶天猫智能眼镜实时榜，11小时销售额超其他品牌近三天总和。该眼镜功能强大，整合主流应用，搭载自研Master Agent大模型中控系统与Super Raw超级暗光增强算法；硬件采用“高通AR1 + 恒玄BES2800”双芯片架构及“双电池+换电仓”设计；外观轻薄，佩戴舒适。此外，它依托阿里生态，整合高频场景，是夸克向“随身端”延伸的重要入口。行业预计2025年中国AI眼镜市场爆发，2029年全球智能眼镜出货量破4000万台，中国增速居首，夸克AI眼镜代表“真穿戴”思路，AI眼镜拐点将至。

日本政府抗议OpenAI Sora 2，AI版权之争愈演愈烈

刚面世时红火的OpenAI Sora如今麻烦不断，日本政府呼吁其在推出Sora 2时避免侵犯版权，强调漫画与动画角色是日本文化瑰宝，或成首个对Sora正面刚的主权国家。Sora 2掀起二创风，日本众多动漫角色成AI翻炒素材，而迪士尼角色因法务强较少被侵犯。日本有严格版权保护体系，且出台《生成AI推进法》将为政府干预提供依据。大厂商如任天堂多次狙击AI对旗下IP的侵占，OpenAI虽采取部署内容过滤器等举措，但无法根本解决模型训练数据合法性问题。这场博弈左右未来文化产品消费，也引出AI带来的信息污染与新内容生态问题。

OpenAI收购SAI引微软反击，AI江湖风云再起

2025年10月，OpenAI收购了为Mac开发自然语言交互界面Sky的SAI公司，将整合Sky技术到ChatGPT并吸纳约12人团队，此前SAI已筹得约650万美元。Sky是一款能“看懂”屏幕内容、理解上下文并代表用户完成操作的AI助手，符合OpenAI战略目标。SAI三位联合创始人皆出身苹果。因OpenAI与谷歌等合作及打造Mac专用浏览器等举动，其与最大投资方和云合作伙伴微软关系出现裂痕。OpenAI举动显露后，微软于昨日发布新版Copilot，推出12项以“人性化AI”为核心的新功能升级AI浏览器，微软AI CEO还开炮阴阳OpenAI“没底线”。

计算机科学家Yoshua Bengio：AI领域的传奇之路

Yoshua Bengio成为Google Scholar上首个引用量超百万的科学家，其引用增长与AI技术爆发曲线重合，老友Geoffrey Hinton和Yann LeCun引用量也分别达97万和43万级别。他1964年生于法国巴黎犹太家庭，12岁到加拿大蒙特利尔，成长于艺术氛围浓厚家庭，11岁起编程，后在麦吉尔大学获学位，在麻省理工学院和贝尔实验室做博士后研究，1993年回蒙特利尔大学开启学术生涯。上世纪80 - 90年代“AI寒冬”，他坚守并取得多项奠基性突破，还创办MILA使蒙特利尔成全球AI中枢，联合创办AI企业孵化器Element AI。随着AI发展，他转变为社会活动家和伦理倡导者。他有多篇高引论文，如《Generative Adversarial Nets》《Deep learning》等。61岁的他仍持续科研，培养人才，获图灵奖等众多荣誉，保持谦逊清醒。

特斯拉“世界模拟器”：开启自动驾驶与通用AI新征程

2025年10月27日，特斯拉放出“世界模拟器”震撼演示，该模拟器基于神经网络，每天可处理相当于人类500年驾驶时长的数据并自我进化，其合成环境能用于训练擎天柱。在自动驾驶技术路线上，特斯拉选择“端到端”路线，虽有诸多优势但也面临挑战。为应对挑战，特斯拉用海量数据处理输入token，通过“数据引擎”筛选优质样本；神经网络输出“中间token”并可用自然语言解释决策；用“世界模拟器”进行系统评估。特斯拉终极目标是打造解决通用物理世界交互问题的底层AI引擎，“世界模拟器”已应用于擎天柱项目。

官网介绍：https://x.com/aelluswamy/status/1981644831790379245；https://www.youtube.com/watch?v=wHK8GMc9O5A；https://x.com/Tesla/status/1982255564974641628

美团发布LongCat-Video视频生成模型，开启世界模型探索之路

2025年10月27日，美团技术团队正式发布LongCat-Video视频生成模型，这是美团探索世界模型的第一步，为自动驾驶、具身智能等业务夯实技术基础。世界模型是通往下一代智能的核心引擎，该模型作为构建世界模型的关键路径，能压缩多种知识、模拟真实世界运行。其具有统一模型架构，基于Diffusion Transformer（DiT）架构，原生支持文生、图生、视频续写三大核心任务；可稳定输出5分钟级长视频且无质量损失；通过三重优化使视频推理速度提升至10.1倍。经内部和公开基准测试，其通用性能优秀，综合能力跻身开源SOTA。

Github：https://github.com/meituan-longcat/LongCat-Video
huggingface: https://huggingface.co/meituan-longcat/LongCat-Video
官网介绍：https://meituan-longcat.github.io/LongCat-Video/

MiniMax M2模型：打破“不可能三角”，性价比与实力双高

2025年10月27日，MiniMax悄悄发布并正式开源M2模型，该模型打破智能水平、速度和价格的“不可能三角”，性价比优势明显。榜单表现上，编程能力在SWE - bench Verified测试获69.4分、Terminal - Bench测试得46.3分，仅次于GPT - 5、Claude和Claude 4.5；agentic能力在τ² - Bench和GAIA (text only)测试均为国产模型第一，与GPT - 5差距小；深度搜索能力在多个榜单稳定发挥，FinSearchComp - global以65.5分全球登顶。性价比方面，输入＄0.3/M、输出＄1.2/M远低于竞品，智能水平与价格、输出速度与价格表现俱佳。实测体验中，可接入主流开发工具，有开发APP、网页、游戏等多种案例，还能完成生活任务和多模态测试。

体验地址：https://docs.claude.com/en/docs/claude - code/setup
MiniMax API获取地址：https://platform.minimaxi.com/user - center/basic - information/interface - key
M2 agent海外版：https://agent.minimax.io/
M2 agent国内版：https://matrix - pre.xaminim.com/

火山引擎上线豆包视频生成 1.0 pro fast 模型，速度、成本、效果全面升级！

2025 年 10 月 24 日，火山引擎正式上线豆包视频生成模型 1.0 pro fast（Doubao - Seedance - 1.0 - pro - fast）并已上线火山方舟平台。该模型优势显著，速度更快，720P 的 5 秒视频仅需 10 秒，较 pro 版本提速约 3 倍；成本更省，生成 5 秒 1080P 视频成本仅 1.03 元，对比 pro 版本价格直降 72%，效能远超国内主流同类模型；效果更优，在图生视频方向优于全球主流模型。其核心应用场景包括为初创团队提供低成本试错、覆盖轻量化业务场景、为用户提供过渡型升级方案。此外，模型还具备指令深度解析与执行、无缝多镜头叙事、细节表现真实自然、复杂运动高度稳定四大核心优势。

昆仑万维推出Skywork AI网页复刻功能，革新网站创建方式

昆仑万维集团推出Skywork AI网页复刻功能，改变了传统冗长的网站创建方式。用户通过提供网页链接、上传文件或输入文字描述，AI能在数分钟内生成功能完备、风格相近的网页原型。该功能有上传文件、提供网址、纯文字描述三种使用方式，且非简单复制，而是输出可编辑草稿，让网页创作从“制作导向”转向“想法驱动”。目前该功能已全面上线，全球用户可体验。

官网介绍：https://skywork.ai
体验地址：https://skywork.ai

马斯克为Grok打造虚拟伴侣，AI情感产品引智商税讨论

025年10月26日消息，马斯克为AI聊天机器人Grok打造虚拟伴侣“老婆”Mika，她是二次元蓝发美少女形象，设定聪明、温柔、贴心。xAI团队推出Grok Companions功能，让AI有不同性格、外形，Mika是首个角色，是穿夹克和破洞裤的酷姐。Mika会用调情等语气交流，但不适合写代码、查资料，像有语气包的AI皮肤，部分模式可解锁“成人语气”，“儿童模式”也可能误触。此外还有“Rudi”“Ani”等AI角色，目前Grok已有五个AI伴侣。马斯克似在试探让AI成情感产品，Grok定位比ChatGPT更开放，引发是否为智商税的讨论。

高通发布下一代数据中心AI推理解决方案，AI200与AI250芯片亮点多

高通技术公司发布面向数据中心的下一代AI推理优化解决方案，包括基于Qualcomm AI200与AI250芯片的加速卡及机架系统。该方案以先进总体拥有成本（TCO）为高速数据中心生成式AI推理提供高性能与大内存容量。AI200专为机架级AI推理打造，低TCO且扩展性好；AI250首发创新内存架构，提升带宽、降低功耗。机架方案支持液冷散热与多种扩展，具备安全保障。软件栈覆盖全链路，支持主流框架。AI200预计2026年商用，AI250预计2027年商用，高通将按年度迭代推进数据中心产品技术路线图。

MiniMax稀宇科技：Hailuo 2.3视频模型升级，Media Agent全模态创作来袭！

2025年10月28日，MiniMax稀宇科技推出视频模型Hailuo 2.3，在Hailuo 02基础上升级动态表现力，画面更真实稳定，在肢体动作、风格化、人物微表情等方面显著提升，对运动指令响应优化，内测电商广告抽卡率大幅提高。该模型“加量不加价”，还有生成速度更快、定价更低的Hailuo 2.3 Fast模型。模型更新已在海螺AI多端推出，发布期每日免费试用。此外，Hailuo Video Agent迭代为支持全模态全能创作的Media Agent全球同步上线，可“一键成片”，后续还能“对话即创作”。

体验地址：https://hailuoai.com/ ；https://hailuoai.com/agent

马斯克开源版维基百科Grokipedia V0.1发布，与传统维基百科碰撞火花

马斯克发布开源版维基百科Grokipedia V0.1并预告1.0版本更强。该版本设计简洁，收录超88万篇文章，通过Grok核查事实，支持交互和报错。不过上线几小时就引发争议，有网友认为其照搬维基百科，但马斯克表示会追求真理。其功能上搜索“Elon Musk”能快速呈现详细介绍及众多参考链接，还能显示核查时间等。目前Grokipedia文章数量约为英文维基百科的八分之一，评价褒贬不一，虽不稳定且有内容照搬问题，但部分词条处理更公道、详细度也有优势。同时，AI搜索时代维基百科浏览量减少，其创始人认为AI无法取代准确性，已成立工作组应对。

官网介绍：https://grokipedia.com/
参考资料：https://x.com/MarioNawfal/status/1982989203169243387；https://www.nytimes.com/2025/10/27/technology/grokipedia-launch-elon-musk.html

Anthropic的Claude接入Excel，金融领域技能升级引关注

Anthropic的Claude以插件形式接入Excel并发布研究预览测试版，仅Max、Teams或企业版可用，首批1000名用户体验。它可直接操作和读取Excel数据、修改表格等，还扩展了与微软应用集成。Claude接入得益于连接器Connectors和新增的Agent Skills技能，新增6项金融领域技能。Claude在金融行业应用广泛，获花旗银行CTO和VISA认可，但AI能否完美完成金融核算仍是未知数。

OpenAI前CTO创业公司公布同策略蒸馏新方法，大幅降低大模型后训练成本

本周AI领域，OpenAI前CTO Mira Murati的创业公司Thinking Machines Lab（TML）公布同策略蒸馏（On - Policy Distillation）大模型后训练新方法，能以1/10成本达强化学习同等效果。TML自2月成立，估值120亿美元，已发布产品Tinker。当前大模型后训练的同策略和异策略路线各有困境，而该新方法结合强化学习与蒸馏优势，用逐token的反向KL散度评分，零折扣因子优化，计算资源高效。工程师可“魔改”Tinker的RL训练脚本完成实现。实验验证其在获得推理能力上成本降低9 - 30倍，还能解决个性化蒸馏中“灾难性遗忘”问题。TML工作质疑盲目崇拜强化学习探索过程，证明SOTA能力可高效蒸馏复制。

英伟达OmniVinci：全模态大模型实现效率与性能双突破

英伟达研究团队发布全模态理解大语言模型OmniVinci，仅用六分之一训练数据，在关键全模态理解基准测试中比现有顶尖模型高出19.05分。该模型旨在构建能理解视觉、音频和文本的全能AI，通过创新架构设计和数据管理策略，实现跨模态理解和推理。创新架构包括OmniAlignNet模块、时间嵌入分组（TEG）和约束旋转时间嵌入（CRTE）。采用两阶段训练和独特的数据处理策略，最终联合训练数据集含2400万个对话样本。实验验证了创新模块有效性和数据学习效果，在多种基准测试中表现出色，应用GRPO算法后性能提升。其能力可应用于多种下游任务，在真实世界视频测试中展现强大泛化能力。

Github：https://github.com/NVlabs/OmniVinci
huggingface: https://huggingface.co/nvidia/omnivinci
论文：https://arxiv.org/abs/2510.15870

英伟达GTC大会：多项技术突破，市值逼近5万亿美元！

英伟达GTC Washington大会，黄仁勋演讲后英伟达股价上涨4.98%，市值达4.89万亿美元，逼近5万亿美元。大会发布多项核心内容，包括Vera Rubin超级芯片亮相，预计2026年量产；英伟达转向并行计算；宣布AI原生6G无线协议栈；推出NVQLink量子GPU互连技术；与美能源部合作建超级计算机；提出“极限协同设计”；发布Omniverse DSX；开放模型、数据与库；与全球企业共建数字孪生平台；Uber合作部署自动驾驶汽车等。

官网介绍：https://blogs.nvidia.com/blog/nvidia-gtc-washington-dc-2025-news/

Soul App开源播客语音合成模型，解锁AI社交新可能

2025年10月29日，Soul App AI团队（Soul AI Lab）在上海正式开源播客语音合成模型SoulX - Podcast。该模型专为多人、多轮对话场景打造，支持多语种/方言与副语言风格，能输出超60分钟自然流畅的多轮语音对话，在通用语音合成或克隆场景表现出色。其亮点包括流畅自然多轮对话、多方言与超长播客生成，具备零样本克隆的多轮对话能力、多语种和跨方言的克隆能力。因声音是Soul用户“情感纽带”，“语音社交”是平台标签，且业界稳定支持多轮自然对话的开源播客生成模型较少，所以Soul团队开源此模型。相比传统系统和部分研究，它支持多轮、多角色长对话生成，采用LLM + Flow Matching语音生成范式，在单人语音合成与零样本语音克隆任务中表现优异。未来，Soul团队将持续提升核心交互能力，深化开源生态建设。

Github：https://github.com/Soul-AILab/SoulX-Podcast
huggingface: https://huggingface.co/collections/Soul-AILab/soulx-podcast
官网介绍：https://soul-ailab.github.io/soulx-podcast
论文：https://arxiv.org/pdf/2510.23541

Adobe CC 2026全家桶发布，Firefly图像模型5惊艳登场

Adobe CC 2026全家桶发布，此次先更新WIN系统，MAC系统后续更新，且均为一键安装。Adobe在MAX大会上推出先进的Firefly图像模型5，它擅长生成照片级逼真细节，能创作人物肖像、复杂多层次构图等，无需升级可生成原生4MP分辨率图像，还能按输入提示编辑图像，具备商业安全性。此外，文章还提及2026年版本中Adobe Photoshop等多款软件的版本号、新启动图和新功能，但新功能仅以图片形式展示，未详细文字说明。

原文链接：最新发布! Adobe 2026全家桶来了!

腾讯混元国内首推交互式AI播客，解锁多元收听新体验

腾讯混元推出国内首个交互式AI播客。其核心亮点是用户收听时可随时语音或打字提问，改变传统单向模式，结合大模型准确作答，提升信息获取效率。该播客支持多元定制，包括播客风格、主持人数、音色选择及内容创作。于2025年8月正式上线，能将文本、网页、文档一键转化为双人对谈式音频，有三种模式实现跨模态生成。目前，微信公众号、腾讯新闻等已接入，在财研报解读等场景广泛应用。

官网介绍：https://hunyuan.tencent.com/agent?skill=aiPodcast
体验地址：https://hunyuan.tencent.com/agent?skill=aiPodcast

美国AI公司青睐中国大模型，全球AI新时代将至？

美国AI公司开始青睐中国大模型，涉及AI编程、推理、Agent等多领域。如国外头部AI编程产品Windsurf上新模型来自智谱GLM，Cerebras上架GLM - 4.6，美国云服务平台Together AI部署Qwen - 3 - Coder，Vercel与智谱合作提供GLM - 4.6的API服务，Featherless支持Kimi K2新模型，国产大模型还被用于AI模拟炒股。原因一是国产大模型性能够打，如GLM - 4.6等获认可；二是性价比高，中国厂商善打价格战。这表明AI产业正从技术炫技迈向务实应用，高性价比技术成企业关键考量，大模型圈“Made in China”含金量上升。

参考链接：

posted @ 2025-10-31 11:05 piggy侠阅读(74) 评论(0) 收藏举报

刷新页面返回顶部

piggy侠的技术博客

公#众~号: AI Tech研习社