微软开源 Phi-4 视觉混合推理小模型;Raycast 发布 Glaze,通过对话生成本地应用丨日报

 

ad3dd82c69accd329641650d55384e51

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@瓒an、@鲍勃

01 有话题的技术

1、Raycast 发布 AI 对话构建桌面产品工具 Glaze

 

faf948d6d4f79d26bad799e1a9eb0238

 

 

 

Raycast 团队近日发布新产品 Glaze,旨在通过自然语言交互实现桌面级应用的零代码开发。该工具核心解决了传统软件「通用化」导致的效率低下问题,允许用户通过对话式界面快速生成、定制并运行本地应用。

 

其核心技术特性有:

 

  • 本地原生运行:生成的应用直接运行于用户本地计算机,支持离线使用及瞬时启动。

  • 深度系统集成:具备传统 Web 应用不具备的底层权限,包括:文件系统访问,全局键盘快捷键,菜单栏集成以及后台守护进程。

  • 迭代式开发:支持通过自然语言对话实时修改 UI 或功能逻辑,实现应用的动态进化。

 

Glaze 是 Raycast 插件生态的深度进阶版。其逻辑从「在单一容器内运行插件」转向「生成独立、全功能的桌面软件」,利用过去六年在 Raycast 开发中积累的 UI 框架和交互规范,确保生成的应用在无人工编码的情况下保持高性能与高审美一致性。

 

目前 Raycast 内部团队已利用 Glaze 构建了连接 GitHub 的扩展程序审核流工具,以及多种辅助内部协作的微型工具。

 

( @Raycast)

 

2、微软发布 Phi-4-Reasoning-Vision-15B 开源模型,能自主决定何时思考的小型多模态 AI

 

微软发布了一款 Phi-4-Reasoning-Vision-15B 模型,这是一款视觉推理模型。

 

它结合了高分辨率视觉感知与选择性、任务感知的推理,使其成为 Phi-4 系列中首个同时实现「看得清楚」和「想得深入」的小语言模型

 

传统的视觉模型仅执行被动的感知 —— 识别图像中「有什么」。Phi-4-Reasoning-Vision-15B 更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。

 

该模型最关键的设计特征是其混合推理行为。它可以根据提示在「推理模式」和「非推理模式」之间切换:

 

  • 当需要深度推理时(例如数学问题、逻辑分析)→ 启用多步推理链

  • 当快速感知足够时(例如,OCR、元素定位)→ 直接输出以降低延迟

 

该模型最重要的应用领域之一,就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后,可输出目标 UI 元素的标准化边界框坐标,其他智能体模型可以执行点击、滚动和其他交互。

 

以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比:

 

推理模式

 

8820a6667ecfca4ccd66f39baa4c48ca

 

 

非推理模式

 

12f12c68b5dd9e59395bf14106e19c9c

 

 

 

(@极客公园)

02 有亮点的产品

1、AI 初创 Flowith 完成千万美元融资

 

a8acb1effc355c412c6eb3a2a43307fd

 

 

AI 初创 Flowith 近期宣布,完成千万美元种子轮和种子+轮融资。据悉,种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。

 

在生成式 AI 从语言范式走向行动范式的浪潮中,行业正经历从被动响应的 LLM 进化为具备自我规划、主动执行能力的系统(Agentic AI)。Flowith 认为,传统的对话框形态已无法承载复杂的逻辑闭环,未来的核心竞争力在于如何让模型真正在端侧具备「学习」、「执行」与「进化」的能力。

 

作为 AI 交互领域和 Agent 的领先探索者,Flowith 一经推出就以创新性的交互方式获取了大量关注,并**领先推出了首个通用型创作智能体框架 Oracle、AI Context 知识花园、无限步骤智能体 Agent Neo、首个 OS Agent - FlowithOS **等业界前沿创新产品与功能、在海内外获得了数百万深度用户。

 

在 2026,Openclaw 已经证明系统 Agent 的潜力,作为 OS Agent 的领先探路者,Flowith 致力于打造一个以「行动」为内核、具备更强能力和更全面工具调用性的 Agent 系统。它让 Agent 可以更进一步地融入用户的工作和生活,在用户熟悉的环境中快速接手那些繁杂的任务,彻底打破 AI 与真实物理世界/数字世界之间的执行壁垒。

 

祥峰投资相关投资负责人表示: 「我们正处于从感知智能向行动智能跨越的拐点。Flowith 团队在 Agentic OS 方向的深刻洞察和极强的工程执行力,使其成为了赛道中极具潜力的基础设施提供商。我们期待 Flowith 能为 AI 生态提供更稳健的进化引擎。」

 

( @Z Potentials)

 

2、华为拍摄款 AI 眼镜或 4 月份发布,搭载海思芯片

 

2c7615e4d8a6d505329f2c1da2d57694

 

 

华为新款 AI 眼镜预计将于今年 4 月正式发布。 届时,该产品有望与备受期待的华为 Pura90 系列手机及第二代阔折叠屏手机、及诸多新品同台亮相。

 

该款 AI 眼镜支持拍照功能,搭载鸿蒙系统,支持跨端协同,同传翻译,有流光银、钛银灰、摩登黑三个颜色。今年春节期间,华为终端 BG 董事长余承东曾佩戴该尚未发布的新品,便引发了人们对于该产品即将发布的猜想。

 

据悉,该款华为 AI 眼镜目前已经在公司内部进行内测。由于华为不能采用高通 AR1 的芯片,大概率采用的是华为自研的海思麒麟芯片,搭载的是鸿蒙 OS,可以实现和华为手机、华为车机的跨端联动,更好地发挥其独特的生态优势。目前华为手机、搭载华为鸿蒙座舱的新能源汽车已有很大的出货量,如果能够实现很好的跨端协同,对于华为的用户而言将会非常有吸引力。

 

( @XR Vision)

 

3、捏 Ta 完成超千万美金 PreA+ 轮融资,定义 AI 时代世界创作的基础设施

 

340e70865dc05d42edd141cfac0bcbfc

 

 

近日,AI 原生社区捏 Ta 宣布完成超千万美金的 Pre A+ 轮融资,由九坤创投领投,BV 百度风投跟投,源码资本、奇绩创坛等老股东超额跟进。 这一轮融资将主要用于三个方向:招募面向全球拓展的顶尖人才,技术研发投入,以及新产品线拓展。

 

上线于 2024 年 3 月,捏 Ta 最初是一个专注于 AI 角色创作的平台。用户可以用自然语言创建虚拟角色,围绕角色创作图像、漫画、短片和可交互的玩法等。

 

目前,**平台已积累超 1200 万用户,活跃用户日均互动时长超过 110 分钟。在平台上,创作者们构造了 584 万个虚拟角色,上线了 400+ 包括场景、规则的虚拟世界和社团空间。**商业化层面,捏 Ta 在国内的收入已覆盖获客与算力成本,实现单位经济模型打正。

 

随着 AI 技术迭代、用户积累和玩法的深入,主题也逐渐扩充到包括像敦煌、非遗等传统文化,上万人在同一个世界观中统一风格参与创作,捏 Ta 平台正在从「创作角色」升级为「构建世界」。

 

捏 Ta 正在面向全球推出升级版创作工具,目标人群覆盖 Comic-Con、AO3 等全球泛创作社区。公司目前重点招募具有全球视野的产品设计师和文化策略人才。 虚构世界的需求是全球性的,从日本二次元文化到欧美奇幻文化,虚拟世界创作在世界各地有着大量年轻、原生、热情的创作者。

 

(@极客公园)

03 有态度的观点

1、吴恩达:AGI 仍遥远

 

 

近日,人工智能学者吴恩达(Andrew Ng)在「This Is The World」专访中,指出 AGI(通用人工智能)已被过度炒作并沦为营销术语,且断言 2026 年内行业无法实现真正的 AGI

 

采访中,吴恩达批评当前部分企业为公关或融资目的频繁篡改并降低 AGI 的标准。

 

他提出了一项全新的「图灵 AGI 测试」:若 AI 能够像熟练的人类远程工作者一样,在连续多天的体验中独立完成具有经济价值的工作任务,才符合社会公众对 AGI 的合理预期。

 

吴恩达表示,距离实现该目标仍有数十年距离,且随着公开互联网数据接近枯竭,单纯依赖扩大参数规模来提升智能的路径正面临挑战。

 

针对后续技术演进方向,吴恩达指出 2026 年及以后的核心商业价值将集中在「智能体工作流」。他认为,相比于盲目追求全知全能的单体大模型,通过赋予现有大型语言模型工具调用能力与护栏,让其分步骤处理法律合规、医疗辅助及客户服务等垂直领域任务,将产生更为确定的经济效益。

 

(@APPSO)

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

作者提示: 个人观点,仅供参考

 

posted @ 2026-03-06 13:21  RTE开发者社区  阅读(3)  评论(0)    收藏  举报