声网 CEO 赵斌:对话式 AI 加速 RTE 进化,实时互动步入万亿分钟时代

在 10 月 31 日召开的声网 Convo AI & RTE 2025 第十一届实时互联网大会主论坛上,声网创始人兼 CEO 赵斌发表了题为《对话式 AI:实时互动的新篇章》主旨演讲。

 

在大会上,赵斌宣布了一项里程碑成就:声网年度服务分钟数首次突破“万亿分钟”,标志着实时互动(RTE)正式进入全新的规模化应用阶段。

 

image

 

 

今年 8 月,WebRTC 的全球搜索量出现了前所未有的激增,充分印证了开发者和行业对 RTE 技术的新一轮关注。随着强大的对话式 AI 工具进入市场,RTE 和通讯行业正迎来全新的发展机遇。

 

为助力企业和开发者抓住这一机遇,声网在大会上正式发布了 《2025 对话式 AI 发展白皮书》及《对话式 AI 好奇者手册 》 ,为行业提供了一套系统的实践指南。同时,声网重磅推出了对话式 AI 引擎 2.0、对话式 AI 开发套件、对话式 AI 模型评测平台和 AI Studio,加速对话式 AI 在实时互动行业的应用创新,开启 RTE+AI 的新篇章。

 

赵斌强调,未来 RTE 将成为生成式 AI 时代的核心基础设施,支撑未来智能应用的无缝衔接与高效运行。然而,尽管技术进步带来了新机遇,数据安全与隐私保护依然是行业面临的严峻挑战。声网一直致力于通过先进的加密技术和严格的数据管理政策,确保用户数据的安全和隐私。此外,如何将 AI 硬件、端侧智能及具身智能高效融入实际场景,也是亟待解决的关键问题。

 

展望未来,对话式 AI 将不再仅仅停留在云端,而是深度嵌入端侧设备,真正赋能日常生活,推动实时互动行业迈入全新的增长篇章。

 


 

以下内容基于赵斌演讲全文整理:

 

欢迎大家再次相聚在金秋十月的北京,参加 Convo AI & RTE 2025 第十一届实时互联网大会,与开发者、合作伙伴、创业者及社区伙伴共同探讨行业现状、未来发展、以及潜在的机遇与挑战。正如现场播放的真实客户对话示例显示,对话式 AI 已经能够实现更流畅的人机交互,普通用户很难分辨真人与 AI。

RTE 的突破与加速 从万亿分钟到技术创新的持续驱动

就在两个月前,声网年度服务分钟数首次突破万亿分钟,且实际使用量仍在持续增长。在全球范围内,达到这一规模的运营商屈指可数。这一里程碑式的增长,源于过去十年开发者的热情投入、行业的共同关注,以及所有人为持续优化实时互动体验所付出的努力。

 

回顾过去,我们也见证了 RTE 行业的快速进化:RTE 专业供应商的进步、WebRTC 标准与社区的持续发展,以及 W3C 等标准化组织的重大贡献。在 WebRTC 成为正式标准后,以声网为代表的专业供应商在提升优质体验、拓展场景覆盖和加强跨平台支持方面不断发力,有力推动了实时互动行业的快速发展。

 

image

 

 

与此同时,AI 技术和高清技术的突破进一步加速了行业的进化。例如,AI 降噪能够智能过滤背景噪声;空间音频和超分辨率技术的应用,则进一步打造了沉浸式的场景体验。在视频领域,高清视频的渗透率显著提高,尤其是在海外市场,720P 以上的视频占比已超过 80%。这主要得益于 AV1 编码器的突破:在同等画质下,其算力消耗比 X264 降低 25%,编码率节省 42%,极大地提高了传输效率。

 

此外,W3C 推出的 WebAssembly、WebCodecs 和 WebTransport 等标准,尽管与 WebRTC 没有直接关联,但它们在优化网络适应性、传输控制和流畅度方面发挥了重要作用,为实时互动体验带来了显著提升。

从 WebSocket 到 WebRTC Agent 元年也是 Convo AI 元年

就在今年 8 月,WebRTC 的全球搜索量出现了前所未有的激增,充分印证了开发者和行业对实时互动技术的新一轮关注。这一现象与 OpenAI 主流 API 的发布密切相关——随着这些强大的对话式 AI 工具进入市场,实时互动和通讯行业正迎来全新的发展机遇。正是在这一时代背景下,对话式 AI(Convo AI)迅速成为焦点,引发了实时互动领域的新一轮创新热潮。随着对话式 AI 技术的快速发展和广泛应用,行业普遍认为今年是对话式 AI 发展的重要转折点,也预示着今年有望成为“对话式 AI 元年”。

 

image

 

 

事实上,对话式 AI(Convo AI)并非横空出世,而是多年技术积累和行业探索的成果。从上世纪九十年代的早期计算机对话尝试,到十年前移动互联网和智能音箱推动的语音交互普及,尽管交互在逐步深化,但真正自然、富有上下文的对话体验始终难以企及。直到去年,多模态大模型的突破性进展,使计算机能够基于丰富的内容和深层语境进行交流,才真正开启了人机交互的新篇章。

 

然而,今天的对话式 AI 仍面临挑战,其主要瓶颈在于对话体验不够自然;目前多在云端运行的模型往往反应迟缓,缺乏对环境噪音的适应能力,容易偏离上下文,甚至难以准确判断对话对象是人还是机器。研究表明,人类沟通中仅有少量信息来自语言本身,绝大部分感知依赖于语气、语调、情感及肢体语言——这对当前的 AI 而言,无疑是巨大的挑战。实现媲美人类的自然对话体验,需要融合多轮交互、上下文的精准理解、微秒级的及时响应以及对准确判断对话对象的能力。

 

image

 

 

尽管挑战显著,对话式 AI 在企业场景中已然展现出巨大的潜力,尤其在减轻重复劳动、显著提高效率方面。过去一年,我们见证了开发者、创业团队和开源社区的空前热情,众多创新项目和孵化团队迅速涌现,推动 Convo AI 在实践中广泛落地。全球大模型研发机构也在积极布局 WebRTC 领域,致力于将优化的对话式 AI 体验带给更广大的开发者和终端用户。随着基础设施、API、AI Agent 编排平台和应用生态的逐步成熟,一个健康活跃的对话式 AI 产业生态系统正在加速形成。基于这些进展,我们有充分理由相信,对话式 AI 将在实时互动行业创造出颠覆性的市场机会,其潜力在各类生产和生活场景中替代部分人机对话,成为 AI 与人智能交互的未来核心形式。

生成式 AI 即将在 RTE 行业创造新的市场

面对生成式 AI 带来的快速变革,对话式 AI 正伴随多模态技术的迭代升级,加速向更自然、更具交互性的方向演进。作为实时互动领域的领导者,声网始终紧跟这一发展趋势,与行业领军企业、全球开发者及创业团队紧密合作,共同推出了多项创新产品与服务,致力于为开发者探索更广阔的应用场景和商业潜力。

 

image

 

 

在本次大会上,声网推出了下一代对话式 AI 引擎 2.0,针对性解决了 AI 与人类对话中的核心难题,如上下文理解、声学处理、对话轮次管理、自然度和拟人性等方面。为进一步帮助开发者更高效地优化和测试 AI 应用,声网同时推出了全新的模块化和模型测试平台,使开发者能够轻松选择最适合的模型组合,并实现零代码的灵活配置与调优。

 

此外,声网还发布了《2025 对话式 AI 发展白皮书》,深入分析对话式 AI 领域的技术演进、应用场景和未来趋势,为开发者提供全面的技术指南和功能模块参考。

 

image

 

 

在开源与社区合作方面,声网通过与开发者共创的 TEN Framework 项目,致力于将对话式 AI 的实用价值落地于高效能、高并发和全平台场景。凭借多年积累与场景验证,TEN Framework 已成为 AI Agent 编排与生成项目中的主流选择,获得了开发者和企业的广泛认可 。随着对话式 AI 的发展,RTE 开发者社区也在不断壮大,已发展成为国内最专业、最活跃的对话式 AI 与 Voice Agent 社区。活跃的开发者群体正在持续创造更多高质量的应用场景,同时 TEN Framework 提供的主流插件大幅简化了开发者的搭建和部署流程。

与开发者和合作伙伴共创,在 RTE 基础设施上的 Convo AI 场景正纷至沓来

随着 AI 深度融入实时互动,行业正迎来一次结构性跃迁。基于 RTE 基础设施的 Convo AI 场景不断涌现,开发者和企业的探索也在持续加速。

 

其中最具确定性的赛道是 AI 陪伴方向。过去一年,随着技术成熟和用户需求增长,AI 陪伴应用已成为应用商店的热门类别。尤其在硬件领域,养成与陪伴类 AI 设备逐渐受到关注,相关开发套件和模组也被广泛应用,效果显著。用户可通过音乐、唱歌等丰富互动,显著提升陪伴体验。然而,App Store 上同类应用层出不穷,竞争激烈,只有在体验和交互上深度优化的产品才能长期存活。

 

image

 

 

与此同时,AI 硬件生态正在加速形成。从耳机、手环到专为陪伴设计的设备,市场热度持续上升。声网推出的对话式 AI 开发套件已应用于多款硬件产品中,助力实现更自然、更拟人的交互体验。如今的对话式 AI 不仅能进行日常对话,还能唱歌、表达情绪,为 AI 陪伴和养成类产品带来更加真实的情感体验。

 

除陪伴外,对话式 AI 在 游戏、教育和助手 等领域同样展现出强劲势头。在游戏中,AI 正重塑 NPC 对话与场景交互,模糊游戏与社交的界限;在教育中,AI 数字人和教学硬件让拟人化教学更普及、更低成本;在智能助手方向,从通用型(如豆包)到垂类专用型(如蚂蚁 AQ),都出现了显著突破。

 

image

 

 

服务与交互层面,AI 客服、实时翻译和车载助手等应用加速成熟。AI 客服的响应效率与准确率已可超越人工;语音对语音的实时翻译能在 2 秒内完成;车载智能助手则极大地解放了驾驶操作,丰富了车内娱乐体验。更进一步,AI 正在延展至生活辅助与无障碍场景,它能帮助残障人士拓展活动空间,实现离线状态下的语音导航与对话交互,展示出具身智能的潜力。

 

整体来看,对话式 AI 正从云端渗透至端侧,从应用扩展至硬件,既在重新定义实时互动的形态,也在为未来的自然交互、陪伴式体验奠定基础。

展望未来 GenAI 还将继续改变整个行业

生成式 AI 正在推动各行各业的变革,尤其在实时互动领域,通过对话式 AI 改变了人与系统、人与服务的交互方式。像 ChatGPT 这样的应用正在从通用助理向具备长期记忆和多 Agent 功能的超级个人助手演进,未来有潜力成为类似微信级别的 Killer APP。但中美市场差异化竞争激烈,单一厂商难以获得垄断收益。

 

与此同时,这些超级 AI 助理可以集成到智能眼镜、耳机、手环等可穿戴设备,实现多终端、多形态交互。未来可能出现全天候陪伴的新型硬件,能够持续感知用户行为和环境,提供个性化服务,但也带来了数据安全与隐私保护的新挑战。

 

image

 

 

随着 AI 硬件与对话式 AI 的进一步融合,这一领域有望迎来爆发式增长。优化的对话能力、成熟的芯片模组和开发平台,使 AI 眼镜等设备能够拓展更多应用场景与使用价值。具身智能可以实现离线的人机互动,但仍依赖实时互动技术的支撑。对话式 AI 已成为 AI Agent 的核心方向,RTE 基础设施正演进为下一代 AI 基础设施。

 

image

 

 

展望未来,生成式 AI 与实时互动的结合将持续重塑 AI 交互的方式,也为开发者与企业创造前所未有的创新空间。声网将继续深耕 RTE 基础设施,推动对话式 AI 的技术演进与应用落地,为全球开发者提供开放、可靠的实时互动能力。

 

image

 

image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

image

 

posted @ 2025-11-25 10:46  RTE开发者社区  阅读(3)  评论(0)    收藏  举报