声网 CEO 赵斌：对话式 AI 加速 RTE 进化，实时互动步入万亿分钟时代

在 10 月 31 日召开的声网 Convo AI & RTE 2025 第十一届实时互联网大会主论坛上，声网创始人兼 CEO 赵斌发表了题为《对话式 AI：实时互动的新篇章》主旨演讲。

在大会上，赵斌宣布了一项里程碑成就：声网年度服务分钟数首次突破“万亿分钟”，标志着实时互动（RTE）正式进入全新的规模化应用阶段。

今年 8 月，WebRTC 的全球搜索量出现了前所未有的激增，充分印证了开发者和行业对 RTE 技术的新一轮关注。随着强大的对话式 AI 工具进入市场，RTE 和通讯行业正迎来全新的发展机遇。

为助力企业和开发者抓住这一机遇，声网在大会上正式发布了 《2025 对话式 AI 发展白皮书》及《对话式 AI 好奇者手册》 ，为行业提供了一套系统的实践指南。同时，声网重磅推出了对话式 AI 引擎 2.0、对话式 AI 开发套件、对话式 AI 模型评测平台和 AI Studio，加速对话式 AI 在实时互动行业的应用创新，开启 RTE+AI 的新篇章。

赵斌强调，未来 RTE 将成为生成式 AI 时代的核心基础设施，支撑未来智能应用的无缝衔接与高效运行。然而，尽管技术进步带来了新机遇，数据安全与隐私保护依然是行业面临的严峻挑战。声网一直致力于通过先进的加密技术和严格的数据管理政策，确保用户数据的安全和隐私。此外，如何将 AI 硬件、端侧智能及具身智能高效融入实际场景，也是亟待解决的关键问题。

展望未来，对话式 AI 将不再仅仅停留在云端，而是深度嵌入端侧设备，真正赋能日常生活，推动实时互动行业迈入全新的增长篇章。

以下内容基于赵斌演讲全文整理：

欢迎大家再次相聚在金秋十月的北京，参加 Convo AI & RTE 2025 第十一届实时互联网大会，与开发者、合作伙伴、创业者及社区伙伴共同探讨行业现状、未来发展、以及潜在的机遇与挑战。正如现场播放的真实客户对话示例显示，对话式 AI 已经能够实现更流畅的人机交互，普通用户很难分辨真人与 AI。

RTE 的突破与加速从万亿分钟到技术创新的持续驱动

就在两个月前，声网年度服务分钟数首次突破万亿分钟，且实际使用量仍在持续增长。在全球范围内，达到这一规模的运营商屈指可数。这一里程碑式的增长，源于过去十年开发者的热情投入、行业的共同关注，以及所有人为持续优化实时互动体验所付出的努力。

回顾过去，我们也见证了 RTE 行业的快速进化：RTE 专业供应商的进步、WebRTC 标准与社区的持续发展，以及 W3C 等标准化组织的重大贡献。在 WebRTC 成为正式标准后，以声网为代表的专业供应商在提升优质体验、拓展场景覆盖和加强跨平台支持方面不断发力，有力推动了实时互动行业的快速发展。

与此同时，AI 技术和高清技术的突破进一步加速了行业的进化。例如，AI 降噪能够智能过滤背景噪声；空间音频和超分辨率技术的应用，则进一步打造了沉浸式的场景体验。在视频领域，高清视频的渗透率显著提高，尤其是在海外市场，720P 以上的视频占比已超过 80%。这主要得益于 AV1 编码器的突破：在同等画质下，其算力消耗比 X264 降低 25%，编码率节省 42%，极大地提高了传输效率。

此外，W3C 推出的 WebAssembly、WebCodecs 和 WebTransport 等标准，尽管与 WebRTC 没有直接关联，但它们在优化网络适应性、传输控制和流畅度方面发挥了重要作用，为实时互动体验带来了显著提升。

从 WebSocket 到 WebRTC Agent 元年也是 Convo AI 元年

就在今年 8 月，WebRTC 的全球搜索量出现了前所未有的激增，充分印证了开发者和行业对实时互动技术的新一轮关注。这一现象与 OpenAI 主流 API 的发布密切相关——随着这些强大的对话式 AI 工具进入市场，实时互动和通讯行业正迎来全新的发展机遇。正是在这一时代背景下，对话式 AI（Convo AI）迅速成为焦点，引发了实时互动领域的新一轮创新热潮。随着对话式 AI 技术的快速发展和广泛应用，行业普遍认为今年是对话式 AI 发展的重要转折点，也预示着今年有望成为“对话式 AI 元年”。

事实上，对话式 AI（Convo AI）并非横空出世，而是多年技术积累和行业探索的成果。从上世纪九十年代的早期计算机对话尝试，到十年前移动互联网和智能音箱推动的语音交互普及，尽管交互在逐步深化，但真正自然、富有上下文的对话体验始终难以企及。直到去年，多模态大模型的突破性进展，使计算机能够基于丰富的内容和深层语境进行交流，才真正开启了人机交互的新篇章。

然而，今天的对话式 AI 仍面临挑战，其主要瓶颈在于对话体验不够自然；目前多在云端运行的模型往往反应迟缓，缺乏对环境噪音的适应能力，容易偏离上下文，甚至难以准确判断对话对象是人还是机器。研究表明，人类沟通中仅有少量信息来自语言本身，绝大部分感知依赖于语气、语调、情感及肢体语言——这对当前的 AI 而言，无疑是巨大的挑战。实现媲美人类的自然对话体验，需要融合多轮交互、上下文的精准理解、微秒级的及时响应以及对准确判断对话对象的能力。

尽管挑战显著，对话式 AI 在企业场景中已然展现出巨大的潜力，尤其在减轻重复劳动、显著提高效率方面。过去一年，我们见证了开发者、创业团队和开源社区的空前热情，众多创新项目和孵化团队迅速涌现，推动 Convo AI 在实践中广泛落地。全球大模型研发机构也在积极布局 WebRTC 领域，致力于将优化的对话式 AI 体验带给更广大的开发者和终端用户。随着基础设施、API、AI Agent 编排平台和应用生态的逐步成熟，一个健康活跃的对话式 AI 产业生态系统正在加速形成。基于这些进展，我们有充分理由相信，对话式 AI 将在实时互动行业创造出颠覆性的市场机会，其潜力在各类生产和生活场景中替代部分人机对话，成为 AI 与人智能交互的未来核心形式。

生成式 AI 即将在 RTE 行业创造新的市场

面对生成式 AI 带来的快速变革，对话式 AI 正伴随多模态技术的迭代升级，加速向更自然、更具交互性的方向演进。作为实时互动领域的领导者，声网始终紧跟这一发展趋势，与行业领军企业、全球开发者及创业团队紧密合作，共同推出了多项创新产品与服务，致力于为开发者探索更广阔的应用场景和商业潜力。

在本次大会上，声网推出了下一代对话式 AI 引擎 2.0，针对性解决了 AI 与人类对话中的核心难题，如上下文理解、声学处理、对话轮次管理、自然度和拟人性等方面。为进一步帮助开发者更高效地优化和测试 AI 应用，声网同时推出了全新的模块化和模型测试平台，使开发者能够轻松选择最适合的模型组合，并实现零代码的灵活配置与调优。

此外，声网还发布了《2025 对话式 AI 发展白皮书》，深入分析对话式 AI 领域的技术演进、应用场景和未来趋势，为开发者提供全面的技术指南和功能模块参考。

在开源与社区合作方面，声网通过与开发者共创的 TEN Framework 项目，致力于将对话式 AI 的实用价值落地于高效能、高并发和全平台场景。凭借多年积累与场景验证，TEN Framework 已成为 AI Agent 编排与生成项目中的主流选择，获得了开发者和企业的广泛认可。随着对话式 AI 的发展，RTE 开发者社区也在不断壮大，已发展成为国内最专业、最活跃的对话式 AI 与 Voice Agent 社区。活跃的开发者群体正在持续创造更多高质量的应用场景，同时 TEN Framework 提供的主流插件大幅简化了开发者的搭建和部署流程。

与开发者和合作伙伴共创，在 RTE 基础设施上的 Convo AI 场景正纷至沓来

随着 AI 深度融入实时互动，行业正迎来一次结构性跃迁。基于 RTE 基础设施的 Convo AI 场景不断涌现，开发者和企业的探索也在持续加速。

其中最具确定性的赛道是 AI 陪伴方向。过去一年，随着技术成熟和用户需求增长，AI 陪伴应用已成为应用商店的热门类别。尤其在硬件领域，养成与陪伴类 AI 设备逐渐受到关注，相关开发套件和模组也被广泛应用，效果显著。用户可通过音乐、唱歌等丰富互动，显著提升陪伴体验。然而，App Store 上同类应用层出不穷，竞争激烈，只有在体验和交互上深度优化的产品才能长期存活。

与此同时，AI 硬件生态正在加速形成。从耳机、手环到专为陪伴设计的设备，市场热度持续上升。声网推出的对话式 AI 开发套件已应用于多款硬件产品中，助力实现更自然、更拟人的交互体验。如今的对话式 AI 不仅能进行日常对话，还能唱歌、表达情绪，为 AI 陪伴和养成类产品带来更加真实的情感体验。

除陪伴外，对话式 AI 在 游戏、教育和助手 等领域同样展现出强劲势头。在游戏中，AI 正重塑 NPC 对话与场景交互，模糊游戏与社交的界限；在教育中，AI 数字人和教学硬件让拟人化教学更普及、更低成本；在智能助手方向，从通用型（如豆包）到垂类专用型（如蚂蚁 AQ），都出现了显著突破。

在 服务与交互层面，AI 客服、实时翻译和车载助手等应用加速成熟。AI 客服的响应效率与准确率已可超越人工；语音对语音的实时翻译能在 2 秒内完成；车载智能助手则极大地解放了驾驶操作，丰富了车内娱乐体验。更进一步，AI 正在延展至生活辅助与无障碍场景，它能帮助残障人士拓展活动空间，实现离线状态下的语音导航与对话交互，展示出具身智能的潜力。

整体来看，对话式 AI 正从云端渗透至端侧，从应用扩展至硬件，既在重新定义实时互动的形态，也在为未来的自然交互、陪伴式体验奠定基础。

展望未来 GenAI 还将继续改变整个行业

生成式 AI 正在推动各行各业的变革，尤其在实时互动领域，通过对话式 AI 改变了人与系统、人与服务的交互方式。像 ChatGPT 这样的应用正在从通用助理向具备长期记忆和多 Agent 功能的超级个人助手演进，未来有潜力成为类似微信级别的 Killer APP。但中美市场差异化竞争激烈，单一厂商难以获得垄断收益。

与此同时，这些超级 AI 助理可以集成到智能眼镜、耳机、手环等可穿戴设备，实现多终端、多形态交互。未来可能出现全天候陪伴的新型硬件，能够持续感知用户行为和环境，提供个性化服务，但也带来了数据安全与隐私保护的新挑战。

随着 AI 硬件与对话式 AI 的进一步融合，这一领域有望迎来爆发式增长。优化的对话能力、成熟的芯片模组和开发平台，使 AI 眼镜等设备能够拓展更多应用场景与使用价值。具身智能可以实现离线的人机互动，但仍依赖实时互动技术的支撑。对话式 AI 已成为 AI Agent 的核心方向，RTE 基础设施正演进为下一代 AI 基础设施。

展望未来，生成式 AI 与实时互动的结合将持续重塑 AI 交互的方式，也为开发者与企业创造前所未有的创新空间。声网将继续深耕 RTE 基础设施，推动对话式 AI 的技术演进与应用落地，为全球开发者提供开放、可靠的实时互动能力。

posted @ 2025-11-25 10:46 RTE开发者社区阅读(27) 评论(0) 收藏举报

刷新页面返回顶部