Gemini 2.5原生音频技术解析
Gemini 2.5的原生音频能力
Gemini采用多模态架构设计,原生支持文本、图像、音频、视频和代码的理解与生成。最新版本在AI驱动的音频对话和生成方面实现重大突破,相关技术已应用于全球多个产品、原型和语言环境。NotebookLM的音频概览和Project Astra就是典型应用案例。
实时音频对话
人类对话富含细微差别,含义不仅通过内容传达,还通过语调、口音甚至非语言声音(如笑声)传递。Gemini原生支持音频推理和语音生成,实现高效实时通信。
原生音频对话功能包括:
- 自然对话:高质量语音交互,具备恰当的表达力和韵律节奏,极低延迟保证流畅对话
- 风格控制:通过自然语言提示调整对话风格,支持特定口音、多种语调表达甚至耳语模式
- 工具集成:支持在对话中使用工具和函数调用,可整合实时搜索信息或自定义开发工具
- 对话上下文感知:能识别并过滤背景语音和环境对话,在适当时机响应
- 音视频理解:原生支持流式音视频,可基于视频流或屏幕共享内容进行对话
- 多语言支持:支持24种以上语言,支持同一短语中混合使用多种语言
- 情感对话:能响应用户语音语调,识别不同表达方式带来的对话差异
- 高级推理对话:增强的推理能力提升所有功能表现,特别在复杂推理任务中实现更连贯的智能交互
可控文本转语音(TTS)
文本转语音技术正快速演进,最新模型在自然度基础上提供了前所未有的生成控制能力。支持从短片段到长篇叙述的生成,可通过自然语言提示精确控制风格、语调、情感表达和表演效果。
增强控制功能包括:
- 动态表演:为诗歌、新闻播报和故事讲述提供富有表现力的朗读,支持特定情感和口音模拟
- 语速和发音控制:精确控制播报速度,确保特定词语的发音准确性
- 多说话人对话生成:支持从文本输入生成双人"NotebookLM风格"音频概览,通过对话提升内容吸引力
- 多语言支持:无缝创建多语言音频内容,支持24种以上语言
针对可控语音生成,复杂提示场景推荐使用专业预览版,日常应用推荐使用高效版。开发者可动态创建公告、故事、播客、视频游戏等音频内容。
安全与责任
在原生音频功能开发全周期实施风险评估,通过严格内外安全评估(包括全面红队测试)验证保障措施。所有音频输出均嵌入水印技术,确保AI生成内容的可识别性。
开发者原生音频能力
通过开发平台提供Gemini 2.5原生音频输出功能,使开发者能构建更丰富、交互性更强的应用程序。开发者可在流式选项卡中体验原生音频对话功能,在媒体生成选项卡中选择语音生成功能使用可控语音生成服务。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码