摘要
谷歌发布了Gemini 2.5 Flash原生音频模型,该模型通过直接处理音频信号,绕过文本转换,实现了低延迟、高保真的语音交互。其核心功能包括实时语音翻译,能够保留说话者的语调、节奏和情感,支持70多种语言和持续监听的双向对话。面向开发者,该模型在复杂函数调用评测中得分71.5%,指令遵循率提升至90%,显著增强了多轮对话的连贯性。此外,谷歌还推出了实验性工具Disco,其内置的GenTabs功能可基于用户需求自动生成交互式网络应用。
线索
投资机会方面,谷歌的原生音频模型有望重塑人机交互入口,颠覆现有翻译软件和语音助手市场,催生新一代实时语音代理的商业应用,尤其在客服、教育和无障碍领域。其强大的开发者工具(如高指令遵循率和函数调用能力)将吸引企业客户,巩固谷歌在云AI市场的生态优势,并带动相关智能硬件(如耳机)的需求。风险层面,技术竞争异常激烈,OpenAI等对手可能迅速跟进,谷歌的领先窗口期存在不确定性。此外,该技术的规模化部署面临巨大基础设施挑战,而其高度拟人化的能力也引发了深度伪造、隐私侵犯和伦理滥用等潜在风险,可能招致严格的监管审查,影响其商业化进程。
正文
谷歌发布了Gemini 2.5 Flash原生音频模型,该模型能够保留语调进行实时语音翻译,并使AI在复杂指令和连续对话中表现得更自然流畅。此次更新标志着AI从简单的“文本转语音”向“拟人化交互”的跨越。
该模型的核心技术在于其“原生音频”处理能力。传统的AI语音交互流程为:声音转文字、AI处理文字、生成文字回复、再将文字转为语音。这个过程不仅延迟较高,而且在转换过程中会丢失语气、停顿和情感等非文本信息。Gemini 2.5 Flash Native Audio则直接在音频层面进行处理,实现了“直接听、直接想、直接说”的模式,降低了延迟并保留了语音的细微特征。
此次更新的一个关键应用是实时语音翻译功能,该功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进入Beta测试阶段。该功能具备以下特点:
1. 持续监听与双向对话:模型可以持续监听环境中的多种语言并实时翻译,无需用户手动操作。在双向对话中,系统能自动识别说话人并进行语言切换,实现无感交流。
2. 风格迁移:模型能够捕捉并保留说话者的语调、节奏和音高。例如,对方焦急的语气在翻译后也会得到体现,实现了情感层面的传递。
3. 多语言与噪声处理:该功能支持70多种语言和2000多个语言对,能够处理一场对话中混杂多种语言的情况,并针对嘈杂环境进行了优化,具备噪声鲁棒性。
对于开发者,Gemini 2.5 Flash Native Audio在底层能力上也有显著提升:
1. 函数调用更精准:模型在需要调用外部数据的复杂任务中表现更优,能将获取的数据无缝融入语音回复。在ComplexFuncBench Audio评测中,其得分达到71.5%。
2. 指令遵循更听话:模型对开发者指令的遵循率从84%提升到了90%,能够更精确地执行格式、语气等特定要求,提升了企业级应用的可靠性。
3. 对话更丝滑:模型在多轮对话中的上下文检索能力得到加强,使交流过程更具逻辑性和连贯性。
谷歌还发布了一款名为Disco的实验性产品,它来自Google Labs,用于测试未来网络的想法。Disco内置了基于Gemini 3模型打造的GenTabs工具。GenTabs能够通过理解用户打开的标签页和聊天记录来主动分析复杂任务,并据此创建交互式网络应用程序以帮助用户完成目标。该工具无需用户编写代码,目前处于早期实验阶段,macOS版本已开放排队。
Gemini 2.5 Flash Native Audio模型已在Vertex AI上全面推出,并可在Google AI Studio中进行试用。实时语音翻译功能计划于2026年通过Gemini API扩展到更多产品中。
发布时间
2025-12-15 10:03:08



评论 ( 0 )