谷歌推出Gemini 2.5 Flash音频模型，支持实时翻译

2025-12-17

摘要

谷歌发布了Gemini 2.5 Flash原生音频模型，该模型通过直接处理音频信号，绕过文本转换，实现了低延迟、高保真的语音交互。其核心功能包括实时语音翻译，能够保留说话者的语调、节奏和情感，支持70多种语言和持续监听的双向对话。面向开发者，该模型在复杂函数调用评测中得分71.5%，指令遵循率提升至90%，显著增强了多轮对话的连贯性。此外，谷歌还推出了实验性工具Disco，其内置的GenTabs功能可基于用户需求自动生成交互式网络应用。

线索

投资机会方面，谷歌的原生音频模型有望重塑人机交互入口，颠覆现有翻译软件和语音助手市场，催生新一代实时语音代理的商业应用，尤其在客服、教育和无障碍领域。其强大的开发者工具（如高指令遵循率和函数调用能力）将吸引企业客户，巩固谷歌在云AI市场的生态优势，并带动相关智能硬件（如耳机）的需求。风险层面，技术竞争异常激烈，OpenAI等对手可能迅速跟进，谷歌的领先窗口期存在不确定性。此外，该技术的规模化部署面临巨大基础设施挑战，而其高度拟人化的能力也引发了深度伪造、隐私侵犯和伦理滥用等潜在风险，可能招致严格的监管审查，影响其商业化进程。

正文

谷歌发布了Gemini 2.5 Flash原生音频模型，该模型能够保留语调进行实时语音翻译，并使AI在复杂指令和连续对话中表现得更自然流畅。此次更新标志着AI从简单的“文本转语音”向“拟人化交互”的跨越。

该模型的核心技术在于其“原生音频”处理能力。传统的AI语音交互流程为：声音转文字、AI处理文字、生成文字回复、再将文字转为语音。这个过程不仅延迟较高，而且在转换过程中会丢失语气、停顿和情感等非文本信息。Gemini 2.5 Flash Native Audio则直接在音频层面进行处理，实现了“直接听、直接想、直接说”的模式，降低了延迟并保留了语音的细微特征。

此次更新的一个关键应用是实时语音翻译功能，该功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进入Beta测试阶段。该功能具备以下特点：

1. 持续监听与双向对话：模型可以持续监听环境中的多种语言并实时翻译，无需用户手动操作。在双向对话中，系统能自动识别说话人并进行语言切换，实现无感交流。

2. 风格迁移：模型能够捕捉并保留说话者的语调、节奏和音高。例如，对方焦急的语气在翻译后也会得到体现，实现了情感层面的传递。

3. 多语言与噪声处理：该功能支持70多种语言和2000多个语言对，能够处理一场对话中混杂多种语言的情况，并针对嘈杂环境进行了优化，具备噪声鲁棒性。

对于开发者，Gemini 2.5 Flash Native Audio在底层能力上也有显著提升：

1. 函数调用更精准：模型在需要调用外部数据的复杂任务中表现更优，能将获取的数据无缝融入语音回复。在ComplexFuncBench Audio评测中，其得分达到71.5%。

2. 指令遵循更听话：模型对开发者指令的遵循率从84%提升到了90%，能够更精确地执行格式、语气等特定要求，提升了企业级应用的可靠性。

3. 对话更丝滑：模型在多轮对话中的上下文检索能力得到加强，使交流过程更具逻辑性和连贯性。

谷歌还发布了一款名为Disco的实验性产品，它来自Google Labs，用于测试未来网络的想法。Disco内置了基于Gemini 3模型打造的GenTabs工具。GenTabs能够通过理解用户打开的标签页和聊天记录来主动分析复杂任务，并据此创建交互式网络应用程序以帮助用户完成目标。该工具无需用户编写代码，目前处于早期实验阶段，macOS版本已开放排队。

Gemini 2.5 Flash Native Audio模型已在Vertex AI上全面推出，并可在Google AI Studio中进行试用。实时语音翻译功能计划于2026年通过Gemini API扩展到更多产品中。

发布时间

2025-12-15 10:03:08

谷歌推出Gemini 2.5 Flash音频模型，支持实时翻译

相关推荐

评论 ( 0 )

取消回复

谷歌推出Gemini 2.5 Flash音频模型，支持实时翻译

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站