ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

谷歌Gemini 3 Flash性能倒挂,小模型效率超越大模型

2025-12-23

摘要:谷歌最新发布的轻量级模型Gemini 3 Flash在多项性能基准测试中超越了其旗舰模型Gemini 3 Pro。在SWE-Bench Verified测试中,Flash获得78%的分数,高于Pro的76.2%。在AIME 2025数学测试中,其得分高达99.7%。同时,Flash的推理速度是前代2.5 Pro的3倍,Token消耗减少30%,且具有成本优势。谷歌团队解释,这一现象源于Flash集成了未在Pro中应用的最新优化与强化学习技术,并揭示了其战略:Pro模型旨在探索智能上限,并通过“蒸馏”技术将能力传递给优化后的Flash模型,这标志着“模型越大越好”的传统观念受到挑战。

线索:此次性能反转揭示了人工智能领域重要的技术趋势与潜在投资方向。投资机会在于:1. 高效能轻量模型技术:关注专注于模型优化、蒸馏技术和强化学习后训练算法的公司,其产品可能以更低成本实现高性能,在边缘计算和企业级应用中具有广阔市场。2. 推理侧基础设施:随着扩展重点从预训练转向推理侧扩展,提供高效推理算力、优化工具和服务的平台将迎来需求增长。主要风险在于:1. 技术路径颠覆:传统依赖大规模预训练和参数堆叠的商业模式可能受到冲击,相关公司的估值逻辑面临重估。2. 旗舰产品定位风险:若高端模型无法持续明确其差异化价值(如探索极端复杂任务),可能面临市场需求被更具性价比的轻量版侵蚀的风险。

正文

根据披露的评测数据,谷歌的Gemini 3 Flash模型在多项核心性能测试中表现超越了其旗舰模型Gemini 3 Pro。

在衡量软件工程能力的SWE-Bench Verified测试中,Gemini 3 Flash获得了78%的分数。这一成绩超过了Gemini 3 Pro的76.2%,也全面超越了上一代的Gemini 2.5 Pro。

在AIME 2025数学竞赛基准测试中,结合代码执行能力的Flash模型得分达到99.7%。在难度较高的Humanity’s Last Exam测试中,在不使用工具的情况下,Flash获得了33.7%的分数,与Pro版的37.5%处于同一梯队。

除了性能,该模型在速度与成本上也具备优势。数据显示,Gemini 3 Flash的推理速度是Gemini 2.5 Pro的3倍,Token消耗量减少30%。其定价为每100万输入Token 0.50美元,每100万输出Token 3美元。虽然比前代Gemini 2.5 Flash(输入0.3美元/百万,输出2.5美元/百万)略贵,但考虑到性能提升,该价格被认为具有竞争力。

对于Flash模型反超Pro的现象,谷歌团队给出了解释。团队负责人指出,这并非意外,而是顶层设计的关键环节。他们表示,Pro模型的主要作用之一是作为“蒸馏”Flash模型的基础。在这种战略下,Pro模型的目标是不计成本地探索智能上限,而Flash模型则通过蒸馏技术继承这些能力,并极致优化响应速度、成本和吞吐量。未来,Pro模型可能主要作为一个“生成器”,用于生产高质量的Flash模型。

团队同时强调,模型性能扩展的规律并未失效。负责人表示,通过持续扩大规模,团队仍实现了巨大的性能飞跃。但扩展的重点正在演变,从单纯在预训练阶段堆砌参数,转向在推理阶段进行扩展。团队认为,后训练是目前最大的潜力领域,在代码、推理和数学等测试被“击穿”后,在开放式的复杂任务上仍有巨大提升空间。

针对Flash模型性能反超的技术原因,研究员揭示关键在于强化学习。Flash不仅仅是Pro的蒸馏版,还集成了最新的代理强化学习研究成果。这证明提升模型能力并非只有增加参数一条路径,通过先进的后训练算法,较小的模型也能在关键领域超越参数量更大的旗舰模型。

这一性能表现引发了关于“参数至上论”的讨论。有观点认为,这标志着“帕累托前沿”发生了反转,即更便宜、更快的模型同时成为了更聪明的模型,打破了“模型越大越好”的固有观念。

发布时间:2025-12-22 18:07:51

相关推荐

评论 ( 0 )

3.4 W

文章

64.4 W

点赞

回顶部