数据:
谷歌发布了Gemini 2.0 Flash Thinking模型,具有1M长上下文能力,并再次登顶Chatbot Arena排行榜。
线索:
Gemini 2.0 Flash Thinking在长文本处理和推理能力方面表现出色,拓宽了AI在语言理解中的应用。尽管模型在多个领域的表现较为均衡,但仍需注意其依赖强大上下文能力所带来的潜在局限性,比如长时间对话可能出现的理解衰退。
正文:
随着国内各大模型厂商在年底激烈竞争,谷歌也发布了其Gemini 2.0 Flash Thinking推理模型的升级版,成功再次登顶Chatbot Arena的排行榜。Google的AI负责人Jeff Dean指出,此次实验性更新引入了1M长的上下文能力,以便更好地分析长篇文本,例如研究论文和大型数据集。经过多次迭代,这一版本在可靠性方面得到了提升,并减少了模型思考过程与最终答案之间的矛盾。
Gemini 2.0 Flash Thinking是基于之前Gemini 2.0 Flash模型专门训练而成,采用思维增强推理能力。这款大模型在今年12月首次发布时,就已经迅速攀升至排行榜首位。技术上,它有两个主要突破:首先,它能处理高达1M token的长上下文;其次,它可以在多轮对话和推理中进行自我纠错。
该模型的一大亮点是能够明确展示其思考过程。在展示的一个演示中,模型不仅解决了一个物理问题,还详细解释了推理过程,这一过程用时超过1分钟。此外,有研究者表示其最新模型的实际体验速度优于Jeff Dean的描述。
在AIME2024和GPQA Diamond测试中,Gemini 2.0 Flash Thinking表现不俗,尤其在数学能力测试中,成绩提升了54%。从统计数据来看,与前代模型相比,它的综合表现也有了显著提升。
在与AGI House合作的活动中,Jeff Dean和研究科学家Mostafa Dehghani介绍了更多关于Gemini 2.0 Flash Thinking的细节。用户可以通过名为“Google AI Studio”的平台使用该模型。该平台一站式提供API密钥、实时对话、APP开发、模型调优和资源管理等功能,并具有提示词库和开发者论坛等支持资源。
尽管功能丰富,但该平台较为分散,对某些功能的文档描述不足。Jeff Dean表示,模型在最终发布后将提供完整的技术报告,当前主要目标是收集用户反馈,以便进一步改善产品。
杰夫·迪安补充道,该开发理念更倾向于“全面均衡”,希望模型在各方面表现优越,尽量避免表现差异显著的情况。在对话中,Gemini 2.0 Flash Thinking能够保持连贯的思维,并灵活使用已有信息来完成当前任务。
这款模型底层技术来源于Project Mariner,一个研究性项目,旨在改进AI与用户的互动能力,使其能理解并操作网页界面。关于未来的扩展,Jeff Dean透露谷歌正瞄准3D数据的应用,并已取得一定成果。
发布时间:
2025-01-22 18:18:03
评论 ( 0 )