数据:
多个推理模型在近期更新,Qwen发布新视觉推理模型QvQ-Max,Gemini也发布了2.5 Pro Experimental版本。推理能力被认为是人工智能的基础。
线索:
推动推理模型向更复杂场景应用的机会存在,但准确度仍需提升。游戏作为测试推理的场景能够帮助研究模型在多模态信息处理中的表现,存在投资在游戏与人工智能交叉领域的机会,但应警惕技术应用中可能出现的误差和局限性。
正文:
最近几周,多个推理模型发布了新版本,显著提高了推理能力和多模态支持。Qwen发布了全新视觉推理模型QvQ-Max,具备理解和分析图像及视频信息的能力。Gemini在3月25日推出了2.5 Pro Experimental版本,显著提升了推理和多模态理解能力,并在数学和科学基准测试中超越了OpenAI的模型。
推理能力不仅仅体现在解决数学问题上,更是模型完成各种任务的基础。多家厂商意识到推理能力的重要性,这被视为实现更高阶人工智能的基石。
游戏被认为是测试推理模型的理想场景,尽管游戏处理较为复杂,当前的AI模型仍需玩家手动操控。潜在的应用场景是让模型通过分析游戏记录从而制定战术。为此,上传相同的游戏录屏来测试Qwen和Gemini的能力。
对于上传的游戏录屏,Gemini对模糊指令理解得更好,而Qwen需要明确的指令。两款模型对游戏中的伤害数据进行了处理,Gemini处理准确性相对较高,而Qwen则在数据收集频率上存在问题。
最终结果显示,Gemini的准确度达65分,而Qwen为55分。在总结游戏使用的特殊技能时,两者的思路不同,Gemini依据视频中的表现进行统计,而Qwen则基于卡牌技能的文字描述。
接着,测试者尝试引入更复杂的游戏《王者荣耀》,在这一场景中,两个模型的表现均不尽如人意。我方伤害数据的提取表现不佳,这影响了后续推理分析,其中Gemini甚至在数据提取时也显得理想化处理。
尽管应对难度较高,但整体表现优于预期。Qwen与Gemini在信息提取与分析上的能力差异逐渐显现,说明推理能力的提升是推进人工智能多维度能力的关键。同时,新发布的QvQ-Max报告表明,视觉信息在提升推理准确性方面的重要性,也暗示着更复杂应用场景与未来塑造智能的可能。
发布时间:
2025-03-31 08:43:37
评论 ( 0 )