数据:
苹果近期论文质疑大模型的思考能力,涉及实验设计和模糊处理等多个方面,引发产业人士的围攻和反驳。加州大学和Salesforce的研究也为苹果的观点提供了支持。
线索:
此次事件揭示出大语言模型在多轮推理和视觉信息处理方面的不足,暗示着投资领域可能需要关注AI评估方法的创新和模型架构的改进所带来的机会。同时,对大语言模型的依赖风险显现,相关公司的股价和市场信心需谨慎评估。
正文:
苹果最近发表了一篇论文,质疑大语言模型的思考能力,并指出这些模型在复杂问题上的“准确率崩溃”,这一论点引发了许多产业人士的回应和攻击。纽约大学名誉教授加里·马库斯总结了七个反驳苹果观点,包括指出实验设计中的逻辑错误,以及对 результаты nhỏ的输出标记限制。他认为这些反驳不能有力证实苹果的观点。
马库斯提到Salesforce在5月24日发布的一项研究支持苹果的观点,研究结果显示在多轮推理测试中,顶级模型如Gemini-2.5-Pro的表现仅为35%。加州大学伯克利分校于6月9日发布的论文进一步探讨了视觉语言模型的脆弱性,指出它们的性能明显低于其视觉编码器,表明这些模型在理解视觉信息时存在局限。
此外,有趣的是,在6月10日,一名人类作者与大模型Claude联合发表了一篇论文,反驳苹果对河内塔实验的批评,指出苹果的实验设计存在缺陷,强调了token限制对输出的影响。该论文的讨论引起了广泛关注,一些评论员指出,AI参与学术讨论的现象可能会改变未来的研究环境。
马库斯对苹果的AI论文提出七大质疑并一一进行了驳斥,认为这些反驳缺乏实质性证据,表明规模化未必是解决AI推理问题的有效途径。与此同时,Salesforce和加州大学的论文也在不同侧面支持了苹果的论点,让整个行业面临对大模型能力可靠性的新思考。
发布时间:
2025-06-21 17:13:10
评论 ( 0 )