ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

超难大模型测试集发布,所有AI模型得分低于10%

2025-01-26

数据:

史上最难的大模型测试集,没有任何模型得分超过10%;DeepSeek-R1超o1,o1得分9.1%。

线索:

此次测试集的难度极高,提出了对人工智能模型的挑战。分析显示,集中的题目领域涵盖多个学科,且题目的设计要求较为严格、独特。这可能会影响目前的AI技术发展,带来对更高效学习算法和更加复杂的多模态AI模型的需求,进而影响市场竞争格局和投资机会。同时,因难度的提升,企业在研发投入上的风险也相应增加。

正文:

一个新的测试集被推出,这个测试集被称为史上最难,大多数AI模型在回答时得分均未超过10%。例如,o1模型的得分仅为9.1%,而DeepSeek-R1在纯文本子集上得分较高,超越o1。

此次大规模测试集汇集了来自500多家机构的1000多名学者共提出了3000多个题目,题目难度定位在研究生及以上水平,覆盖的学科多达100多个,涉及数理化、生物医药、工程和社会科学等多个领域。特别是题目设计的严格性要求,在保证有明确答案和评判标准的同时,确保题目不能被检索到。

入选题目经过多次筛选,首先通过AI模型的自动审核,再经过人工审核以确保题目的有效性和难度。最终选出的题目经过严格的评审,以推动人工智能模型的进步与挑战。

另外值得注意的是,所得的每道题目,从500到5000美元不等的奖励也展现了命题工作的不易。不久之后,这套极具挑战性的测试集也许将会影响当前的AI技术研发方向及市场格局。

发布时间:

2025-01-24 15:22:45

相关推荐

评论 ( 0 )

2.8 W

文章

37.4 W

点赞

回顶部