数据:
史上最难的大模型测试集,没有任何模型得分超过10%;DeepSeek-R1超o1,o1得分9.1%。
线索:
此次测试集的难度极高,提出了对人工智能模型的挑战。分析显示,集中的题目领域涵盖多个学科,且题目的设计要求较为严格、独特。这可能会影响目前的AI技术发展,带来对更高效学习算法和更加复杂的多模态AI模型的需求,进而影响市场竞争格局和投资机会。同时,因难度的提升,企业在研发投入上的风险也相应增加。
正文:
一个新的测试集被推出,这个测试集被称为史上最难,大多数AI模型在回答时得分均未超过10%。例如,o1模型的得分仅为9.1%,而DeepSeek-R1在纯文本子集上得分较高,超越o1。
此次大规模测试集汇集了来自500多家机构的1000多名学者共提出了3000多个题目,题目难度定位在研究生及以上水平,覆盖的学科多达100多个,涉及数理化、生物医药、工程和社会科学等多个领域。特别是题目设计的严格性要求,在保证有明确答案和评判标准的同时,确保题目不能被检索到。
入选题目经过多次筛选,首先通过AI模型的自动审核,再经过人工审核以确保题目的有效性和难度。最终选出的题目经过严格的评审,以推动人工智能模型的进步与挑战。
另外值得注意的是,所得的每道题目,从500到5000美元不等的奖励也展现了命题工作的不易。不久之后,这套极具挑战性的测试集也许将会影响当前的AI技术研发方向及市场格局。
发布时间:
2025-01-24 15:22:45
评论 ( 0 )