超难大模型测试集发布，所有AI模型得分低于10%

2025-01-26

数据：

史上最难的大模型测试集，没有任何模型得分超过10%；DeepSeek-R1超o1，o1得分9.1%。

线索：

此次测试集的难度极高，提出了对人工智能模型的挑战。分析显示，集中的题目领域涵盖多个学科，且题目的设计要求较为严格、独特。这可能会影响目前的AI技术发展，带来对更高效学习算法和更加复杂的多模态AI模型的需求，进而影响市场竞争格局和投资机会。同时，因难度的提升，企业在研发投入上的风险也相应增加。

正文：

一个新的测试集被推出，这个测试集被称为史上最难，大多数AI模型在回答时得分均未超过10%。例如，o1模型的得分仅为9.1%，而DeepSeek-R1在纯文本子集上得分较高，超越o1。

此次大规模测试集汇集了来自500多家机构的1000多名学者共提出了3000多个题目，题目难度定位在研究生及以上水平，覆盖的学科多达100多个，涉及数理化、生物医药、工程和社会科学等多个领域。特别是题目设计的严格性要求，在保证有明确答案和评判标准的同时，确保题目不能被检索到。

入选题目经过多次筛选，首先通过AI模型的自动审核，再经过人工审核以确保题目的有效性和难度。最终选出的题目经过严格的评审，以推动人工智能模型的进步与挑战。

另外值得注意的是，所得的每道题目，从500到5000美元不等的奖励也展现了命题工作的不易。不久之后，这套极具挑战性的测试集也许将会影响当前的AI技术研发方向及市场格局。

发布时间：

2025-01-24 15:22:45

ReadCai财经资讯站