摘要:根据Epoch AI发布的2025年年终报告,人工智能模型的能力正以前所未有的速度加速提升,自2024年4月起,顶尖模型的年度能力提升速度几乎是之前的两倍。报告指出,中国开源模型正在快速追赶,其最佳性能与全球前沿模型的差距已缩短至约七个月,但处理极高难度任务时仍存在显著差距。同时,AI推理成本正急剧下降,训练效率通过算法创新得到提升,但算力增长可能面临瓶颈,且不同复杂度的任务享受成本红利的程度不均。
线索:报告揭示的投资机会在于,开源模型的快速进步和推理成本下降,正使得前沿AI能力迅速普及,这为基于消费级硬件开发创新应用和服务创造了条件。然而,主要风险包括:1) 技术迭代窗口期极短(不到一年),任何基于固定模型能力的商业模式都难以维持长期优势;2) 顶尖模型的研发极度依赖资本密集的实验,而非最终训练,后发者虽可借鉴但核心创新能力是关键壁垒;3) 推理能力的扩展可能在未来1-2年内触及算力基础设施的极限,性能增长或将放缓;4) API服务的稳定性已成为影响模型实际表现的重要因素,相关基础设施和服务可靠性构成潜在风险。
正文:
专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,人工智能模型的能力正在快速提升。
报告基于高难度数学基准测试FrontierMath进行了评估。该测试包含350道问题,分为300道基础题(第1-3层)和50道极难题(第4层)。评测结果显示,在第1-3层题库上,中国开源模型的最高性能落后全球前沿水平约七个月。在极难的第4层题库中,中国模型DeepSeek-V3.2正确回答了1道题,得分约2%,是唯一取得非零分的中国模型。全球顶尖模型如OpenAI的o3和o3-mini在此类题目上的准确率也仅为个位数。
技术上,DeepSeek通过采用多头潜在注意力(MLA)、混合专家(MoE)架构创新以及多标记预测等技术,使其模型在仅用十分之一算力的情况下,达到了与同期其他优秀开源模型相当的预训练水平。其后续推出的推理模型R1,在性能上媲美同期顶尖推理模型,但开发成本显著更低。这印证了算法优化和数据改进是降低AI训练成本的主要动力。
在全球前沿模型方面,GPT-5于2025年发布。数据显示,其在多项基准测试上相较GPT-4的提升幅度,与GPT-4相较GPT-3的提升幅度几乎相同,例如在MMLU上提升43%,在MATH上提升37%,在HumanEval上提升67%,在MATH Level 5上提升75%。市场感知上的“震撼感减弱”,被分析认为是由于模型发布节奏加快所致。其他模型如Gemini 3 Pro和xAI的Grok 4在评测中遇到了API稳定性、网络和超时等问题,影响了其得分。
报告数据显示,AI模型的能力正在加速提升。根据Epoch AI能力指数分析,自2024年4月起,顶尖模型的年度能力增幅从此前的约8分提升至约15分,加速比例约1.86倍。这一加速与推理模型的崛起以及强化学习投入加大同步发生。
报告还总结了2025年AI领域的十大趋势:
1. 推理成本暴跌,但任务差异明显:从2023年4月至2025年3月,相同性能下的推理成本呈指数下降,最快任务成本每年下降高达900倍,但复杂任务成本下降较慢。
2. 消费级硬件与前沿模型差距缩短至7个月:在消费级GPU上运行的最佳开源模型,与绝对前沿模型的性能差距已压缩至约7个月。
3. 研发成本远超训练:数据显示,某领先实验室2024年约50亿美元的算力预算中,约90%用于基础研究、实验和未发布模型的探索,而非最终模型的训练。
4. 英伟达算力存量每10个月翻番:自2020年以来,全球已安装的英伟达AI算力每年增长约2.3倍。
5. GPT-5在基准测试上延续飞跃:尽管市场感知有限,但GPT-5在关键基准测试上相比前代保持了显著的性能提升幅度。
6. 大模型单次查询能耗低于开灯泡五分钟:估算显示,顶尖大模型单次查询的平均能耗低于点亮一只家用灯泡五分钟的能耗。
7. 架构优化实现低成本高性能:通过算法创新,部分团队能够以十分之一的算力成本达到接近顶尖开源模型的预训练性能。
8. 推理模型扩展空间或仅剩1-2年:分析指出,当前依赖强化学习的推理能力扩展方式,可能在未来1-2年内触及算力基础设施的极限。
9. 国家级AI项目潜力巨大:分析指出,如果实施国家级集中投入,理论上可构建比当前最大模型大万倍规模的训练项目。
10. AI价值主要来自广泛自动化:AI对社会更可能的影响模式是分散且渐进的效率提升,而非短期内实现完全的科研自动化。
报告总结认为,AI能力仍在加速,成本持续下降,但能源消耗、算力瓶颈和能力天花板仍是行业需要面对的现实。
发布时间:2025-12-25 11:35



评论 ( 0 )