摘要
最新研究显示,多个AI推理模型已成功通过CFA(特许金融分析师)全部三个级别的考试,并取得接近满分的成绩。其中,Gemini 3.0 Pro在一级考试中获得97.6%的准确率,GPT-5在二级考试中取得94.3%,Gemini 3.0 Pro在三级论述题部分得分率达92.0%。这标志着AI在金融领域的专业能力已从知识记忆跃升至复杂综合研判水平,尽管在道德伦理题目上仍存在短板,且考试能力不完全等同于实际工作能力。
线索
AI在CFA考试中的突破性表现,揭示了金融行业面临的深刻变革与潜在的投资逻辑。风险方面,初级分析师岗位及依赖标准化知识的工作流程面临被自动化替代的直接威胁。同时,模型在“道德规范”题目的高错误率,以及可能存在的“数据污染”问题,构成了AI在金融决策应用中的核心风险,可能导致合规与决策失误。机会方面,能够将AI作为生产力工具的金融机构和个人将获得显著竞争优势。AI可承担海量数据处理、报告撰写等重复性工作,使人类分析师能专注于战略规划、客户沟通和创新性投资策略。因此,投资机会不仅在于开发专业金融AI模型的公司,更在于那些能够成功整合AI技术、重塑工作流程、提升分析深度的金融服务企业。
正文
近期多项研究表明,新一代AI推理模型在通过特许金融分析师(CFA)考试方面取得了显著进展,不仅全部通过三个级别的考核,部分成绩还接近满分。
CFA认证是金融领域公认的难度较高的资格认证,考生通常需要至少1000小时的准备时间。考试分为三个级别,逐级通过,涵盖从基础知识到应用分析,直至复杂投资组合构建的能力。
在2023年,当时的AI模型在解答CFA一级和二级试题时表现尚可,但在包含复杂论述题的三级考试中遇到了困难。然而,到了2025年7月,来自纽约大学斯特恩商学院与AI财富管理平台GoodFin的研究人员发现,使用“思维链”提示词技术后,部分前沿推理模型已能通过CFA三级考试。
2025年12月9日发布的一项最新研究,由哥伦比亚大学、伦斯勒理工学院和北卡罗来纳大学的研究团队进行,进一步证实了AI模型的能力。该研究使用包含980道考题的题库,对6款推理模型进行了全面测试。题库结构如下:
* 一级试题集:3套试卷,共540道多选题。
* 二级试题集:2套试卷,共176道基于案例的选择题。
* 三级试题集:3套试卷,共264道题目,混合了选择题和论述题。
测试结果显示,Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均通过了所有级别的考核。具体成绩如下:
* 一级考试:Gemini 3.0 Pro以97.6%的准确率领先,GPT-5为96.1%,Gemini 2.5 Pro为95.7%。
* 二级考试:GPT-5以94.3%的准确率位居第一,Gemini 3.0 Pro和Gemini 2.5 Pro分别为93.2%和92.6%。但所有模型在“道德规范”板块的相对错误率仍在17%至21%之间。
* 三级考试:选择题部分,Gemini 2.5 Pro以86.4%的准确率最高。论述题部分,Gemini 3.0 Pro的得分率达到92.0%,显著高于前代模型的82.8%。
研究的通过标准为:一级总分不低于70%;二级总分不低于60%;三级选择题和论述题平均得分率至少达到63%。研究人员据此指出,推理模型的专业能力已超越初级至中级金融分析师的要求,未来可能达到资深分析师水准。
尽管成绩斐然,研究也指出了若干局限性与挑战:
1. 考试与实务的差异:通过考试不代表能胜任金融分析师的日常工作,如与客户沟通、评估市场情绪和在信息不全时做决策。
2. 道德伦理的挑战:模型在处理需要深度情境理解和价值判断的道德伦理类题目时表现最弱。
3. 数据污染的可能:尽管使用了受版权保护的最新材料,但无法完全排除考题或其变体已被模型训练数据吸收的可能性,即模型可能“背过”答案而非真正推理。
4. 评分方法的偏差:三级论述题由另一个AI模型(o4-mini)自动批改,可能引入“篇幅偏见”,即回答越长得分越高。
针对AI对金融行业的影响,高盛全球投资研究部数据战略团队负责人Ingrid Tierens博士认为,AI不能替代分析师。她指出,CFA考试是标准化、知识体系明确的领域,正是AI擅长之处。金融业历史上一直在拥抱技术变革,从计算器到电脑和编程语言。
未来的关键在于如何有效利用AI。在合理的安全边界内,将AI用于处理繁琐的分析工作,可以让分析师将更多时间投入到战略思考、解决复杂问题和深度客户沟通上。卓越的投资业绩往往源于捕捉市场忽视的“离群点”和隐秘信息,这超出了当前考试所能覆盖的范围。
发布时间
2025-12-15 19:54:23



评论 ( 0 )