摘要:本文回顾了2025年人工智能领域的关键进展,核心观点是技术发展正从依赖“暴力”参数扩展转向强化基础能力。主要进步体现在四个维度:流体推理方面,通过“测试时计算”范式(以OpenAI o1和DeepSeek R1为代表)和强化学习工程优化(如GPRO、ORM、RLVR),实现了AI推理能力从0到8的质变;长期记忆方面,通过Titans架构、Nested Learning、ReMem等技术突破,模型开始具备内化的、持续学习的能力;空间智能方面,视频生成模型(如Sora 2、Veo 3、Genie 3)开始掌握物理规律,迈向世界模型,同时V-JEPA 2等预测模型和World Labs的符号化路径也取得进展;元学习方面,通过上下文学习优化、策略蒸馏、中训练等方法,探索让AI“学会如何学习”。此外,合成数据筛选、MoE蒸馏、注意力机制革新(如MLA、线性注意力)以及小模型能力提升(如Gemini 3 Flash)也是年度重要趋势。文章指出,随着这些短板被弥补,Scaling Law在数据、算力、参数规模之外的维度得以延续。
线索:
* 投资机会:
1. 推理与记忆技术商业化:关注在“测试时计算”优化、新型强化学习算法、高效记忆架构(如类Titans设计)以及RAG系统智能化方面有深度布局的公司。这些技术是提升AI实用性和个性化能力的关键,预计将在企业级AI助手、复杂任务自动化、教育、医疗诊断等领域率先产生商业价值。
2. 多模态与空间计算:视频生成、3D环境构建(如World Labs的Marble)、物理世界预测模型(如V-JEPA)的成熟,将极大推动内容创作、游戏开发、仿真训练、机器人导航、AR/VR等产业的发展。相关的基础设施(如高效的3D数据标注、新型渲染引擎)和垂直应用值得关注。
3. 高效模型与边缘AI:MoE架构优化、注意力机制革新(如线性注意力)、以及小模型蒸馏技术的突破(如思维融合蒸馏MoT),使得高性能AI模型能在更低成本下运行。这为AI在移动设备、物联网终端和资源受限场景的普及铺平了道路,相关芯片、模型压缩及部署服务存在机会。
4. 合成数据与数据治理:高质量合成数据(尤其是长思维链数据)的生产、清洗、验证技术,以及对抗“模型崩溃”的解决方案,将成为下一代大模型训练的核心竞争力。提供数据合成、质量评估与安全过滤工具的服务商将受益。
* 潜在风险:
1. 技术路径不确定性:记忆(参数更新 vs. 架构革新)、空间智能(生成模型 vs. 预测模型 vs. 符号化模型)、元学习(显式 vs. 隐式)等领域存在多条并行技术路线,最终胜出标准尚未统一,投资特定技术路线存在赌错风险。
2. 工程化与规模化挑战:许多前沿研究(如Nested Learning、持续学习架构)仍处于实验室阶段,距离稳定、低成本的大规模工业应用尚有距离。工程化过程中的性能损耗、成本控制和系统稳定性是重大挑战。
3. 强化学习天花板:研究表明RL的性能提升遵循Sigmoid曲线而非幂律,存在明确的天花板。这意味着仅靠RL后训练无法无限提升模型能力,最终仍需依赖基座模型的根本性革新,这可能限制单纯优化RL技术的长期回报。
4. 合成数据依赖风险:过度依赖模型自身生成的合成数据可能导致“模型崩溃”,即错误累积和多样性丧失。尽管有清洗方法,但其长期影响和可靠性仍需观察,数据生态的健康度是潜在风险点。
5. 算力需求结构性变化:“测试时计算”范式强调推理阶段的算力消耗,可能改变AI算力市场的需求结构,从单纯的训练算力向推理算力倾斜,对现有算力供应商和模型部署方案提出新要求。
正文:
基于对2025年约两百篇人工智能领域论文的梳理,年度技术发展的总体特征是告别了单纯依靠堆砌参数的“暴力美学”时代,技术进步回归基础研究,重点围绕弥补AI在通往通用人工智能道路上的核心能力短板展开。
根据Yoshua Bengio提出的AGI认知框架,此前AI在一般知识上得分很高,但在即时推理、长期记忆、视觉处理等领域几乎空白。2025年的研究主要在上述短板领域取得了显著进展。
第一,在流体推理领域,技术进步的核心是“测试时计算”范式的确立与强化学习工程的精细化。
“测试时计算”指在模型推理阶段投入更多计算资源进行深度思考,其核心理念是智能不仅是参数的函数,也是时间的函数。以OpenAI的o1和DeepSeek的R1模型为代表,AI通过内部推演实现了“慢思考”,推理能力获得质变。
强化学习是提升推理能力的关键后训练手段。2025年的争论澄清了RL的作用:初期主要是“锐化”基座模型中已有的推理路径概率,后期则能“链接”低概率技能以解决新问题。工程上的进步集中在评分系统和参数更新算法:
1. 评分系统:基于可验证奖励的强化学习和稀疏奖励指标成为主流,在数学、代码等有明确对错的领域效果显著。为解决复杂推理中稀疏奖励可能失效的问题,引入了过程奖励评分系统进行辅助。对于缺乏明确真假的领域,探索方向包括人工制定复杂评分细则的外求法,以及利用模型自身确信度的内求法。
2. 参数更新算法:GPRO算法因其省去Critic模型、大幅节省显存和成本而流行。在其基础上衍生了多种优化变体,如Qwen的GSPO引入分值加权,Minimax的CISPO采用重要性采样以保留关键思考步骤。
研究也揭示了RL的局限性。Meta的ScaleRL研究指出,RL性能提升遵循Sigmoid曲线,存在天花板,无法无限提升模型智力上限。然而,目前距离天花板尚有距离,通过工程优化(如使用长思维链、大批次)仍能有效挖掘模型潜力。
第二,在长期记忆领域,研究致力于让模型具备内化、持续学习的能力,以克服“金鱼记忆”。
记忆实现方式包括上下文记忆、RAG增强记忆和参数内化记忆。2025年的突破主要体现在后两者:
1. 架构级突破:Google Research提出的Titans架构是一个可在推理时实时更新参数的深度神经长期记忆模块,它根据输入信息的“惊奇度”决定存储内容,并通过门控机制与注意力结合。Nested Learning架构则将模型参数按更新频率分层(低频、中频、高频),使整个模型能够持续学习而避免灾难性遗忘。这些均挑战了Transformer的无状态假设。
2. RAG的进化:RAG从静态资料库发展为具备反思与进化能力的系统。例如,DeepMind的ReMem框架引入了Action-Think-Memory Refine链路,对新信息进行内省、修剪、重组,并存储策略经验,实现经验复用。
3. 克服灾难性遗忘的微调技术:Meta提出的稀疏记忆微调通过在Transformer中添加独立内存层,仅更新与新知识相关性不高的槽位,大幅减少了旧知识遗忘。Thinking Machines提出的在策略蒸馏结合了RL的采样和SFT的密集反馈,实现了低成本且稳定的参数更新。
第三,在空间智能与世界模型领域,视频生成模型开始掌握物理规律,同时多技术路径并行发展。
1. 自监督生成模型路径:Sora 2、Veo 3等采用扩散Transformer架构的模型在视频生成质量上取得突破。Google DeepMind的Genie 3能生成可交互、物理规律一致的3D环境。技术进步得益于视觉自回归模型和DiT模型缩放定律的发现,尽管后者对批量大小和学习率更敏感。另一重要进展是VAE压缩器的替代方案出现,如快手的SVG模型直接用图像理解模型统一语义空间,提升了训练效率和生成质量。研究还表明,原生多模态模型在性能上限上可能优于后期融合模型。
2. 符号化世界模型路径:以李飞飞团队World Labs为代表,其产品Marble平台从多模态输入生成可探索的3D空间表示,可能基于3D高斯泼溅和神经辐射场技术,强调在物理约束下生成,追求稳定可控。
3. 预测式理解路径:以Yann LeCun和Meta的V-JEPA 2为代表,通过掩码预测任务训练模型理解视频中的物理规律。V-JEPA 2在更大规模数据训练后,展现出了根据动作预测未来状态的“推演”能力。
第四,在元学习领域,研究探索让AI“学会如何学习”。
强化学习之父Richard Sutton批评当前大语言模型缺乏实时学习和元学习能力。2025年的探索包括:
1. 利用与优化上下文学习:研究试图改进上下文学习框架,使其能作为一种元学习方法,让模型通过上下文自我反思形成新策略。
2. 优化测试时计算中的探索:研究将推理时的长思维链生成视为在思维空间的探索,并通过“累积遗憾最小化”等策略训练模型学会更有效地分配推理算力。
3. 显式元学习系统:DeepMind的DiscoRL通过内外双循环,让AI自主发现从“奖励最大化”转向“未来预测”的学习策略,并在新环境中展现泛化能力。Meta的“中训练”方法让AI在专家演示的每一步尝试不同动作并反思结果,从而建立因果模型。
神经科学研究为模型架构提供启发。例如,研究发现大脑通过“动态路由”机制组合不同的神经子空间来执行新任务,语言理解需要调用大脑其他专门区域。这启发了对模型进行功能分区的尝试。
第五,在其他基础领域也取得重要进展,支撑了整体能力的提升。
1. 应对数据与缩放瓶颈:面对互联网数据枯竭和训练难度增加,行业通过混合专家模型、合成数据与强化学习结合寻求突破。研究发现,高质量的长思维链合成数据对训练效果至关重要,筛选最复杂的前10%样本进行训练可匹配甚至超越全量数据集效果。同时,研究也提出了通过模型自我验证等方式来缓解合成数据可能导致的“模型崩溃”问题。
2. 小模型能力的飞跃:以Gemini 3 Flash为代表的小模型能力显著提升,主要得益于蒸馏技术的进步。针对混合专家模型的特化蒸馏方案让学生模型学习到教师模型所有专家的知识视角。思维融合蒸馏则通过共识去噪原理,有效将多个教师的长思维链能力融合迁移至小模型。
3. 注意力机制革新:多头潜在注意力因其能压缩显存占用而流行,常作为高性能组件嵌入混合架构。线性注意力技术(如Kimi Linear)在混合架构中证明了其可替代全注意力的潜力,并能大幅提升长上下文处理吞吐量。此外,大型概念模型和连续自回归语言模型等研究尝试打破离散Token限制,向连续语义空间演进,以提升生成效率和语义连贯性。
第六,基于2025年的进展,可预见2026年部分研究方向将更加深入并走向工程化。
1. 记忆技术工程化:随着Titans、Nested Learning等理论初步验证,记忆相关的架构革新或RAG增强系统有望在未来一至两年内实现产品化落地,对AI助手的个性化和持续学习至关重要。
2. 标准架构变革:分区、分层、增加专用功能层(如记忆层)的混合架构可能成为趋势,以更贴近人脑处理信息的方式,容纳元学习、持续学习等能力。
3. 自进化AI探索:在记忆、合成数据和元学习技术进步的基础上,让AI通过自我对弈、自我优化代码等方式实现进化的研究将会增多,尽管目前仍处于早期阶段。
发布时间:2026-01-12 16:41:06



评论 ( 0 )