ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

专家指Transformer架构存局限,AI行业转向寻求架构突破

2025-12-23

摘要:多位人工智能领域专家指出,当前主流的Transformer架构存在根本性局限,可能无法支撑下一代智能体(Agent)。核心观点包括:该架构基于统计相关性,缺乏因果推理和物理理解能力;在处理长上下文时存在性能退化问题;仅依赖语言数据不足以构建通用人工智能。专家预测,未来五年内行业需要寻求新的架构突破,从依赖算力与数据规模的“规模化时代”回归注重底层创新的“研究时代”。

线索:若专家预判成真,AI行业底层架构的变革将带来产业链的洗牌与新的投资机会。风险方面:为Transformer优化的专用硬件(如特定AI芯片)可能面临挑战;依赖现有大模型路径的公司存在技术路线风险。机会方面:具备更强通用计算能力的硬件(如高端GPU)因其灵活性可能受益;高质量、多模态的数据(尤其是视频、物理世界传感器及机器人交互数据)将成为更关键的战略资源;在新型架构(如非线性RNN、因果推理模型、空间智能)方向有前瞻性布局的研究机构与企业,可能占据下一代AI发展的先机。

正文

在近期的一系列行业讨论中,多位顶尖人工智能科学家与研究者对当前主导AI发展的Transformer架构的长期适用性提出了质疑。

在2025年腾讯ConTech大会的圆桌论坛上,阶跃星辰首席科学家张祥雨指出,现有的Transformer架构无法支撑下一代智能体(Agent)。斯坦福大学教授李飞飞也在访谈中表示,现有架构可能难以产生高级抽象,并认为未来五年内,行业需要寻找新架构,以实现AI从统计相关性到因果逻辑与物理推理的跨越。前OpenAI联合创始人Ilya Sutskever同样判断,单纯依赖堆叠算力和数据的“规模化时代”正遭遇瓶颈,行业将重新回归注重底层创新的“研究时代”。

Transformer架构自2017年被提出后,已成为从BERT、GPT到DeepSeek等主流大模型的基础。其核心“自注意力机制”支持并行计算,并与GPU算力结合,推动了基于“尺度定律”的模型规模扩展。

然而,专家们指出了该架构的多个根本性局限:

1. 缺乏因果与物理推理:李飞飞指出,当前生成式AI基于“下一个Token预测”的目标函数,其本质是概率预测。模型通过海量数据学习相关性,但无法理解背后的因果机制。例如,生成视频中的物理现象是基于数据统计的模仿,而非基于物理定律的计算。Ilya Sutskever比喻称,当前模型像通过海量练习记忆考题的学生,缺乏真正的泛化与推理能力。

2. 长上下文处理缺陷:张祥雨指出,当前Transformer模型在处理长文本时存在显著退化,有效上下文长度约在8万个token左右。其根本原因在于架构的思考深度固定,信息流单向传递,无法因应输入长度增加而进行更深层的“思考”。Ilya Sutskever补充,人类拥有内在价值函数以进行快速预判,而Transformer缺乏此类机制,需平铺所有上下文信息进行决策,这在计算和逻辑上对面向持续环境的智能体而言不可持续。

3. 对物理世界的理解不足:李飞飞强调,仅靠语言数据不足以构建通用人工智能。将语言模型的范式简单移植到视觉任务,会导致生成的视频缺乏时空一致性。Ilya Sutskever提出了“样本效率”问题,指出人类凭借进化赋予的先验知识和物理直觉能快速学习技能(如驾驶),而AI则需要极其庞大的数据。当前的模型试图用数据掩盖对物理规律认知的匮乏。

面对这些挑战,专家们指出了未来的发展方向。Ilya Sutskever认为,行业正从“规模化时代”进入新的“研究时代”,需要系统性重构。李飞飞的研究方向是构建具有“空间智能”的模型,实现看、做、想象的闭环,未来架构可能是高度抽象的因果逻辑内核与丰富感官接口的混合体。张祥雨提到了“非线性RNN”的前瞻方向,这种架构支持信息在内部循环、反刍和推理,使模型具备类似人类的内部价值函数,能在输出前进行多步自我修正。Ilya Sutskever则认为,突破在于让AI拥有持续学习和高效强化学习的能力,从模仿转向具备直觉与品味的专家。

若底层架构发生变革,AI产业链将面临重塑。目前为Transformer优化的硬件基础设施可能面临挑战,通用GPU的灵活性价值可能凸显。同时,数据的价值将被重估,视频数据、物理世界传感器数据及机器人交互数据的重要性将大幅提升。

发布时间:2025-12-22 16:08:08

相关推荐

评论 ( 0 )

3.4 W

文章

64.4 W

点赞

回顶部