ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

Karpathy提出强化学习局限性及新算法框架建议

2025-07-16

数据:

Karpathy提出AI系统学习的新范式,与传统强化学习的局限性进行比较,强调复盘学习的重要性。

线索:

Karpathy的观点可能会为AI领域的投资带来新机会,尤其是在自监督学习和复盘学习方面。同时,传统强化学习的投资风险可能加大,尤其是当其被广泛需求但缺乏实用突破时。

正文:

强化学习 (RL) 可能并非通往人工通用智能 (AGI) 的最佳路径。Karpathy在最新的发文中提议了一种新的学习范式,即模仿人类的反思与回顾,通过复盘学习获得新的进展,相比之下,传统的强化学习在效率上则显得不足。

Karpathy指出,RL的反馈机制仅通过最终的单一数值来评估任务成功与否,这在复杂且长时间的任务中极为有限。他强调,随着任务交互时间的延长,RL的有效性迅速下降,几小时的任务最终只返回一次反馈,是否足以支撑有效学习值得怀疑。

此外,与人类的学习机制相比,RL的模式显得不够全面。人类会在每次经历后进行复盘,从中汲取教训并使之内化,这让学习过程更为高效。Karpathy提到,ChatGPT的“记忆”功能可以看作是这一机制的初步探索,虽然当前的应用主要是个性化,而非解决更复杂的问题。

为了应对这些问题,Karpathy提出了一种新的算法框架,运行多次推演后,将所有推演中的数据汇总,通过一个元提示词进行复盘,提炼出有效的“教训”,并将其加入系统中。这种方式能够有效整合经验并提升学习效率,但实施细节仍需探讨,例如如何有效生成“教训”,避免人为干预。

尽管强化学习具备潜力,但Karpathy认为,现在的RL研究存在局限性,特别是在长时间推演中。而且,其他研究者如前OpenAI研究员Kevin Lu也呼吁关注更具实际意义的技术进步,认为互联网和数据的管理和利用才是提升AI能力的关键。

发布时间:

2025年7月16日 07:27:09

相关推荐

评论 ( 0 )

3.1 W

文章

52.5 W

点赞

回顶部