ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek-R1-Preview模型与OpenAI o1表现相当

2025-01-22

数据:

DeepSeek-R1-Preview的编程能力与OpenAI o1中档推理设置相当,已在LiveCodeBench中表现突出,意味着即将发布与OpenAI o1编程能力相当的开源模型。

线索:

DeepSeek-R1-Preview的发布可能会提升开源模型的普及度,对相关编程工具与教育领域产生影响,同时可能将编程工作的难度降低,带来技术替代风险。

正文:

最近,DeepSeek新推出的模型DeepSeek-R1-Preview在编程能力方面的表现引发了广泛关注。据消息称,虽然尚未正式发布,但该模型在代码基准测试LiveCodeBench中表现优异,逐渐与OpenAI的o1中档推理设置相当。需要注意的是,这并非是在DeepSeek官方App上可试玩的轻量版DeepSeek-R1-Lite-Preview,而是更大的基础模型。

LiveCodeBench团队已与DeepSeek进行了合作,以评估新模型的能力,并在此过程中修复了一些评分系统的bug。同时,DeepSeek展示了该模型的推理过程,表明其潜在的强大能力。网友们对此表示期待,因为DeepSeek此前已宣称R1模型将开源,与OpenAI o1相当的开源模型有望在2025年问世,这可能使得编程工作变得极其简单。

DeepSeek-R1-Lite-Preview的发布让用户体验到了模型的强大。该模型经过强化学习训练,推理过程中结合了大量反思和验证,体现了新的Scaling Laws,即推理时间越长,表现越好。在AIME测试基准上,该模型在推理时间延长时展现出稳定的得分提升。

DeepSeek-R1-Preview仍在难度较高的数学和代码任务上表现出色,甚至超过了o1-preview,进一步吸引了开发者的关注。LiveCodeBench是一个由UC伯克利、MIT和康奈尔大学联合推出的评估大模型代码能力的项目,通过不断更新的编程题目来确保测试的公平性与可靠性。

随着春节临近,许多国产大模型团队也在更新他们的模型,显示出AI领域竞争的加剧。OpenAI的o3-mini模型也即将推出,并有计划进行API和ChatGPT的更新。未来AI模型的集成和扩展将可能重塑编程行业的格局。

发布时间:

2025-01-19 15:53:00

相关推荐

评论 ( 0 )

2.2 W

文章

10.5 W

点赞

回顶部