数据:
今日凌晨,月之暗面发布了针对软件工程的全新开源代码大模型Kimi-Dev-72B。该模型在SWE-bench Verified编程基准测试中取得60.4%的高分,成为全球最高开源模型,参数量仅为72B,超越新版DeepSeek-R1。
线索:
Kimi-Dev-72B的表现引发了关于开源AI模型在软件工程领域的潜力和创新的讨论,但也存在一定风险。随着开源技术的快速发展,投资者需关注如何利用这一技术突破的机会,同时要警惕由于商业模式不佳或市场需求变化所带来的风险。
正文:
月之暗面最近推出了Kimi-Dev-72B,这是一个针对软件工程任务的开源代码大模型。该模型在SWE-bench Verified编程基准测试中获得了60.4%的高分,成为全球开源模型的领先者。值得注意的是,Kimi-Dev-72B在参数量仅为72B的情况下,超过了5月28日发布的新版DeepSeek-R1,该模型的参数量达到671B。
Kimi-Dev-72B通过大规模强化学习进行了优化,能够自主修复Docker中的真实存储库,并仅在整个测试套件通过时获得奖励,从而确保了解决方案的正确性和稳健性,符合实际开发标准。该模型现已在Hugging Face和GitHub上提供,包含模型权重和源代码,技术报告也将发布。
关于Kimi-Dev-72B的设计理念,主要包括BugFixer和TestWriter的组合、中期训练、强化学习以及测试时的自我博弈。BugFixer和TestWriter的设计旨在通过精确的单元测试修复错误,并确保功能模块健壮性。月之暗面利用约1500亿个高质量的真实数据进行了中期训练,以增强模型对Bug修复和单元测试的理解。
在强化学习阶段,Kimi-Dev-72B专注于提升其代码编辑能力,通过结果导向的奖励机制、优化的提示集和正例强化进行训练。此外,模型在测试时运用自我博弈技术,会生成若干个补丁和测试候选,显示出其在实际应用中的广泛适应性。
月之暗面计划在未来的迭代中扩展Kimi-Dev-72B的功能,并探索更复杂的软件工程任务,着重与集成开发环境(IDE)、版本控制系统及持续集成/持续部署(CI/CD)流水线的深度集成,以更加无缝地融入开发者的工作流程。该公司承诺持续改进该模型,并进行严格的红队测试。
发布时间:
2025-06-17 13:57:00
评论 ( 0 )