数据:
OpenAI推出SWE-Lancer基准测试,涉及1400多个任务,总报酬达100万美元。
Claude 3.5 Sonnet获得最高收益403,325美元,优于GPT-4o和o1。
线索:
新基准测试为AI模型的编码能力提供了新的评估方式,可能吸引更多企业投入和使用AI解决方案。但随着竞争加剧,市场的变化也带来了风险,企业需要密切关注各模型的性能表现及其带来的实际效益。
正文:
OpenAI近期推出了一项名为SWE-Lancer的AI编码测试基准,旨在检验多种AI模型在现实软件工程任务中的表现。这次评测的背景是在马斯克发布Grok 3模型后,OpenAI希望评估AI在真实任务中创造收入的能力。SWE-Lancer由1400多个来自Upwork的自由软件工程任务组成,这些任务的总报酬接近100万美元。
参与评测的主要模型包括GPT-4o、o1和Anthropic的Claude 3.5 Sonnet。结果显示,Claude 3.5 Sonnet在这项测试中表现突出,累计赚取403,325美元,超出其他模型。这表明,尽管这些AI模型在理想状态下被广泛应用,但在复杂真实环境中的表现仍需更多提升。
SWE-Lancer专注于使用专业工程师设计的端到端(E2E)测试,为AI编码能力提供更为真实的评估。这一测试包含两种任务类型:独立开发者任务(IC SWE)和管理任务(SWE管理)。独立开发者任务考验模型生成代码以解决实际问题,而管理任务则侧重于技术负责人选择最佳实现方案。
初期分析显示,所有参与模型在整体SWE-Lancer数据集上所获得的报酬都显著低于可达的100万美元。通过率(pass@1)与报酬率在不同任务中造成了显著的表现差异,尤其是在IC SWE任务中的表现较弱,显示出模型在解决此类问题上存在较大提升空间。
实验还探讨了尝试次数对模型表现的影响,发现增加尝试次数可以显著提升通过率。对于计算资源的增加也显示出直接的正向效果,尤其是在高价值任务上。
研究指出,尽管Claude 3.5 Sonnet表现最佳,成功解决26.2%的IC SWE任务,但仍然存在一定的错误,尚需进一步提升其解决方案的可靠性。同时,所有模型在执行Bug修复类任务时表现相对较好,而在实现新功能方面则显得乏力。
这些发现表明,AI模型在处理现实世界的编程任务时依然面临诸多挑战,但对于顶尖表现和有效利用资源的模型来说,使用用户工具能极大提高准确度及解决问题的效率。
发布时间:
2025-02-20 07:26:21



评论 ( 0 )