OpenAI|SWE-Lancer:大模型能否在真实自由软件工程中赚取百万美元?
OpenAI推出SWE-Lancer评测集,包含1,400多个真实自由软件工程任务,总价值100万美元。任务分为两类:独立工程任务(IC SWE)和管理任务(SWE Manager)。IC SWE任务通过端到端测试严格评估,需完全通过才能获取报酬;SWE Manager任务则需选择最佳提案方案。测试结果显示,当前模型在真实任务中的表现仍有提升空间,pass@k曲线呈现显著上升趋势。该评测集为评估L
一、前言

SWE-Lancer: Can Frontier LLMs Earn $1 Million
from Real-World Freelance Software Engineering?
- paper:https://arxiv.org/pdf/2502.12115
- repo:https://github.com/openai/SWELancer-Benchmark/tree/main
- 数据:https://github.com/openai/SWELancer-Benchmark/tree/main/issues
OpenAI提出的项目级别的代码评测集
二、SWE-Lancer
Upwork 超过 1,400 个自由软件工程任务的基准测试,这些任务在现实世界中的总价值为 100 万美元, 包含着两种任务类型
- IC SWE:独立工程任务
- SWE Manager:管理任务
2.1 IC SWE

764个 价值414775美元
任务的难度范围很广,从只需 15 分钟即可修复的 bug 到需要数周时间才能完成的新功能请求。
使用由专业软件工程师团队创建的端到端测试来评估 IC SWE 任务。端到端测试使用浏览器自动化来验证应用程序行为,并模拟真实的自由职业者审核流程,并且经过经验丰富的软件工程师的三重质量验证。
通过所有的测试才能拿到报酬,否则收入为0
2.1.1 测试例子
测试case example:https://github.com/openai/SWELancer-Benchmark/blob/main/issues/104/test.py
利用python的playwright test工具模拟真实的review环节。
2.1.2 任务类型

主要是bugfix和new feature
2.2 SWE Manager

724个,价值585225美元
模型选择自由职业者根据招聘信息提交的竞争性提案,并从中选出最佳方案。
如果选择的方案是最佳方案(groundtruth)则可以拿到报酬,否则收入为0
三、结果
3.1 模型结果

3.2 pass@k规律

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)