一、前言


SWE-Lancer: Can Frontier LLMs Earn $1 Million
from Real-World Freelance Software Engineering?

  • paper:https://arxiv.org/pdf/2502.12115
  • repo:https://github.com/openai/SWELancer-Benchmark/tree/main
  • 数据:https://github.com/openai/SWELancer-Benchmark/tree/main/issues

OpenAI提出的项目级别的代码评测集

二、SWE-Lancer

Upwork 超过 1,400 个自由软件工程任务的基准测试,这些任务在现实世界中的总价值为 100 万美元, 包含着两种任务类型

  • IC SWE:独立工程任务
  • SWE Manager:管理任务

2.1 IC SWE

764个 价值414775美元

任务的难度范围很广,从只需 15 分钟即可修复的 bug 到需要数周时间才能完成的新功能请求。

使用由专业软件工程师团队创建的端到端测试来评估 IC SWE 任务。端到端测试使用浏览器自动化来验证应用程序行为,并模拟真实的自由职业者审核流程,并且经过经验丰富的软件工程师的三重质量验证。

通过所有的测试才能拿到报酬,否则收入为0

2.1.1 测试例子

测试case example:https://github.com/openai/SWELancer-Benchmark/blob/main/issues/104/test.py

利用python的playwright test工具模拟真实的review环节。

2.1.2 任务类型

主要是bugfix和new feature

2.2 SWE Manager

724个,价值585225美元

模型选择自由职业者根据招聘信息提交的竞争性提案,并从中选出最佳方案。

如果选择的方案是最佳方案(groundtruth)则可以拿到报酬,否则收入为0

三、结果

3.1 模型结果

3.2 pass@k规律

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐