徐扬 ∗∗1{ }^{* * 1}∗∗1, 肖扬 ∗∗2{ }^{* * 2}∗∗2, 方世凯 2{ }^{2}2, 先博文 1{ }^{1}1, 李远泰 1{ }^{1}1, 王健 1{ }^{1}1, 徐敏睿 Xu1\mathrm{Xu}^{1}Xu1, 潘浩然 1{ }^{1}1, 洪新鹏 1{ }^{1}1, 刘卫清 1,2{ }^{1,2}1,2, 沈叶龙 1{ }^{1}1, 陈伟珠 1{ }^{1}1, 卞江 1{ }^{1}1
1{ }^{1}1 微软亚洲研究院
1{ }^{1}1 微软GenAI
{xuyangl,xiaoyang, fangshikai, v-bxian, v-yuanteli, v-jianwan, v-xuminrui, v-haoranpan, v-xhong, Weiqing.Liu, Yelong.Shen, wzchen, Jiang.Bian}@microsoft.com
∗{ }^{*} 共同贡献. 1{ }^{1}1 对应作者。

摘要

近年来,人工智能(AI)和机器学习(ML)的发展已经彻底改变了数据科学领域,但日益增加的复杂性和专业知识需求仍然阻碍了进一步发展。尽管众包平台缓解了一些挑战,高级数据科学任务仍然需要大量的人力投入和迭代过程。为了解决这些限制,我们提出了R&D-Agent,一个用于迭代探索的双代理框架。研究员代理根据性能反馈生成想法,而开发者代理根据错误反馈优化代码。通过支持多条并行探索路径,并将它们合并和增强,R&D-Agent缩小了自动化解决方案与专家级表现之间的差距。在MLE-Bench上的评估显示,R&D-Agent是表现最佳的机器学习工程代理,展示了其在加速创新和提高各类数据科学应用精度方面的潜力。我们已在GitHub上开源R&D-Agent: https://github.com/microsoft/RD-Agent。

1 引言

过去十年中,人工智能(AI)和机器学习(ML)彻底改变了数据科学领域的格局,为各行业的难题解决开辟了新的可能性。从个性化的电子商务推荐(Ko等人,2022;Isinkaye等人,2015)到人工智能辅助医疗诊断(Khanna等人,2022;Shaheen,2021),组织利用海量数据集和不断改进的算法,取得了非凡的成果。然而,随着数据复杂性的增长,对专业化技能的需求也随之增加——需要有经验的数据科学家来构建合适的模型、解释复杂的模式,并有效迭代以达到最优解。

为了应对这一技能缺口,像Kaggle这样的众包平台通过提供一个协作论坛,汇聚了成千上万名专家和爱好者,从而蓬勃发展起来。这些社区既凸显了多样化视角的价值,也揭示了当前工作流程的局限性;尽管全球贡献者的集体力量强大,高级数据科学问题仍需大量的试错、深厚的领域知识和显著的时间投入。

最近,基于大语言模型(LLMs)的代理(Achiam等人,2023;Team等人,2023;Liu等人,2024)显著提高了各种任务的效率和有效性(Huang等人,2023;Li等人,2022;Liu等人,2023;Wang等人,2024)。这些代理在自然语言处理、机器翻译、复杂问题求解和推理等领域表现出卓越的能力。不同的团队提出了多个基准测试,用于衡量AI代理在机器学习工程中的表现,例如MLEbench(Chan等人,2024)、DSBench(Jing等人,2024)、DiscoveryBench(Majumder等人,2024)、InsightBench(Sahu等人,2024)等。根据这些研究中的报告结果,使用最新LLMs的最先进的(SOTA)解决方案在机器学习工程中的表现仍然不佳,远远低于人类专家的能力。

关键在于,数据科学项目通常依赖于迭代洞察——即随着新知识的出现,反复进行探索、测试和优化的过程。即使两个项目具有相同的整体目标,数据分布、样本大小或领域约束的变化也可能要求截然不同的优化路径。专家数据科学家会根据每次实验迭代的反馈——无论是关于特征重要性、模型拟合还是资源限制——系统地调整他们的方法。由于每次迭代可能既昂贵又耗时,这些项目更注重精心设计的探索策略,而不是依赖随机或蛮力尝试。

鉴于这些挑战,我们认为成功的机器学习工程代理必须通过迭代探索主动学习和适应。它应该整合领域洞察,生成更深入的假设,并根据部分发现优化其方法,而不是依赖单一的解决方案路径。基于这些目标,本文介绍了R&D-Agent,一种新型框架,旨在推动广泛行业中的数据驱动项目的更有效探索。通过提升研究探索的效率和开发的精确性,R&D-Agent希望缩小自动化智能与专家级数据科学之间的差距,加速最需要创新的地方。

特别是,R&D-Agent的设计由以下两个关键原则指导:

  1. 专门的R&D角色:该框架采用了两个专业代理——“研究员”和“开发者”,分别对应每一步探索中提供的两种反馈类型:解决方案性能和执行错误信息。研究员代理处理性能反馈以推动高效探索(即想法生成),而开发者代理利用执行日志迭代优化解决方案实现(即代码生成)。专门设计用于特定任务并配备相应反馈的代理可以促进更高效的探索。
    1. 相互增强的多条探索路径:该框架支持多条探索路径并行运行,并促进高级相互增强。例如,可以从现有检查点启动新的探索路径,或将不同路径的检查点合并以生成更强大的复合解决方案。这些功能不仅能够并行探索单个数据科学任务,还能增强单个探索路径的表现,从而显著提升整体探索效率。
      值得注意的是,框架设计提供了极大的灵活性以整合多样化的研究成果。这种能力不仅提升了研究探索的效率,还增强了开发的精确性——所有这些都通过我们的R&D-Agent框架提供的简单API调用来实现。最终,这种协同作用产生了一个更加稳健的数据科学自动化系统。

2 R&D-AGENT

R&D-Agent的框架如图1所示。系统由两个主要组件组成:研究代理和开发代理。研究代理将向开发代理提出研究思路,开发代理则负责实现该思路并测试所提解决方案的性能。

2.1 专门的R&D角色

分配专门的R&D角色有助于解决一系列任务中的复杂问题,包括机器学习工程。当涉及到基于LLM的代理时,同样的设计原则同样适用。这种方法类似于团队通常如何为人们分配不同角色,例如研究人员和开发人员,使我们能够利用已建立的研究和开发经验。反过来,系统可以从实践中收集知识和见解,这与人类的直觉和经验相符,甚至可以启发领域专家。这些经验教训然后可以应用于新任务。另一方面,有许多具有不同优势的LLM基础模型。例如,像o1这样的模型非常擅长推理和提出创造性想法,而像GPT-4.1这样的模型则非常擅长遵循指令和实现解决方案。通过为每个代理分配最适合其角色的模型,我们可以组建一个更有效的团队并取得更好的结果。

研究代理专注于从经验和探索中学习。它向开发代理提出研究方向,分析收到的反馈,然后完善其想法。通过这个学习和探索的循环,研究代理不断改进并发现更好的解决方案。学习过程依赖于过去的或外部的经验。随着新知识的获取,它被收集和整理成一个知识库。这个知识库帮助系统完善其想法或提出新的想法。对于探索过程和搜索策略,我们提出了一个新的多路径想法探索方法,这使得能够在解决方案空间中进行并行、多样和协作的探索。这部分将在第2.2节中详细说明。

开发代理专注于开发和完善所提议想法的工程方面。所提议的想法通常只涵盖解决方案的关键思想,并以自然语言作为高层次描述表达,需要实现。在许多情况下,重要的工程考虑因素没有得到充分解决(例如,解决方案必须在给定的资源预算内完成运行);开发代理开发并增强这些方面,以确保更完整和实用的解决方案。为了提高开发效率,该过程分为两个阶段:1)开发可运行的解决方案和2)运行解决方案。在第一阶段,开发代理通过在采样数据集上迭代调试创建可运行的解决方案,类似于人类开发人员的工作方式。在第二阶段,开发代理在完整数据集上运行解决方案以评估其性能。在数据科学中,训练模型通常涉及大型数据集。通过让开发代理首先在较小的采样数据集上迭代,整个过程变得更加快速和高效。这种方法允许代理在完整数据集上运行之前快速测试和优化解决方案,大大加快了整体开发速度。

2.2 多路径IDEA探索

在复杂的数据科学和机器学习工程任务中,单一的线性探索路径往往不足以发现高质量的解决方案。R&D-Agent引入了一种多路径探索机制,该机制能够并行、多样和协作地探索解决方案空间。本节详细阐述了这一设计背后的动机及其架构原则。

动机和设计原则:自动机器学习工程中的一个基本挑战是由于单一配置的限制而导致收敛于次优解的风险。探索路径本质上受其初始化的约束——包括后端LLM的选择、提示结构、可用工具和支持知识库。这些约束可能会严重偏向探索路径,导致停滞或过早收敛。为了解决这个问题,R&D-Agent支持多个探索路径的并行执行,每个路径都配置了异构参数。这些包括提示策略、模型后端、领域特定工具、探索启发式方法,甚至是知识范围的变化。这种多样性增加了从不同角度发现有价值见解的可能性,并避免了因统一假设造成的狭窄搜索轨迹。

除了多样性,R&D-Agent还旨在扩展。其多路径系统实现了逻辑和物理并行性。每个路径作为一个独立的研究代理,在计算节点、容器或线程上异步执行。这种设计允许系统在分布式环境中水平扩展,最大化资源利用率并大幅减少解决方案时间。这种并行性在高复杂度任务中尤为重要,因为暴力搜索或单线程搜索在计算上是不可行的。

更重要的是,并行性本身并不足够。如果没有协调,多个路径可能会浪费资源在冗余探索或坚持无前途的方向上。为了解决这个问题,R&D-Agent引入了跨路径协作协议,规定路径如何交互、评估进展和做出自适应决策。每个路径根据诸如解决方案质量、新颖性、资源成本和错误恢复能力等指标维护一个性能配置文件。一个集中模块将跟踪这些配置文件并做出动态决策,例如终止无生产力的路径、生成具有修改配置的新路径或启动路径融合。重要的是,路径还可以共享中间结果——例如有效的特征集或部分模型——从而创建一个集体学习过程,其中一个路径的成功能为其他路径提供信息。

这种多样性的原则组合、可扩展性和协作构成了R&D-Agent多路径探索的基础,推动了数据驱动研发的有效和稳健进展。

多路径融合以获得更强的解决方案:多路径探索的一个重要结果是能够将多个路径的优势结合起来,形成单一的高性能解决方案——我们称之为多路径融合。与其他路径孤立选择最佳路径不同,R&DAgent提供了一种机制,将来自几个有希望的路径的部分结果进行组合集成。这种策略使系统能够充分利用每个路径发现的互补优势。

融合过程在数据科学工作流程的多个粒度级别上运行。例如,一条路径的特征生成技术可以与另一条路径的模型架构结合,第三条路径的后处理启发式方法也可以结合。每个路径的组件根据实用性、新颖性、兼容性和性能影响进行评估和评分。然后使用可配置的融合策略,如贪婪选择、加权投票或优化引导融合,来组装最终解决方案。

R&D-Agent的一个关键优势是其灵活且可定制的融合设计。用户可以在过程的每个阶段定义特定领域的控制和融合规则:

  • 在路径演变过程中,用户可以根据性能阈值、时间使用或探索步骤指定早期停止和生成新路径的约束条件。
    • 在信息交换过程中,用户可以确定哪些中间输出(例如代码片段、错误日志、指标)在路径之间共享。
    • 在融合阶段,用户可以自定义组件兼容性规则、聚合函数,甚至插入学习的评分模型。
      这种灵活性确保R&D-Agent能够适应广泛的應用领域和工程偏好。无论是在金融、医疗保健还是工业AI领域,系统的可组合性和可扩展性都允许从业者根据特定领域的需要塑造探索过程。

通过支持模块化集成和跨路径学习,多路径融合机制不仅提高了最终解决方案的质量,还加速了收敛并增强了代理的适应性。这种设计对于从孤立的试错自动化转向智能的集体研发探索至关重要。

3 实验

3.1 实验设置

应用数据科学中的典型场景是Kaggle竞赛。R&D Agent在MLE-Bench中利用其能力,评估代理解决涉及设计、构建和训练机器学习模型的Kaggle挑战的能力。我们将设置与基准对齐,给R&D Agent 24小时,虚拟环境、GPU、数据集和针对解决方案的竞争指示。

我们为R&D Agent提供的环境包括12个vCPU、220GB内存和1个V100 GPU,以及Azure OpenAI服务。实验的目标总结如下:

  • 评估具有专门R&D角色的研发能力
    • 评估多路径在想法探索中的优势

3.2 结果

表1:MLE-Bench上的性能比较。每列的最佳结果用粗体表示。

代理 Low ====== Lite (%) Medium (%) High (%) All (%)
AIDE (Jiang et al., 2025)
o1-preview 34.3±2.434.3 \pm 2.434.3±2.4 8.8±1.18.8 \pm 1.18.8±1.1 10.0±1.910.0 \pm 1.910.0±1.9 16.9±1.116.9 \pm 1.116.9±1.1
R&D-Agent
o1-preview 48.18±2.4948.18 \pm 2.4948.18±2.49 8.95±2.368.95 \pm 2.368.95±2.36 18.67±2.9818.67 \pm 2.9818.67±2.98 22.4±1.122.4 \pm 1.122.4±1.1
o3®+GPT-4.1(D) 51.52±6.21\mathbf{5 1 . 5 2} \pm \mathbf{6 . 2 1}51.52±6.21 7.89±3.337.89 \pm 3.337.89±3.33 16.67±3.6516.67 \pm 3.6516.67±3.65 22.45±2.4522.45 \pm 2.4522.45±2.45
o3®+GPT-4.1(D)-Multi.Trace 50.54±2.5150.54 \pm 2.5150.54±2.51 9.86±3.89\mathbf{9 . 8 6} \pm \mathbf{3 . 8 9}9.86±3.89 20.00±8.16\mathbf{2 0 . 0 0} \pm \mathbf{8 . 1 6}20.00±8.16 24.00±0.94\mathbf{2 4 . 0 0} \pm \mathbf{0 . 9 4}24.00±0.94

表1总结了不同代理在MLE-Bench上的性能,这是一个按复杂度分类Kaggle风格竞赛的基准套件。表格的每一行对应一个特定的代理配置:下面部分的行展示的是所提出的R&D-Agent的不同变体(两个使用o3进行研究和GPT-4.1进行开发,另一个仅使用o1-preview进行两个角色),上面部分报告的是AIDE o1-preview(Jiang等人,2025)的结果,这是之前的公开最佳表现者。列显示了每个代理在分组为三个复杂度级别的比赛中的成功率(百分比)——低(Lite)、中等和高——以及在所有任务中的总体表现。基准的复杂度类别由估计的有经验的ML工程师创建基本解决方案所需的时间定义:低(Lite)为不到2小时,中等为2-10小时,高为超过10小时(不包括模型训练时间)。对于每个单元格,报告平均值和标准差,反映多次实验运行的变异性。为了确保统计可靠性,R&D-Agent o1-preview的性能数字是基于五个随机种子的平均值,而R&D-Agent o3®+GPT-4.1(D)则是基于六个种子的平均值。

在这份简短的技术报告中,我们展示了选定的关键结果——展示最新的模型上表现最好的配置——以突出R&D-Agent的有效性和潜力。结果显示,当使用相同的LLM后端时,R&D-Agent比AIDE基线表现得更好,尤其是在低(Lite)和高类别中。这表明R&D-Agent的基本系统设计更符合解决机器学习工程问题的方法,从而产生了更稳健和高质量的结果。此外,我们探索了一种混合策略,使用后端LLM实现快速、经济有效的探索,以满足现实世界的要求。与其它未发表的实验结果相比,我们的方法——通过分配o3作为研究代理(利用其创造性的构思优势)和部署GPT-4.1作为开发代理(利用其优越的指令跟随能力)——不仅满足现实世界的要求,而且产生的结果匹配或超过我们最强的基线。这证明了分配专门的研究和开发角色的价值。
为了进一步评估RD-Agent的多路径探索和融合能力,我们在MLE-Bench设置下设计了一个专用实验,明确利用并行探索、信息交换和最终路径融合。

在此设置中,我们使用了异构配置,o3作为研究代理,GPT-4.1作为开发代理,使每个代理都能在其各自的优势——创意和执行上进行专业化。我们启动了两条独立的探索路径,每条路径在相同任务约束下最多运行11小时。在此阶段,每条路径追求不同的解决方案策略,由多样化的提示、变化的知识库配置和不同的工具链引导。为了增加多样性和减少冗余,我们实施了一个信息交换协议:在启动第二条路径之前,它被授予访问第一条路径的探索历史和失败案例的权限。这确保了第二条路径可以避免重复无效策略,而是专注于新颖的方向。

在最后的两小时内,代理启动了融合阶段。在此阶段,它合并了:

  • 代码模块(例如,特征工程、模型训练例程),
    • 想法(例如,关于任务分析或模型设计的假设),
    • 两条路径的性能和错误反馈。
      这产生了一个综合解决方案,保留了每条探索中最令人满意的元素,并解决了不一致之处。如果时间允许,系统将继续迭代融合解决方案,直到24小时的时间限制到达。最后,所有有效的解决方案候选者——包括来自单独路径和融合的——都被评估。代理根据综合评分函数选择最终提交,该函数考虑了验证性能、解决方案的鲁棒性和过度拟合风险,这些是从得分曲线和模型诊断中得出的。

在正在进行的工作中,我们正在探索额外的设置以进一步验证和扩展这一策略。这些包括:

  • 替代的早期停止策略,例如基于停滞性能而非固定时间预算来终止路径;
    • 将领域知识注入其中一条路径,模拟专家提示或历史见解以引导探索;
    • 自适应融合时间,基于路径进展动态触发融合,而非固定时间分割。
      这些配置的消融研究目前正在开发中,并将在本报告的未来版本中发布。

4 结论和未来工作

在本技术报告中,我们介绍了R&D-Agent框架用于特定场景——机器学习工程,并展示了它如何自动化构建数据驱动的AI解决方案的过程。我们还分享了一些初步结果,以概述我们当前的研究。R&D-Agent是一个灵活的框架,可以支持不同类型解决方案,我们有希望的早期结果表明这是一个值得探索的有价值的领域。此外,虽然机器学习工程只是研究和开发的一个领域,但我们相信R&D-Agent可以用于许多其他场景。在未来的工作中,我们计划提供更多关于我们方法的技术细节,并展示更全面的实验结果。

5 致谢

我们要感谢同事张雨歌、刘泽华、王乐文、刘洋和孙思昭的持续贡献,以及他们在我们定期讨论中提供的宝贵反馈和建议。

参考文献

Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, 等人. Gpt-4 技术报告. arXiv 预印本 arXiv:2303.08774, 2023.

Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, 和 Aleksander Madry. Mlebench: 评估机器学习代理在机器学习工程中的表现. 2024. URL https://arxiv.org/abs/2410.07095.

Qian Huang, Jian Vora, Percy Liang, 和 Jure Leskovec. Mlagentbench: 评估语言代理在机器学习实验中的表现. arXiv 预印本 arXiv:2310.03302, 2023.

Folasade Olubusola Isinkaye, Yetunde O Folajimi, 和 Bolande Adefowoke Ojokoh. 推荐系统:原理、方法和评估. Egyptian informatics journal, 16(3):261-273, 2015.

Zhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, 和 Yuxiang Wu. Aide: 代码空间中的人工智能驱动探索. 2025. URL https://arxiv. org/abs/2502.13138.

Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, 和 Dong Yu. Dsbench: 数据科学代理距离成为数据科学专家还有多远?arXiv 预印本 arXiv:2409.07703, 2024.

Narendra N Khanna, Mahesh A Maindarkar, Vijay Viswanathan, Jose Fernandes E Fernandes, Sudip Paul, Mrinalini Bhagawati, Puneet Ahluwalia, Zoltan Ruzsa, Aditya Sharma, Raghu Kolluri, 等人. 医疗保健中人工智能经济学:诊断与治疗. In Healthcare, volume 10, pp. 2493. MDPI, 2022.

Hyeyoung Ko, Suyeon Lee, Yoonseo Park, 和 Anna Choi. 推荐系统综述:推荐模型、技术和应用领域. Electronics, 11(1):141, 2022.

Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, 等人. AlphaCode级别的代码生成竞赛. Science, 378(6624):1092-1097, 2022.

Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, 等人. Deepseek-v3 技术报告. arXiv 预印本 arXiv:2412.19437, 2024.

Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, 等人. Agentbench: 评估LLM作为代理. arXiv 预印本 arXiv:2308.03688, 2023.

Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Bhavana Dalvi Mishra, Abhijeetsingh Meena, Aryan Prakhar, Tirth Vora, Tushar Khot, Ashish Sabharwal, 和 Peter Clark. Discoverybench: 朝向数据驱动发现的大规模语言模型. arXiv 预印本 arXiv:2407.01725, 2024.

Gaurav Sahu, Abhay Puri, Juan Rodriguez, Amirhossein Abaskohi, Mohammad Chegini, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, 等人. Insightbench: 通过多步洞见生成评估商业分析代理. arXiv 预印本 arXiv:2407.06423, 2024.

Mohammed Yousef Shaheen. 医疗保健中人工智能(AI)的应用:综述. ScienceOpen Preprints, 2021.

Gemini Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, Katie Millican, 等人. Gemini: 一组高度功能的多模态模型. arXiv 预印本 arXiv:2312.11805, 2023.

Xingyao Wang, Boxuan Li, Yufan Song, Frank F Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, 等人. Opendevin: 一个面向AI软件开发者的开放平台作为通用代理. arXiv 预印本 arXiv:2407.16741, 2024.

参考论文:https://arxiv.org/pdf/2505.14738

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐