ResearchAgent: 用大语言模型迭代生成科研创意(附:顶级AI实验室都在用的“创意风暴”Prompt)
科学研究是推动人类进步的重要力量,但研究过程本身却异常缓慢和复杂。**研究人员不仅需要深入理解已有的研究成果,还要从海量文献中找到知识空白,并提出创新的研究想法**。

原文:ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
地址:https://arxiv.org/abs/2404.07738
出版:ArXiv(预印本)
机构: 韩国科学技术院(韩国)、微软研究院(美国)
1 引言
科学研究是推动人类进步的重要力量,但研究过程本身却异常缓慢和复杂。研究人员不仅需要深入理解已有的研究成果,还要从海量文献中找到知识空白,并提出创新的研究想法。然而,科学文献的增长速度惊人——每年全球发表的学术论文超过700万篇,阅读和消化这些知识需要耗费研究人员大量的时间和精力。更重要的是,真正有影响力的创新往往来自于两个方面:一是对已有工作的深刻理解,二是跨领域、跨学科的思想碰撞。传统的研究方式依赖人类研究者手工完成这些工作,效率低下且容易遗漏重要信息。与此同时,近年来大语言模型展现出了惊人的知识储备和推理能力,它们能够处理和分析远超人类速度和规模的海量数据,并且已经在数学、物理、医学等多个专业领域表现出超越人类专家的能力。这使得利用AI来辅助科学研究的想法生成阶段成为可能。
综合而言,本文面临的挑战主要体现在以下几个方面:
- 文献过载问题:科学文献呈爆炸式增长,研究人员难以全面掌握相关领域的所有重要工作,容易遗漏关键信息
- 跨学科创新困难:真正有影响力的创新往往需要跨领域的知识融合,但研究者的知识范围有限,难以发现不同领域间的潜在联系
- 缺乏系统性方法:现有的研究想法生成主要依赖研究者的个人经验和灵感,缺乏系统化的流程和方法论指导
- 反馈机制不足:研究想法的质量评估和改进往往需要经过多轮同行评审,但这个过程耗时长且反馈不及时
针对这些挑战,本文提出了一种基于大语言模型的"ResearchAgent自动研究想法生成"系统:
ResearchAgent的核心思想是:让AI像人类研究者一样,系统性地阅读文献、整合跨领域知识、并通过多轮评审不断完善研究想法。具体来说,系统分三步工作:第一,从一篇核心论文出发,通过引用关系找到相关文献,就像研究者做文献综述一样;第二,构建一个"实体知识库",从海量论文中提取关键概念(比如"数据库"、“CRISPR"等),并记录这些概念在不同领域的出现频率,这样就能发现跨学科的潜在联系——比如发现"数据库"在医学领域也很重要,从而启发在血液学研究中应用数据库技术;第三,系统会像人类研究团队一样,创建多个"AI评审员”,这些评审员会从新颖性、可行性、重要性等多个角度对生成的想法进行评分和反馈,然后系统根据反馈不断改进想法。整个过程完全自动化,不需要额外训练模型,可以直接应用到任何科研领域。最关键的是,这些AI评审员的评价标准是从真实研究者的评审意见中学习得来的,确保了评审质量与人类专家保持一致。
2 研究方法

图1. ResearchAgent系统架构图:这是论文的核心算法框图,详细展示了ResearchAgent的完整工作流程。图分为两个主要部分:(A)科学知识来源部分,展示了三种知识输入:核心论文、学术图谱(通过引用关系连接的相关论文网络)、以及实体中心知识库(从大量论文中提取的实体共现统计信息);(B)系统化的研究创意生成方法部分,展示了从问题识别、方法开发到实验设计的完整流程,并特别强调了通过ReviewingAgents(审稿智能体)进行迭代式优化的过程。这些审稿智能体会根据人类评判标准提供反馈,帮助系统不断改进生成的研究创意。整个流程清晰地展现了如何将海量科学知识与大语言模型的推理能力相结合,最终产生高质量的研究创意。
2.1 基于大语言模型的研究创意生成框架
ResearchAgent系统的核心目标是利用大语言模型来自动生成完整的研究创意。那么什么是完整的研究创意呢?论文认为,一个完整的研究创意应该包含三个关键要素:首先是研究问题(Problem),即要解决什么新颖的科学问题;其次是研究方法(Method),即提出什么创新的解决方案;最后是实验设计(Experiment),即如何验证这个方案的有效性。
具体来说,ResearchAgent将研究创意生成过程形式化为一个数学问题。假设我们有大量的科学文献 ,系统的目标就是从这些文献中生成一个研究创意 ,其中 代表问题, 代表方法, 代表实验设计。论文将整个生成过程分解为三个连续的步骤:首先根据文献生成问题 ,然后基于问题和文献开发方法 ,最后根据问题、方法和文献设计实验 。
这就好比一个研究生在导师指导下做研究:首先需要通过阅读文献找到一个值得研究的问题,然后思考用什么方法来解决这个问题,最后设计实验来验证方法的有效性。ResearchAgent正是模仿了这个自然的研究流程,只不过是由大语言模型来扮演研究生的角色。
论文使用GPT-4这样的大语言模型来实现函数 。直觉上,大语言模型之所以能够胜任这个任务,是因为它在预训练阶段已经从海量的科学文献中学习到了丰富的知识。通过精心设计的提示词模板(Prompt Template),可以引导大语言模型按照特定的格式和要求生成高质量的研究创意。如图1的(B)部分所示,整个生成过程是一个有序的流水线:从问题识别开始,逐步推进到方法开发和实验设计,每一步都以前一步的输出作为输入,确保了研究创意的连贯性和逻辑性。
2.2 基于引用图谱的文献调研
虽然大语言模型拥有丰富的知识,但它的输入长度是有限的,不可能把所有的科学文献都输入给模型。那么如何选择最相关的文献呢?ResearchAgent的解决方案是模仿人类研究者阅读文献的方式——通过引用关系来扩展阅读范围。
具体来说,系统首先选择一篇核心论文 作为起点。这篇核心论文的选择标准是高影响力,比如在发表3个月内就获得了超过100次引用。这样的论文通常代表了某个领域的前沿研究或重要突破。举个例子,如果选择的核心论文是GPT-3的原始论文,那么它必然代表了大语言模型领域的一个重要里程碑。
接下来,系统通过学术图谱找到与核心论文直接相关的其他论文 。这些相关论文可能是引用了核心论文的后续工作,也可能是核心论文引用的前序研究。但是,一篇高影响力论文的引用数量可能非常庞大,不可能全部纳入分析。因此,系统会进一步筛选:通过计算论文摘要之间的语义相似度,只保留那些与核心论文最相关的文献。
如图1的(A)部分所示,以GPT-3论文为核心,学术图谱展示了它与RLHF(人类反馈强化学习)、Physics(物理学相关应用)等其他论文的引用关系。这种基于引用图谱的文献调研方法简单直观,能够帮助系统快速定位到最相关的研究背景和前沿动态。
然而,这种方法也有明显的局限性:它只能看到那些已经明确引用关系的论文,而无法发现那些虽然没有直接引用关系、但在概念或方法上相关的跨领域研究。这就引出了下一个关键创新点。
2.3 实体中心的知识增强机制
论文的一个核心创新在于提出了实体中心的知识增强机制,这个机制能够帮助系统发现跨领域的知识联系,从而产生更具创新性的研究创意。那么什么是实体呢?简单来说,实体就是科学文献中的关键概念、术语或主题,比如"数据库"、“量子力学”、"CRISPR"等。
论文将实体视为知识的原子单位。为什么这么说呢?因为实体可以很容易地从不同学科、不同类型的论文中提取出来,然后以统一的方式进行存储和检索。举个例子,无论是医学论文还是计算机科学论文,只要提到"数据库"这个概念,我们都可以将其识别和提取出来。
ResearchAgent构建了一个大规模的实体知识库 ,这个知识库是一个 的稀疏矩阵,其中 是所有唯一实体的总数。矩阵中的每个元素记录了两个实体在同一篇论文中共同出现的次数。具体来说,系统使用现成的实体链接工具(BLINK)从所有可用的科学论文中提取实体。对于每篇论文 ,系统会提取其标题和摘要中出现的所有实体,形成一个实体集合 。然后,系统会统计这些实体之间的共现关系,并将统计结果累积到知识库 中。
这就好比建立一个超大型的"概念关联网络"。比如,如果"数据库"和"血液学"(hematology)这两个实体在医学领域的论文中频繁共现,但在血液学的细分研究中出现较少,那么知识库就能捕捉到这种跨领域的潜在联系。当系统为一篇关于血液学的论文生成研究创意时,就可能推荐"数据库"这个实体,从而启发研究者考虑将数据库技术应用到血液学研究中。
那么如何从知识库中检索相关实体呢?论文提出了一个基于概率的检索公式。假设我们已经有了一组来自核心论文和相关引用论文的实体集合 ,目标是从知识库中检索出 个最相关的外部实体。检索的目标可以形式化为:
其中 是候选的外部实体。通过应用贝叶斯规则并假设实体之间相互独立,这个检索操作可以近似为:
这个公式的直觉是:一个好的外部实体应该与当前文献中已有的实体有较强的关联( 较大),同时这个实体本身在科学文献中也应该有一定的重要性( 较大)。这些概率可以通过知识库 中的共现统计数据进行归一化计算得到。
举个具体的例子,如图1所示,对于GPT-3这篇核心论文,系统从学术图谱中识别出了RLHF和Physics等相关论文,同时从实体知识库中检索出了CoT(Chain-of-Thought,思维链)这个实体。虽然CoT可能没有在GPT-3的直接引用论文中出现,但它作为一个重要的提示工程技术,与GPT-3在大量其他论文中共同出现过17,326次。通过这种方式,系统能够发现跨研究方向的知识联系,从而激发出更具创新性的研究想法。
最终,增强后的研究创意生成过程可以表示为:,即大语言模型接收相关论文和检索到的实体作为输入,通过精心设计的模板 来生成完整的研究创意。
2.4 迭代式研究创意优化
即使是人类研究者,也很难一次性写出完美的研究方案。通常需要经过多轮修改和完善,特别是在获得同行评议和导师反馈之后。ResearchAgent通过引入ReviewingAgents(审稿智能体)来模拟这个迭代优化过程。
具体来说,系统会为生成的每个研究创意组成部分(问题、方法、实验设计)分别实例化5个审稿智能体,每个智能体关注一个特定的评价维度。例如,对于研究问题,评价维度包括清晰度(Clarity)、相关性(Relevance)、原创性(Originality)、可行性(Feasibility)和重要性(Significance)。这些审稿智能体会仔细阅读生成的内容,然后根据各自负责的评价标准提供详细的评审意见和改进建议。
这就好比论文投稿后会收到多个审稿人的意见,每个审稿人可能关注论文的不同方面:有的审稿人关注研究问题是否重要,有的关注方法是否严谨,有的关注实验设计是否合理。ResearchAgent正是模仿了这个多角度审查的过程,确保生成的研究创意能够经受住多方位的审视。
但是,如何确保这些审稿智能体的评价标准与真实人类研究者的偏好一致呢?这是一个关键挑战。论文提出了一个巧妙的解决方案:通过少量的人类标注来自动生成评价标准。
具体做法是:首先,论文作者请了10位至少发表过3篇论文的研究者,让他们对10对研究创意进行打分(采用5分制李克特量表)。然后,系统将这些人类标注的数据提供给大语言模型,让模型从中归纳出每个评分等级对应的详细评价标准描述。举个例子,对于"清晰度"这个维度,模型可能会归纳出:1分表示"问题定义极其模糊,充满歧义";3分表示"问题陈述直白但缺乏深度和具体性";5分表示"问题表述异常清晰、简洁、具体,没有任何误解的空间"。
通过这种方式,系统将人类专家的判断标准转化为了可操作的评价准则,使得审稿智能体能够提供与人类偏好对齐的反馈。如图1的(B)部分所示,审稿智能体会根据这些人类诱导的评价标准,为ResearchAgent生成的每个研究创意提供评审和反馈。ResearchAgent会根据这些反馈进行修改和完善,然后再次提交给审稿智能体进行评审。这个过程可以迭代多轮,直到研究创意的质量达到令人满意的水平。
论文的实验表明,经过3-4轮迭代优化后,生成的研究创意在各个评价维度上都有显著提升,特别是在原创性和创新性等创造力相关的指标上。如图2所示,完整的ResearchAgent系统(蓝色线)在所有评价指标上都明显优于不使用实体检索的简化版本(绿色线)和仅使用核心论文的朴素版本(红色线),这充分证明了实体知识增强和迭代优化机制的有效性。
更有趣的是,论文还验证了模型评估与人类评估的一致性。通过比较图2的上半部分(人类评估)和下半部分(模型评估),我们可以看到两者的趋势高度一致,这说明经过人类偏好对齐的审稿智能体确实能够可靠地反映人类专家的判断标准。这为未来大规模自动化研究创意评估提供了可能性。
3 实验
3.1 实验设置
- 数据集:从Semantic Scholar学术图谱API中选取2023年5月1日后发表的论文,筛选出引用量超过20次的高影响力论文作为核心论文。最终采样300篇核心论文构建基准数据集。每篇核心论文平均有87篇参考文献,每篇论文摘要平均包含2.17个实体。数据集涵盖计算机科学(25.3%)、医学(20.7%)、工程学(13.0%)等多个学科领域。
- 基线模型:主要对比三种方法:
- Naive ResearchAgent:仅使用核心论文生成研究想法
- ResearchAgent w/o Entity Retrieval:使用核心论文及相关参考文献,不考虑实体知识
- ResearchAgent(完整模型):使用相关参考文献和实体知识增强LLM
- 评估指标:采用双重评估策略
- 模型评估:使用GPT-4对生成的研究想法进行评分,每个维度(问题、方法、实验设计)按5个具体标准进行5分制评分
- 人工评估:招募10位至少发表3篇论文的专业研究人员,评估与其研究领域相关的生成想法
- 评估标准体系:
- 问题维度:清晰度(Clarity)、相关性(Relevance)、原创性(Originality)、可行性(Feasibility)、重要性(Significance)
- 方法维度:清晰度、有效性(Validity)、严谨性(Rigorousness)、创新性(Innovativeness)、通用性(Generalizability)
- 实验设计维度:清晰度、有效性、鲁棒性(Robustness)、可行性、可重现性(Reproducibility)
- 实现细节:使用GPT-4(2023年11月6日版本)作为所有模型的基础。采用BLINK实体链接器提取实体并构建实体知识库,处理2023年5月至12月的50,091篇论文。人工评估人员来自美国和韩国,主要研究计算机科学、医学和生物学,按每小时22.20美元报酬标准,平均每小时评估3组研究想法(共9个子想法)。
3.2 实验结果
| 实验类型 | 实验目的 | 图表 | 主要结果 |
|---|---|---|---|
| 主要性能对比 | 验证完整ResearchAgent的有效性 | 图2、图3、表1 | 完整模型在所有指标上显著优于基线 |
| 迭代优化分析 | 评估迭代改进的效果 | 图4 | 3次迭代后性能趋于饱和 |
| 消融实验 | 分析各知识源的贡献 | 表2 | 参考文献和实体检索均有贡献 |
| 人机对齐分析 | 验证模型评估的可靠性 | 图5、表1 | 对齐后模型评估分布接近人工评估 |
| 跨领域性能 | 测试不同学科的表现 | 图6、图9 | 高资源领域性能更优 |
| 方法对比 | 与现有假设生成方法比较 | 表3 | ResearchAgent性能显著更优 |
| 模型泛化性 | 测试不同LLM的表现 | 表4 | GPT-4表现最佳,小模型性能下降 |
3.2.1 实验一、主要性能对比实验

图2(人工和模型评估的雷达图,展示了三种方法在问题、方法、实验设计三个维度及其各项细分指标上的得分对比)、图3(两两比较的胜率柱状图,展示了不同方法在直接对比中的优势程度)、表1(一致性系数表,展示了人工标注者之间以及人工与模型评估之间的Spearman相关系数和Cohen’s kappa系数)
目的:全面验证完整ResearchAgent系统在研究想法生成任务上的有效性,对比不同知识增强策略的影响
涉及图表:图2(人工和模型评估的雷达图,展示了三种方法在问题、方法、实验设计三个维度及其各项细分指标上的得分对比)、图3(两两比较的胜率柱状图,展示了不同方法在直接对比中的优势程度)、表1(一致性系数表,展示了人工标注者之间以及人工与模型评估之间的Spearman相关系数和Cohen’s kappa系数)
实验细节概述:这是论文的核心实验,旨在系统性地验证ResearchAgent方法的有效性。研究者设计了三个层次的对比:最基础的Naive ResearchAgent仅使用单篇核心论文生成想法,中间层级的模型增加了引用图谱中的相关参考文献,而完整的ResearchAgent则进一步整合了从大规模文献中提取的实体知识库。实验采用300篇2023年5月后发表的高引用论文作为核心论文,每篇论文都由系统生成包含问题识别、方法开发、实验设计三个完整部分的研究想法。评估过程结合了模型自动评估和人工专家评估两种方式:模型评估使用GPT-4按照15个具体标准(每个维度5个标准)进行5分制打分,人工评估则招募了10位至少发表3篇论文的专业研究人员,每位专家仅评估与其研究领域高度相关的论文生成的想法,确保评估质量。为提高模型评估的可靠性,研究者通过10对人工标注的想法-评分对来诱导评估标准,使模型评估与人工偏好对齐。整个实验共完成了150个完整研究想法的评估,涵盖人工评分和模型评分的双重验证。实验还包含了20%的重复标注来测量标注者间一致性,结果显示Spearman相关系数在0.67-0.83之间,Cohen’s kappa系数在0.41-0.62之间,证明了评估的可靠性。
结果:完整的ResearchAgent在所有评估维度上都显著优于两个基线方法。在人工评估中,完整模型在问题维度的平均得分约为4.2分,而Naive方法仅为3.5分左右;在模型评估中,这一差距更加明显,完整模型达到约4.5分,基线方法约为4.0分。特别值得注意的是,在衡量创新性的指标上(如问题的原创性Originality和方法的创新性Innovativeness),完整模型的优势最为显著,这表明实体知识库能够提供新颖的跨领域概念和视角。两两比较实验进一步确认了这一结论:在人工评估中,完整ResearchAgent在问题、方法、实验设计三个维度的胜率分别约为60%、55%和50%,显著超过随机水平;在模型评估中,这些胜率更高,分别达到约70%、65%和60%。标注一致性分析显示,人工标注者之间的一致性较高(Spearman系数0.67-0.83),人工与模型评估之间也保持了良好的一致性(Spearman系数0.49-0.64),验证了自动评估的可靠性。
3.2.2 实验二、迭代优化效果分析

图4(迭代优化曲线图,展示了从0到4次迭代过程中,问题、方法、实验设计三个维度及其各项细分指标的得分变化趋势)
目的:验证引入ReviewingAgent进行迭代改进对研究想法质量提升的贡献,确定最优迭代次数
涉及图表:图4(迭代优化曲线图,展示了从0到4次迭代过程中,问题、方法、实验设计三个维度及其各项细分指标的得分变化趋势)
实验细节概述:本实验旨在探索迭代改进机制的效果。研究者设计了一套由15个ReviewingAgent组成的审阅系统,分别针对问题、方法、实验设计三个维度的5个评估标准进行审阅和反馈。每轮迭代中,ResearchAgent根据ReviewingAgent提供的建设性反馈对生成的想法进行修订和完善。为确保审阅标准符合真实研究人员的偏好,研究者通过提示工程的方式,用10对人工标注的想法-评分样本来诱导详细的评估标准描述,使ReviewingAgent的评判与人类研究者的判断标准对齐。实验设置了0到4次不同的迭代次数,使用模型自动评估来追踪各项指标在迭代过程中的演变。为了观察每个细分指标的变化规律,实验分别记录了15个评估标准(问题5个、方法5个、实验设计5个)在每次迭代后的得分,并计算每个维度的平均分。
结果:迭代改进显著提升了研究想法的质量,但存在收益递减效应。从0次迭代到1次迭代,各项指标都出现明显提升,平均分从约4.0分提高到4.3分左右。第2次和第3次迭代继续带来改进,但幅度逐渐减小,在第3次迭代后平均分达到约4.5分。然而,第4次迭代几乎没有带来额外收益,各项指标趋于饱和。这一现象在所有三个维度(问题、方法、实验设计)中都一致出现。具体到细分指标,创新性相关的指标(如原创性Originality和创新性Innovativeness)在前两次迭代中提升最为显著,而清晰度Clarity等指标在第一次迭代后就达到了较高水平。实验结果表明,3次迭代是一个较优的选择,既能获得显著的质量提升,又避免了过度迭代带来的计算资源浪费。这一发现与现有的智能体优化工作中观察到的递减收益模式相一致。
3.2.3 实验三、知识来源消融实验

表2(消融实验结果表,展示了移除或替换不同知识来源后,在问题、方法、实验设计三个维度上的平均得分)
目的:分析参考文献和实体知识两种知识来源对ResearchAgent性能的独立贡献,验证各组件的必要性
涉及图表:表2(消融实验结果表,展示了移除或替换不同知识来源后,在问题、方法、实验设计三个维度上的平均得分)
实验细节概述:本实验通过系统性地移除或替换不同的知识组件来分析它们的贡献。研究者设计了6种实验配置:完整的ResearchAgent、移除实体检索、使用随机实体、移除参考文献、使用随机参考文献、同时移除实体和参考文献。实验在相同的300篇核心论文数据集上进行,确保对比的公平性。对于"随机"配置,研究者从知识库中随机选择与核心论文无关的实体或参考文献,以区分知识内容本身和知识增强机制的作用。每种配置都生成完整的研究想法(包含问题、方法、实验设计),并使用统一的模型评估标准进行自动评分。为了排除随机性的影响,每个配置运行多次并取平均值。
结果:两种知识来源都对性能有积极贡献,但重要性有所不同。完整的ResearchAgent在三个维度上的得分分别为4.52(问题)、4.28(方法)、4.18(实验设计)。移除实体检索后,得分下降到4.35、4.13、4.02,降幅约为0.15-0.17分;移除参考文献后,得分下降到4.26、4.08、3.97,降幅约为0.20-0.26分。这表明参考文献对性能的贡献略大于实体知识,这符合直觉,因为参考文献提供了更直接相关的上下文信息。有趣的是,使用随机实体或随机参考文献仍然比完全不提供知识要好(随机实体配置得分4.41、4.19、4.13,随机参考文献配置得分4.35、4.16、4.02),这可能是因为语言模型具有从噪声输入中过滤有用信息的能力。同时移除两种知识来源后,性能下降最为显著(得分4.20、4.03、3.92),证明了知识增强策略的整体必要性。这一实验有力地支持了ResearchAgent的设计理念:综合利用多种知识来源能够显著提升研究想法生成的质量。
3.2.4 实验四、人机评估对齐验证

图5(评分分布对比图,展示了人工评估、未对齐的模型评估、对齐后的模型评估三种方式的评分分布直方图)

表1(一致性系数表,展示了人工与模型评估之间的Spearman相关系数和Cohen’s kappa系数)
目的:验证模型评估与人工评估的一致性,确保自动评估的可靠性;测试基于人工偏好诱导评估标准的有效性
涉及图表:图5(评分分布对比图,展示了人工评估、未对齐的模型评估、对齐后的模型评估三种方式的评分分布直方图)、表1(一致性系数表,展示了人工与模型评估之间的Spearman相关系数和Cohen’s kappa系数)
实验细节概述:本实验旨在验证自动评估的可靠性。研究者首先收集了10对研究想法及其人工评分作为种子数据,这些评分由专业研究人员按照5分制李克特量表对15个评估标准(问题、方法、实验设计各5个)进行打分。然后,研究者使用这些种子数据来诱导详细的评估标准描述:通过提示GPT-4分析这些人工标注的想法-评分对,生成每个评估标准在不同分数水平(1-5分)的具体描述。这些诱导出的标准随后被用于ReviewingAgent和模型评估系统中。实验对比了三种评估方式的评分分布:人工评估(金标准)、未使用诱导标准的直接模型评估、使用诱导标准的对齐模型评估。此外,研究者让5位人工评估者判断诱导出的评估标准的质量,其中2位强烈同意这些标准,3位中等程度同意。为量化一致性,实验在20%的生成想法上进行了重复评估,计算人工与模型评估之间的Spearman相关系数和Cohen’s kappa系数。
结果:对齐机制显著改善了模型评估与人工评估的一致性。图5清晰地展示了评分分布的变化:未对齐的模型评估呈现出明显的偏斜分布,评分集中在4-5分,与人工评估的分布差异较大;而使用诱导标准对齐后,模型评估的分布与人工评估更加接近,呈现出更合理的分散性。定量分析进一步确认了这一点:人工与对齐模型评估之间的Spearman相关系数达到0.49-0.64(问题0.64、方法0.58、实验设计0.49),Cohen’s kappa系数达到0.52-0.71(问题0.71、方法0.62、实验设计0.52)。虽然这些一致性指标略低于人工标注者之间的一致性(Spearman系数0.67-0.83),但已经达到了可接受的水平,特别是考虑到实验设计本身的主观性和变异性。这一结果验证了使用模型自动评估作为人工评估代理的合理性,也证明了基于少量人工标注诱导评估标准的方法是有效的,为大规模评估提供了可行的解决方案。
3.2.5 实验五、跨学科和引用相关性分析
目的:评估ResearchAgent在不同学科领域的表现,探索论文影响力(引用量)与生成想法质量的关系
涉及图表:图6(引用量分组对比图,展示了按引用量分为低、中、高三组后,计算机科学领域和全部领域论文生成想法的质量对比)、图7(学科分布饼图,展示了300篇核心论文在不同学科的分布比例)、图9(跨学科性能对比雷达图,展示了ResearchAgent在9个不同学科领域的详细性能表现)
实验细节概述:本实验旨在探索ResearchAgent的领域适应性和影响力相关性。研究者首先根据图7中的学科分布,将300篇核心论文分为计算机科学(25.3%)、医学(20.7%)、工程学(13.0%)、环境科学(7.7%)、生物学(7.3%)、材料科学(5.7%)、物理学(5.3%)、化学(4.7%)、数学(2.7%)等9个主要学科。对每个学科的论文,ResearchAgent生成研究想法并使用模型评估进行打分。为探索引用量的影响,实验将论文按引用数分为三组(低、中、高),分别计算每组在问题、方法、实验设计三个维度的平均得分。特别地,实验对比了计算机科学领域(评估标准主要基于该领域诱导)和全部领域的表现,以验证评估标准的通用性。需要注意的是,由于评估标准主要从计算机科学论文中诱导,这可能对跨学科对比产生一定偏向。
结果:实验揭示了两个重要发现。首先,论文的引用量与生成想法的质量呈正相关关系。在所有三个维度上,高引用组的得分都明显高于中引用组和低引用组。以计算机科学领域为例,高引用组在问题维度得分约4.8分,中引用组约4.5分,低引用组约4.3分。这一趋势在全部领域中同样明显,表明高影响力论文确实更有利于生成高质量的研究想法,可能是因为这些论文本身就展示了更好的研究设计能力和对领域空白的洞察力。其次,ResearchAgent在不同学科的表现存在差异。图9显示,高资源领域(如计算机科学、医学、工程学)的表现优于低资源领域(如物理学、化学、数学)。计算机科学在所有指标上得分最高(平均约4.6分),而数学领域得分相对较低(平均约4.2分)。这种差异可能源于:(1)用于训练底层LLM的数据在高资源领域更丰富;(2)评估标准主要从计算机科学论文中诱导,可能更适合该领域。值得注意的是,计算机科学和全部领域的得分曲线趋势一致(都随引用量增加而上升),这在一定程度上支持了评估标准的跨领域通用性。
3.2.6 实验六、与现有假设生成方法的对比
目的:将ResearchAgent与现有的假设生成方法进行对比,证明其在开放式研究想法生成任务上的优越性
涉及图表:表3(方法对比表,展示了ResearchAgent与SciMON、Hypothesis Proposer两种现有方法在问题维度的5个评估标准上的得分对比)
实验细节概述:本实验旨在将ResearchAgent与文献中的现有假设生成方法进行对比。需要注意的是,现有方法(如SciMON和Hypothesis Proposer)主要聚焦于预测变量间的链接或生成基于这些链接的假设,这与本文的开放式研究想法生成任务(包含问题、方法、实验设计三个完整部分)在设定上有所不同。为了进行公平对比,研究者让这些现有方法也在相同的核心论文数据集上生成研究假设,然后仅对比问题识别这一共同部分。评估使用相同的5个标准(清晰度、相关性、原创性、可行性、重要性)和模型自动评分方式。实验选择了两个代表性的现有方法:SciMON(Wang et al., 2023b)侧重于基于上下文的文献发现,Hypothesis Proposer(Yang et al., 2023)专注于开放域科学假设发现。
结果:ResearchAgent在所有评估标准上都明显优于现有假设生成方法。具体而言,ResearchAgent在清晰度、相关性、原创性、可行性、重要性五个标准上的得分分别为4.11、4.88、4.77、4.05、4.81。相比之下,SciMON的得分为4.04、4.37、4.56、3.98、4.15,Hypothesis Proposer的得分为3.97、4.14、4.07、4.01、4.11。ResearchAgent的优势在相关性(+0.51和+0.74)和重要性(+0.66和+0.70)两个指标上最为显著,在原创性上也有明显提升(+0.21和+0.70)。这一结果表明,ResearchAgent通过整合广泛而深入的跨领域知识以及迭代审阅和改进机制,能够生成质量更高的研究假设。值得强调的是,这种优势不仅体现在创新性上(原创性得分提升),还体现在与现有研究的相关性和潜在影响力上(相关性和重要性得分大幅提升),证明了ResearchAgent在辅助研究人员进行早期研究构思方面的巨大潜力。
3.2.7 实验七、不同大语言模型的性能对比
目的:评估ResearchAgent在不同规模和类型的大语言模型上的泛化能力,识别模型能力对系统性能的影响
涉及图表:表4(不同LLM性能对比表,展示了使用GPT-4、GPT-3.5、Llama3、Mixtral、Qwen1.5等不同模型时,Naive ResearchAgent和完整ResearchAgent在三个维度上的得分)
实验细节概述:本实验旨在测试ResearchAgent对底层语言模型的依赖程度和泛化能力。研究者选择了5种不同的大语言模型进行测试:商用闭源模型GPT-4(主实验使用)和GPT-3.5,以及开源模型Llama3(8B参数)、Mixtral(8x7B专家混合模型)、Qwen1.5(32B参数)。每种模型都分别测试了两种配置:不使用知识增强的Naive ResearchAgent和使用完整知识增强的ResearchAgent。实验在相同的数据集和评估标准下进行,使用模型自动评分方式。特别地,实验关注两个问题:(1)不同模型的绝对性能如何?(2)知识增强策略在不同模型上的效果是否一致?由于开源模型的能力普遍弱于GPT-4,研究者预期会看到性能下降,但希望验证知识增强策略是否仍然有效。
结果:实验揭示了模型能力对ResearchAgent性能的重要影响。GPT-4表现最佳,完整ResearchAgent的得分为4.52、4.28、4.18(问题、方法、实验设计),显著高于其他所有模型。开源模型中,Llama3表现相对较好(4.18、4.03、3.95),而Mixtral表现最差(3.28、3.35、3.31)。值得注意的是,即使是GPT-3.5这样的较强闭源模型,性能也大幅下降到3.58、3.58、3.60左右,与Naive配置差异不大。这表明复杂的知识推理和跨领域概念整合需要强大的模型能力支持。关于知识增强策略的效果,实验发现在不同模型上表现不一:在GPT-4和Llama3上,完整ResearchAgent相比Naive版本有显著提升(GPT-4提升约0.3分,Llama3提升约0.3-0.4分);但在GPT-3.5和Mixtral上,这种提升几乎可以忽略,甚至Mixtral上略有下降。研究者将这一现象归因于较弱模型在捕捉科学论文间复杂概念联系方面的能力不足,这与大语言模型涌现能力的研究发现一致。该实验强调了使用足够强大的基础模型对于ResearchAgent成功应用的重要性。
4 总结后记
系统的核心思路挺巧妙:首先通过引文网络找相关论文(就像人类研究者查文献那样),然后构建了一个"实体知识库"来捕捉跨领域的概念联系(比如发现"数据库"在医学和血液学中的潜在关联),最后设计了多个AI评审员来迭代优化想法。这些评审员的评判标准还是从真实人类专家的偏好中学来的,确保生成的想法符合学术口味。实验结果还不错:在问题识别、方法提出、实验设计三个维度上,ResearchAgent都比基线方法强不少,特别是在"原创性"和"创新性"这些关键指标上提升明显。人类评审和模型评审的结果也比较一致,说明这套系统确实靠谱。
疑惑和想法:
- 实体提取的局限性:论文用的是现成的BLINK实体链接工具,每篇论文平均只提取3个实体,覆盖面似乎有点窄。是不是可以训练一个科研领域专用的实体识别模型,或者结合领域本体库来提升实体提取的质量和数量?
- 评审标准的完备性:目前只选了5个评判维度(比如清晰度、相关性等),但科研创意的评价其实更复杂,比如"跨学科融合度"、"社会影响潜力"这些也很重要。如何系统化地扩展评审维度,同时避免标准过于繁杂?
- 理论研究的适配性:论文也提到了,这套系统更适合实验性学科,对于理论数学、物理这种需要严密推理和证明的领域可能力不从心。能不能把最新的数学推理模型(比如AlphaProof那类)整合进来,让系统也能处理理论创新?
- "剽窃风险"的防范:虽然论文强调了不复制原文,但如果生成的idea跟现有工作太相似怎么办?是否可以加入一个"查重模块",自动检索相似研究并给出差异化建议?
- 动态知识更新:知识库只覆盖到2023年底的论文,科研进展日新月异,如何实现知识库的持续更新和增量学习?
可借鉴的方法点:
- "引文图谱+实体知识库"的双层知识增强策略:这种结合结构化关系(引文网络)和非结构化知识(实体共现)的方法,可以迁移到其他知识密集型任务,比如专利分析、技术趋势预测、政策制定支持等。
- 人类偏好对齐的自动评审机制:通过少量人工标注(论文里只用了10对样本)就能诱导出评判标准,这招在其他需要主观评价的场景很实用——比如创意文案评估、设计方案打分等。避免了大规模人工标注的成本。
- 迭代精炼的生成范式:不追求"一次生成完美输出",而是模拟人类的"草稿-反馈-修改"循环。这个思路可以推广到代码生成(写代码→审查→重构)、内容创作(初稿→编辑→定稿)等需要多轮优化的任务。
- 跨领域概念迁移的启发:实体知识库能发现"数据库在血液学中的应用"这种非显而易见的联系,这种跨域知识发现机制可以用于产品创新(把A行业的解决方案迁移到B行业)、投资分析(发现不同行业间的技术关联)等场景。
- 多粒度知识整合:从单篇论文→引文网络→全局实体库,这种"由近及远"的知识扩展策略,可以借鉴到推荐系统(用户历史→相似用户→全局热点)、智能问答(问题本身→相关文档→背景知识)等领域。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)