Cell || 综述：借助AI代理推动生物医学突破

小天才学习机打游戏

1438人浏览 · 2025-01-13 20:26:23

小天才学习机打游戏 · 2025-01-13 20:26:23 发布

2024年 10 月31 日，Marinka Zitnik Lab（团队详情在文末）在《Cell》期刊上发表了一篇题为“Empowering biomedical discovery with AI agents”的综述论文，其中指出设想的“AI科学家”是能够进行怀疑性学习和推理的系统，这些系统通过协作代理将AI模型与生物医学工具结合到实验平台上，从而增强生物医学研究。并非将人类排除在发现过程之外，生物医学AI代理旨在将人类的创造力和专业知识与AI分析大型数据集、探索假设空间及执行重复任务的能力相结合。AI代理有望精通多种任务，包括规划发现工作流程以及进行自我评估以识别并弥补其知识中的空白。这些代理使用大型语言模型和生成模型来实现结构化记忆，支持持续学习，并运用机器学习工具融入科学知识、生物学原理和理论。AI代理可以影响从虚拟细胞模拟、表型的可编程控制、细胞电路设计到新疗法开发等多个领域（内容较长，或可以直接到总结-概述-分析方法部分查看）。

简介

人工智能（AI）长久以来的一个宏伟目标是开发能够做出重大科学发现、自主学习和独立获取知识的AI系统。虽然“AI科学家”这一概念具有远大的抱负，但基于代理的AI的进步为发展具备对话能力、反思性学习和推理能力的AI代理铺平了道路，这些代理可以协调大型语言模型（LLMs）、机器学习（ML）工具、实验平台，或是它们的组合（图1）。生物学的复杂性要求采用能够灵活地将复杂问题分解为可执行任务的方法。AI代理可以将一个问题分解成易于管理的子任务，然后由具有特定功能的代理针对解决问题并整合科学知识进行处理。在未来不久，AI代理可以通过加快速度和提高资源效率来加速发现工作流程。AI代理提高了常规任务的效率，自动化重复过程，并分析大型数据集以在规模和精度上超越当前人类驱动的努力来探索假设空间。这种自动化使得连续的、高通量的研究成为可能，而这种研究规模或速度是单靠人类研究人员无法实现的。展望未来，AI代理可以通过在那些尺度上的实验测量可用之前进行跨时间和空间尺度的预测，提供超出传统机器学习所能达到的见解。最终，它们可能帮助揭示生物系统内新的行为模式。

图1 利用AI代理增强生物医学研究。AI代理正在为作为复合AI系统的“AI科学家”奠定基础，这些系统能够进行批判性学习和推理。多代理系统由基于对话型大型语言模型（LLMs）的代理组成，并可以协调机器学习（ML）工具、实验平台、人类研究人员或它们的组合。机器人代理是指操作物理实验硬件的AI代理；数据库代理是指能通过函数调用和应用程序编程接口（APIs）访问数据库信息的AI代理；推理代理是指具备直接推理能力及带有反馈的推理能力的AI代理；假设代理是指在发展假设时具有创造性和反思性的AI代理，能够表征其自身的不确定性，并以此为驱动来精炼其科学知识库；头脑风暴代理是指生成广泛研究思路的AI代理；搜索引擎代理是指利用搜索引擎作为工具快速收集信息的AI代理；分析代理是指能够分析实验结果以总结发现并综合概念的AI代理；实验规划代理是指优化实验方案以供执行的AI代理。

这一愿景的实现得益于大型语言模型（LLMs）、多模态学习和生成模型的进步。例如GPT-4这样的聊天优化型LLM可以整合反馈，使AI代理能够通过彼此之间以及与人类之间的对话进行合作。这些对话可能涉及代理寻求人类的反馈和批评，并识别其知识中的空白。由于单一的LLM可以展示广泛的能力——特别是在配置了适当的提示和推理设置时——不同配置的代理之间的对话可以以模块化的方式结合这些能力。LLMs还展示了通过将复杂任务分解为子任务来解决它们的能力。然而，如果我们遵循传统的基础模型方法，如LLMs和其他大型预训练模型，我们可能不会开发出能够产生新颖假设的AI代理，因为这种新颖性在用于训练模型的数据中并不存在，这意味着当前的基础模型单独不足以支持AI科学家。与生成新颖文本需要遵守语义和句法规则相比，生成新颖假设则需要创造力和基于科学知识的根基，因此后者可能不完全符合LLMs内部的下一个标记预测技术。

在此基础上，作者提出一种观点，即AI科学家可以通过由人类、LLMs、机器学习模型以及其他工具如实验平台共同构成的复合AI系统来实现。一个AI代理应当能够制定生物医学假设，对其进行批判性评估，表征不确定性，并以此作为驱动来获取和精炼其科学知识库，达到人类科学家可以信任的程度。AI代理应该被设计成能够适应新的生物学见解，融入最新的科研成果，并根据实验结果调整假设。这种适应性确保代理在快速演变的生物数据面前保持相关性，平衡新发现的编码和旧知识的保留。

认识到这一视角转变，生物医学AI代理可以在从虚拟细胞模拟、表型的可编程控制、细胞电路设计到新疗法开发等多个领域产生影响。虚拟细胞模拟涉及到创建详细的细胞过程模型，其中AI可以预测基因修饰或药物治疗对细胞行为的影响。这可以促进对细胞机制的理解并生成可测试的假设，减少传统方法所需的时间和成本。表型的可编程控制利用AI代理设计精确的基因修饰来研究基因功能。例如，由AI代理指导的CRISPR基因除错可以激活或抑制大规模细胞群体中的特定基因，在多轮编辑活动中实现用户指定的目标表型。每一轮都包括基于前一轮的实验读数确定下一次编辑。设计细胞电路则使用AI代理预测遗传组件的行为并优化其排列，以创建能够执行诸如感知环境变化或生产治疗蛋白等任务的电路。

生物医学AI代理带来了伦理上的考量。允许它们通过ML工具或实验平台调用对环境做出改变可能是危险的。需要有防护措施来防止伤害。相反，如果发现工作流程仅包含AI代理之间的对话（不允许与环境互动），我们需要考虑这类互动对人类科学家及其对AI代理依赖的影响。此外，对于生物医学AI代理而言，一个特定的关键挑战是缺乏超出当前结构生物学和细胞生物学关注领域的大型、多样化的实验数据集。AI代理必须高效地表示生物医学知识，很好地推广到新任务，并以最小或无需额外训练的情况下获取新技能。尽管在人类监督下，AI代理可以赋能研究和支持操作，但它们潜在的影响和相关挑战凸显了负责任实施的重要性。

数据驱动模型在生物医学研究中的演变应用

过去几十年中，数据驱动模型通过开发数据库（DBs）、搜索引擎、机器学习（ML）和交互式及基础学习模型重塑了生物医学研究（图2）。这些模型通过挖掘生物医学数据，在蛋白质、基因、表型、临床结果和化学物质的建模方面取得了进展。

图2 数据驱动模型的演变应用。从数据库和搜索引擎，到机器学习（ML）和交互式学习模型，再到先进的代理系统，数据驱动的方法在过去数十年间重塑了生物医学研究。图中的圆圈代表主要集中在算法性机器学习创新的研究；而菱形则用于标识那些利用人工智能进行生物医学发现的代表性研究。

数据库和搜索引擎

在生物学研究中，数据库（DBs）整合了来自实验和研究的知识，提供了包含标准化生物数据词汇的可搜索存储库。例如AlphaFold蛋白质结构数据库，它包含了超过2亿个由AlphaFold预测的蛋白质结构。分子搜索引擎从这些数据库中检索信息；比如FoldSeek通过将查询结构转化为3D相互作用字母序列，并使用预先训练的替换矩阵来从AlphaFold数据库中检索蛋白质结构。搜索引擎设计用于根据特定查询检索信息，但缺乏通过推理来细化这些查询的能力。它们不能迭代处理获取的信息以优化结果或定制后续行动。此外，尽管数据库通过策划的数据减少了错误信息的风险，但它们缺少机制来识别和移除无关信息。

与搜索引擎不同，AI代理能够通过推理来构建搜索查询并随后获取信息。策划的数据库提供结构化和事实性的信息，有助于减少代理可能出现的“幻觉”所关联的错误信息风险。例如，检索增强生成（RAG）使AI代理能够基于科学文献回答问题。这些代理的一个显著特点是它们能够在需要时检索信息，并创建和迭代处理获得的段落。这个反思过程使得代理在推理过程中可控，允许其动作被定制以满足任务需求，超越了搜索引擎和数据库查询所能实现的功能。

机器学习模型

除了信息检索之外，机器学习（ML）模型擅长识别模式和同化潜在知识，以对新数据进行泛化预测。现有的ML模型通常为每个任务需要专门的模型，并不具备区分AI代理的推理和互动能力。以AlphaFold为例，它使用多序列比对和深度学习模型高精度地预测3D蛋白质结构，但专为蛋白质折叠定制。AI代理代表了ML模型的一种进化，建立在诸如变换器架构和生成预训练等成功的基础之上。这些代理的推理和互动能力使其区别于通常针对每个任务需要专门模型的ML模型。不同于传统的ML模型，代理评估不断变化的环境，这对于建模动态生物系统非常有价值。

交互式学习模型

交互式学习，通常称为主动学习和强化学习，代表着ML模型的一项进一步发展，通过引入探索机制和人类反馈。主动学习策略可以在数据集样本量较小时帮助构建模型，因为传统ML模型可能因统计效力有限而不足以应对这种情况。它有选择性地查询最具信息量的数据点以进行标注和优化学习过程，从而改善模型的学习方式。强化学习涉及代理通过观察过去行为的结果在一个环境中学习如何行动，模仿试错方法。在生物学研究中，交互式学习已被应用于小分子设计、蛋白质设计、药物发现、扰动实验设计以及癌症筛查等领域。例如，GENTRL利用强化学习导航化学空间并识别可以作用于生物靶标的化学物质。然而，交互式模型主要设计用于狭窄的应用场景，在没有重新训练模型的情况下难以推广到新的目标。通过利用交互式学习，AI代理在信息检索任务中实现了更大的自主性。主动学习通过选择能最大化模型性能的数据标注来提高训练效率。然而，AI代理超越了这种以数据为中心的方法；例如，带有人类反馈的强化学习使用“奖励模型”训练基于LLM的代理，使其能够自然理解人类指令。

AI代理

生物医学AI代理具备先进的能力，包括通过感知模块主动获取信息、与工具交互、推理以及与环境互动和从中学习。这些代理使用外部工具，如实验室设备，并配备有感知模块，例如集成的视觉机器学习工具，以从环境中接收信息。代理可以整合搜索引擎和机器学习工具，并通过感知模块跨数据模态处理信息，从而生成假设并根据科学证据进行精炼。

生物医学AI代理的类型

构建代理的主要方法是使用大型语言模型（LLMs），其中单一的LLM被编程来执行多种角色。然而，除了基于LLM的代理外，作者设想了一个用于发现工作流程的多代理系统，该系统结合了异构代理（图1），包括机器学习工具、领域特定的专业工具以及人类专家。考虑到许多生物医学研究并非基于文本，这类代理相比单独的LLM代理在生物医学领域具有更广泛的应用性。

基于LLM的AI代理

将单一LLM编程为承担多样角色，使得基于LLM的代理具备对话界面，能够模仿人类专业知识并访问各种工具（图3A）。这种方法背后的原理在于首先对LLM进行预训练以编码一般知识，然后通过领域内微调使LLM编码领域特定的专业知识，并通过角色扮演和对话与人类用户对齐。指令微调可以通过训练LLM跟随人类指令来进行，例如包括生物学推理的对话提示样例。此外，带有人类反馈的强化学习（RLHF）通过从一系列响应中选择最符合人类偏好的输出来优化LLM的表现，进一步使LLM与人类角色对齐。因此，一个被编程来履行多个角色的单一LLM可以提供比开发专门化模型更为实际和有效的解决方案。通过分配特定角色，这些代理可以在结构生物学、遗传学和化学等多个领域复制专家的专门知识，超越查询非专门化的LLM的能力，并执行以前不可能完成的任务。临床医学问答的早期结果显示，将特定角色（如临床医生）分配给GPT-4可以获得比使用领域专门化的LLM（如BioGPT、NYUTron和Med-PaLM）更好的多项选择基准测试准确性表现。

图3 生物医学中AI代理的多样化配置——从基于LLM的AI代理到包含AI模型、工具和集成物理设备的多代理系统。

(A) 通过为大型语言模型（LLM）编程赋予其角色，一个基于LLM的代理，配备了记忆和推理能力，可以执行多模态感知并利用一系列工具，例如网络实验室工具，以完成指定任务。

(B–E) 利用具备多种角色、感知模块、工具和领域知识的AI代理，可以在代理与科学家之间建立协作。这种协作可以采用多种形式，如专家咨询、辩论、头脑风暴和圆桌讨论。

(F) 多代理系统可以建立一个自动驾驶实验室，在此环境中，多个代理在人类的帮助下进行生物研究的多次迭代。每个研究周期包括假设生成、实验设计、计算机模拟和体外实验的执行以及结果分析。

• 计算代理：使用计算模型作为工具的AI代理；

• 决策代理：根据给定条件作出决策的AI代理；

• 数据库代理：从数据库检索相关信息的AI代理；

• 推理代理：能够直接推理及带有反馈推理的AI代理；

• 专家代理：基于可靠来源（如领域专业知识、人类专家反馈及特定工具的结果）提供专业咨询的AI代理；

• 假设代理：能够进行反思性学习和推理以生成假设的AI代理；

• 规划代理：为未来行动制定计划的AI代理；

• 计算机模拟/体外代理：在计算机模拟或体外环境中使用工具的AI代理。

作者设想了三种为生物医学AI代理分配角色的方法：领域特定微调、上下文内学习和代理角色的自动生成。第一种方法涉及通过多个生物任务对大型语言模型（LLM）进行指令微调，以使LLM扎根于生物领域，随后使用带有人类反馈的强化学习（RLHF），确保调整后的LLM执行的任务与科学家的目标和需求一致。第二种方法利用LLM的上下文内学习来处理输入中提供的较长背景信息，例如由生物学家生成的指示，使代理能够理解每个任务的领域背景。这种方法通过使用文本提示定义代理角色得以支持。这两种策略都需要生物学家收集特定任务的数据或精心设计提示语。然而，由于人类定义的角色可能无法总是如预期地指导代理，因此越来越多的趋势是赋予基于LLM的代理更大的自主性来定义其自身角色。这种角色定义方式的变化使代理能够自主生成和优化角色提示，并参与自我导向的学习和角色识别。例如，在Fernando等人研究中展示了代理根据用户输入进化和定制其提示的能力。此外，可以采用自参照学习框架来优化为代理分配角色时的提示设计，使其从任务执行者转变为能够自主设置的角色实体。

由单一LLM被提示承担多种角色的代理系统在科学研究中已被证明是一个有价值的辅助工具。研究表明，设定为执行特定角色的代理相比顺序查询单一LLM或重复使用单一工具有更强的能力。一个典型的例子是Coscientist，它展示了基于GPT-4的代理在化学研究任务中的潜力，包括优化钯催化交叉偶联反应。在Coscientist中，GPT-4承担规划者的角色，作为研究助手。代理使用上下文内提示来使用诸如网络搜索、文档查找以及通过Python应用程序编程接口（API）和符号实验室语言（SLL）执行代码等工具。为了完成需要访问物理设备的任务，规划代理从科学家提供的提示开始，使用搜索工具编译实验文档。之后，代理生成SLL代码并执行，这涉及到将代码传输到设备上并控制设备。

多代理AI系统

通过自回归LLM方法实现的基于LLM的代理，通过模仿训练数据集中的观察行为来获得规划和推理等技能。然而，这种基于模仿的学习导致了代理能力的局限性，因为它们并未深入理解这些行为。因此，单一代理往往缺乏完成复杂任务所需的全面技能集。一个实用的替代方案是部署一个多代理AI系统，在该系统中，任务被分割成更易管理的子任务。这种方法允许各个代理高效地解决特定的子任务，即使其能力不完全完备。不同于基于单个LLM的代理，多代理系统包含多个具有专门能力和领域特定知识的代理。为了成功执行任务，这些代理必须遵循工作协议。这样的协作努力赋予LLM独特的角色、专业化的知识库和多样化的工具集，模拟了一个跨学科的生物学家团队。这种方式类似于大学或研究所内各部门之间的多样化专业知识。作者提出了物种多代理系统的协作设计。

协作设计一：头脑风暴代理

与多个代理一起头脑风暴研究想法（图3B）构成了一个协作会议，通过科学家和代理的联合专长生成广泛的研究概念。在这样的会议中，代理被提示贡献想法，优先考虑贡献的数量而非初始质量，以促进创造力和创新。此方法鼓励提出非传统和新颖的想法，使参与者能够在不受评判或批评的情况下，基于他人的建议构建新的探究路径。这个过程使得代理能够应用其领域的知识和资源形成集体创意池。每个代理根据其专业知识提供见解并生成假设，之后小组可以整合和精炼这些假设。例如，在一个为阿尔茨海默病研究设计的多代理系统中，代理可能分别专注于小胶质细胞生物学、神经元退化和神经炎症。探索阿尔茨海默病的新治疗靶点时，专注于小胶质细胞生物学的代理可能会提议调查小胶质细胞在突触修剪中的作用，而专注于神经元退化的代理则可能建议检查某些神经营养因子的保护效果。这些多样化的想法汇聚在一起，让研究人员能够探索一系列潜在的研究方向。

协作设计二：专家咨询代理

专家咨询（图3C）涉及从拥有专门知识的个人或实体获取专业知识。这个过程包括专家代理从各种来源收集信息，并针对请求提供洞见、解决方案、决策或评估。其他代理或人类随后会根据这些反馈调整他们的方法。LLM有可能协助对研究手稿提供科学评论，如最近的研究所示。然而，LLM缺乏人类审稿人那种细致的理解，应被视为是对人类专业知识的补充而非替代。同样，一个AI代理可能会咨询另一个专注于特定领域的代理，以完善AI系统内的想法，这反映了学术环境中导师与门徒之间的动态关系。例如，在处理阿尔茨海默病及相关痴呆症时，基于认知标准诊断阿尔茨海默病可能会遇到边缘病例。咨询AI代理可以获得额外视角，确定这些病例是否符合基于脑病理学或其他生物标志物的阿尔茨海默病标准。

协作设计三：研究辩论代理

在研究辩论（图3D）中，两队代理就一个研究主题呈现不同的观点，目标是说服对方团队的代理。代理被分为两组，每组承担辩论中的不同角色。一组使用各种知识源和工具收集证据以强化其立场，而另一组则批评这些证据，试图用更强的证据揭示或中和其弱点。每一方的目标都是比对手更有效地表达自己的论点，参与系统的讨论以捍卫自己的观点并挑战对方主张的真实性。这种方法促进了批判性思维，并加强了有效沟通，因为每个团队都努力构建最有力的论据支持其立场。

协作设计四：圆桌讨论代理

圆桌讨论（图3E）涉及多个代理参与一个促进表达多样化观点的过程，以对讨论的主题进行协作决策。在这样的会议中，代理们表达自己的想法和见解，提出问题，并对他人的贡献提供反馈。然后，他们回应这些问题，根据反馈精炼最初的提议，或试图说服他们的同伴。这种方法鼓励所有代理平等参与，促使他们贡献专业知识和视角，提供建设性批评，质疑基本假设，并建议修改以改善提出的解决方案。Reconcile实现了多代理协作框架，其中多个基于LLM的代理通过多轮对话来就研究问题达成共识。代理们试图说服彼此调整其响应，并使用置信度加权投票机制，以达到比单一LLM代理更准确的共识。在每次讨论轮次中，Reconcile使用“讨论提示”编排代理间的互动，该提示包括每个代理在前一轮产生的分组答案和解释、它们的置信水平以及人类解释示例用于校正答案。

协作设计五：自动驾驶实验室代理

自动驾驶实验室（图3F）是一个多代理系统，在科学家的广泛指导下迭代优化端到端的发现工作流程，但不需要逐步骤的人类监督。一旦代理系统经过训练，它可以描述必要的实验来测试生成的假设，分析这些实验的结果，并利用它们改进内部科学知识模型。自动驾驶系统中的代理需要解决以下三个要素：确定归纳偏见以减少假设的搜索空间；实施方法来考虑潜在的生物医学价值与实验成本对假设进行排序；通过不确定性量化和相对于原始假设的实验分析来表征怀疑态度，并使用实验数据和反例精炼假设。理想情况下，假设代理在发展生物学假设时是富有创造性和反思性的，能够从现有的知识体系间接外推。有新兴证据表明生成模型有可能产生新的假设。Tshitoyan等人展示了如何利用已发表材料科学文献中的潜在知识推荐新材料。GPTChem则利用了经过自回归预训练目标训练的LLM来预测分子。实验代理指导操作代理，后者结合计算机模拟方法和物理平台执行实验。推理代理整合最新结果以指导未来的实验设计。给定假设和实验生成的时间预算，可以比较不同版本的代理系统对于高通量筛选化学库对抗生物靶标的产量等实验结果的效用。

AI代理的自主层级

当与实验平台结合时，AI代理可以在不同程度的自主性下运行，以满足生物医学领域的多样化需求。作者根据AI代理在假设生成、实验设计与执行以及推理方面的能力，将其分类为四个层级（表1）。每个区域内的特定能力定义了这些层级，并要求代理在所有区域展现对应层级的能力（例如，一个在实验领域具备3级能力但在推理和假设领域仅具备2级能力的代理将被归类为2级）。

第0级，标记为“无AI代理”，使用机器学习（ML）模型作为由交互式和基础学习模型协调的工具。在这个层级，ML模型不会独立地形成可测试且可证伪的假设。相反，模型输出帮助科学家形成精确的假设。例如，一项研究使用了AlphaFold-Multimer来预测一种理解有限的蛋白质“DONSON”的相互作用，从而提出了关于其功能的假设。

第1级被称为“AI代理作为研究助手”，特点是科学家设定假设，指定实现目标所需的任务，并为代理分配特定功能。这些代理与有限范围的工具和多模态数据一起工作以执行任务。例如，ChemCrow2结合链式思维（CoT）推理与机器学习工具，支持有机化学中的任务，如识别和总结文献以指导实验。另一个例子是AutoBa，它实现了多组学分析的自动化。这两个代理设计用于狭窄的科学领域；ChemCrow和AutoBa优化并执行科学家设计和预定义的任务。第1级的代理根据现有知识形成简单的假设，并使用有限的一套工具，缺乏达到第2级自主性所需的全部能力。

在第2级，“AI代理作为合作者”，AI的作用扩展，科学家和代理共同协作精炼假设。代理承担对假设测试至关重要的任务，使用更广泛的机器学习和实验工具进行科学发现。然而，它们理解科学现象和生成创新假设的能力仍然受限，显示出从现有研究线性进展的特点。向第3级的过渡，即“AI代理作为科学家”，标志着一个重大进化，此时代理能够开发和外推超越先前研究范围的假设，综合概念而不仅仅是总结发现，并建立不能从文献中直接推断出的简洁、信息丰富且清晰的概念联系，最终产生新的科学理解。尽管在不同的科学领域存在多个第1级的代理，但尚未实现第2级和第3级的代理。现有的自主性分类侧重于AI代理与人类之间的责任划分，没有考虑到生物医学发现。这些分类旨在推进人工通用智能以超越人类在不同技能水平上的表现，而不是专门针对科学研究定制。

表2

随着自主性的增加，误用的可能性和科学家过度依赖AI代理的风险也随之增加。虽然代理有可能增强科学的完整性，但也有关于其在识别危险物质或受控物质方面使用的担忧。负责任的代理开发需要制定预防措施。负责任地部署代理必须考虑过度依赖的风险，特别是考虑到证据表明大型语言模型（LLM）可以产生令人信服但具有误导性的声明并传播错误信息。随着代理承担更多自主研究活动，风险可能会增加。代理必须像科学家一样接受审查，包括可重复性和严格的同行评审。作者通过在遗传学、细胞生物学和化学生物学中给出的例子来说明这些层级的定义（表2）。作者选择这些领域是因为最近可用的大规模数据集推动了机器学习模型的发展和应用。关键的机器学习和生物学术语在表3和表4中描述。

表3

遗传学中AI代理的示例

人类遗传学研究旨在理解DNA序列变异对人类特征的影响。基于LLM的第1级代理会执行与遗传研究相关的特定任务。例如，在全基因组关联研究（GWAS）中，第1级代理可以编写生物信息学代码来处理基因型数据以进行以下操作：(1) 执行质量控制措施，如移除在许多个体中缺失的单核苷酸多态性（SNP）或控制群体分层；(2) 通过填补估计未基因分型的SNP；以及(3) 进行适当的统计分析以识别相关SNP，同时考虑错误发现率。分析完成后，第1级代理会审查并报告结果，包括任何过滤掉的SNP及其排除理由。

不同于遵循人类指令执行狭窄任务，第2级代理能够独立识别和执行任务以精炼科学家最初给出的假设。例如，它可能会探索复杂疾病中患者亚群对药物的有效性，其中遗传基础可能影响药物反应。对于一个假设，即某种药物对特发性或遗传性全身性癫痫（GGE）的一部分患者有效——这是一种具有强遗传因果关系的状况——第2级代理将综合来自GWAS荟萃分析、靶向测序研究及像Genes4Epilepsy这样的知识库中的遗传信息。代理通过分析患者遗传数据识别GGE亚型和致病基因，预测哪些亚群可能基于遗传标记从药物中受益。然后，它将进行体外功能研究以确认这些预测，最终通过综合概念而非仅仅总结发现，提供关于药物如何使GGE患者亚群受益的证据。

第3级代理协调一个代理系统（图3），以发现和评估特定表型的基因标志物。这些代理帮助启动新的研究小组，并优化无创DNA采集方法以提高成本效益和招募过程效率。一旦收集到数据，代理就会创新统计方法，以在连锁不平衡等混淆因素中从基因型数据中识别因果变异，并开发用于在疾病模型中验证候选基因标志物的体外技术。第3级代理与科学家合作生成和测试假设，以获得全面的遗传见解。

图3

细胞生物学中AI代理的示例

细胞是细胞生物学的基本研究单元。单细胞组学、超分辨率显微镜和基因编辑技术的进步已经生成了关于正常细胞和扰动细胞的数据集，涵盖了多组学、细胞活力、形态学、冷冻电子显微镜和断层扫描以及多重空间蛋白质组学等领域。这些数据的激增激发了对计算机模拟细胞建模的兴趣。

机器学习工具在分析这些细胞模式的数据方面起到了关键作用，但作为第0级代理，它们缺乏自主研究能力。在第1级，代理整合专门的第0级模型以协助假设测试。这些代理通过综合文献并使用集成模型预测细胞反应，积极帮助科学家发展假设。例如，为了帮助调查化合物的抗性机制，第1级代理预测它在不同细胞环境中的效果。这些预测还指导实验设计，如空间转录组学和蛋白质组学筛选。然后，代理检索和优化实验方案以在平台上执行，并根据科学家的指示应用预定义的生物信息学管道。

第2级代理执行预定义的任务并生成关于细胞功能和反应的假设。它们自主定义和精炼任务以支持科学推理，使得复杂表型（如药物抗性）的实际探索成为可能。通过管理实验周期并不断更新其计算机模拟工具，第2级代理主动优化实验，专注于基于预测内容、不确定性以及新获得数据的关键抗性变量，并从科学家那里获得迭代反馈。因此，第2级代理构成了一个虚拟细胞模型的原型，该模型能够进行假设生成，包括数字和实验平台的闭环集成。

第3级代理响应细胞生物学研究中的现有挑战并预见未来方向。它们通过将AI工具（数字代理）与高通量平台（实验代理）相结合，形成混合虚拟细胞模型。像LLM基础的数字代理能够通过文献综合自动识别关键知识空白，依据数据量、生物学相关性和临床需求等标准，并在任何环境中模拟任何扰动因子（外源事件如基因敲除和过表达、化合物、细胞间相互作用；内源事件如细胞周期）。实验代理不仅优化实验协议以实现高通量多模式测量，还开发变革性技术，使体外、离体和体内模型的空间和时间分辨率探测达到前所未有的水平，揭示开创性的见解。第3级代理驱动生物机制和治疗策略发现的能力，使得科学家的角色从执行操作任务转变为专注于创意构思和管理混合细胞模型。

化学生物学中AI代理的示例

化学生物学的一个主要焦点是理解细胞内的分子相互作用，以在分子和细胞水平上操控生物系统。一个AI代理可以分析任何分子相互作用，帮助设计新药，并为生物系统提供更有价值的化学探针。

尽管将机器学习应用于化学生物学已经取得了相当大的进展，但目前的方法仍然处于第0级。科学家通过整合机器学习工具来监督所有活动，这些工具用于结构预测、对接、化学合成和分子生成。在第1级，代理具有基础的化学生物学推理能力，能够自主执行简单的任务，例如运行机器学习工具或为特定目标设计实验。然而，由于推理能力有限，代理可能无法解释更复杂的概念，比如分子动力学如何影响药物对结合剂的效果，或者探索新的分子骨架。

对于第2级，长期目标是作为科学家的合作方，通过擅长执行现有科学研究的明确延续任务，如提高化学探针的效率、自主设计和测试全新酶，或通过利用相关靶点的趋势设计新的结合剂。第2级的AI代理在更多领域拥有更深入的专业知识，例如逆合成、晶体学、生物测定以及指导机械臂进行研究。

在化学生物学中，第3级代理的目标是能够研究细胞内所有类型的分子相互作用。这种代理将与人类科学家一起工作，探讨对本领域来说具有挑战性的研究问题，如针对难以成药靶点的设计结合剂，显著提高体内正交反应的特异性和效率，或是开发可以触及新的时空尺度的新化学探针。不同于第2级代理使用既定协议，第3级代理旨在解锁当前无法访问的实验能力。例如，可以委托AI代理探测比现在可及的时间尺度更长的分子动力学。在这个层级，代理对现有文献有透彻的理解，并与科学家合作，开拓化学生物学的新领域。

构建AI代理的路线图

AI代理作为复合系统

AI代理构建为一个复合系统，该系统由多个模块组成，每个模块实现特定的功能。在这里，作者描述这些模块（图4），重点关注对于AI代理与人类互动以及参与实验环境必要的感知、交互、记忆和推理模块。代理与其环境之间的交互由两个要素表征：代理对周围环境的感知及其随后与之的互动。感知模块使代理能够解释并同化来自各种数据模式的信息。然后，学习和记忆使得代理可以通过获取新知识和检索先前学到的知识来与环境互动并完成任务。最后，推理模块处理信息并执行行动计划。以一项已发表的研究为例（图5E展示了一个假设的AI代理，该代理通过感知、交互、记忆和推理模块设置实验，以研究果蝇中线粒体DNA的选择性去除）。

图4 AI代理的关键模块：感知、交互、推理和记忆模块感知解释多模态环境数据。交互促进与环境的互动，包括人机交互、多代理交互以及工具使用。记忆负责知识的存储和检索，而学习则专注于知识的获取和更新。推理，无论是否带有环境反馈，在规划和决策过程中扮演着关键角色。跨模态对齐是基于LLM的代理感知的一种关键技术，其中来自不同模态的输入在以文本为中心的表示空间内进行对齐。这种对齐使LLM能够感知和处理各种输入模态。AI代理的推理模式表明了推理思路之间的转换。例如，具有链式思维模式的代理以逐步的方式生成推理。

将研究任务划分为由AI代理处理的小型任务，呈现了一种引人入胜的方法，该方法建立在如Snakemake和Docker等模块化和顺序生物信息学工作流的成功之上。不同于这些通常静态的工作流，它们需要手动更新和重新配置以处理新任务或集成新工具，AI代理是动态的，并以个性化、用户特定且情境适当的方式运作。它们可以学习使用新工具，并根据科学家的具体指令和需求调整其工作流程。此外，AI代理对任务的自适应分配有助于自动整合新工具和重构现有管道，就像人类研究人员所做的那样。例如，AI代理可以试验并创建新的协议，超越目前在多模态组学数据整合中已建立的方法。比如，在单细胞RNA测序（scRNA-seq）与scATAC-seq或空间数据整合的已有协议之外，AI代理能够开发出新的多模态整合管道，涵盖超过三种模态，或多尺度整合，如图谱规模的单细胞和批量RNA测序数据，或来自细胞系、类器官和患者样本的正常和疾病状态数据。

图5 生物医学AI代理组件的示例.(A) 短期记忆模块的应用:使用短期记忆模块来回忆先前相关的实验，以便设计小分子抑制剂。短期记忆模块能够快速检索近期的数据和实验结果，帮助AI代理在设计新的小分子抑制剂时参考过往的经验和数据。(B) 长期记忆模块的应用:利用长期记忆模块检索相关的信息，用于疾病的靶点优先级排序。长期记忆模块存储了大量历史研究和文献信息，使得AI代理能够根据疾病特征和现有知识库，识别并优先考虑最有可能有效的治疗靶点。© 直接推理的应用:使用直接推理，在没有科学家反馈的情况下优先选择基因进行下游表型分析。这种推理方式允许AI代理基于现有数据和模型自主决定哪些基因可能是导致特定表型变化的关键因素，从而指导后续的研究方向。D) 带有科学家反馈的推理应用:通过结合科学家的反馈进行推理，以选择和优化替代性的实验方法。此过程涉及科学家与AI代理之间的互动，其中代理提出初步建议，然后根据科学家提供的反馈调整和优化实验方案，确保实验设计更加合理有效。(E) 综合感知、交互、记忆和推理模块的应用:结合感知、交互、记忆和推理模块，研究生殖细胞系中对致病性线粒体DNA的选择。在这个例子中，AI代理通过感知模块收集实验数据，使用交互模块与实验室设备和其他代理互动，依赖记忆模块储存和检索相关信息，并通过推理模块处理这些信息，制定行动计划以研究特定生物现象，如线粒体DNA的选择性清除。

感知模块

感知模块赋予基于大型语言模型（LLM）的代理理解并与其操作环境中元素互动的能力，如生物信息学工作流和人类用户。为了实现感知，代理需要整合从多个来源接收反馈的能力：科学家、环境和其他AI代理。这要求兼容各种各样的模式，包括文本描述；用于评估多种条件下同时发生的细胞过程的光学和冷冻电子显微镜图像；用于评估发育过程或动物行为随时间变化的活体成像视频；纵向生物传感器读数和细胞基因组学谱型；基于质谱的蛋白质组学以解析蛋白质稳态；以及进行生化检测和模拟器官系统生理背景的3D培养系统的微型平台。AI代理可以采用不同的方式与环境互动。最直接的一种方式是使用自然语言，这是基于LLM的代理常见的感知模式。其他技术涉及多模态感知模块，其中代理处理来自环境的多模态数据流或将多模态输入与基于文本的LLM对齐。

对话模块

随着ChatGPT的兴起，AI代理解释自然语言的能力已经达到了如此高的水平，以至于现在可以构建完全基于自然语言的代理系统接口，且误解释有限。主要焦点是聊天界面，这些界面在滚动窗口中保存对话历史，使用户能够以类似于标准书面人际交流的方式与代理交谈。这种方法允许科学家使用他们自己的语言表达查询，促进主动性并使他们能够精确描述他们的需求。作者设想代理将使用自然语言维护与科学家的互动历史，这反过来又使我们能够跟踪与代理的科学互动。结合这些互动痕迹与检索增强生成（RAG），作者可以为个别科学家开发个性化的发现工作流。

多模态感知模块

代理将大型语言模型（LLM）与其他数据类型对齐，以融合超越自然语言文本的数据模式。这种方法有助于代理更好地建模其行动中不断变化的环境，并根据新的情况动态调整输出，例如虚拟细胞模型中演变的生物状态。对齐过程涉及两种主要策略：文本翻译和表示对齐。文本翻译将输入转换为文本格式，例如将来自机器人的数据转换成描述环境状态的文本描述。例如，在处理实验设备的读数时，可以将这些读数与它们意义的文本描述结合起来，使LLM能够理解这些读数作为一种新模态。或者，通过表示对齐，不同模态的数据由特定于模态的模型分析，生成表示，如使用CLIP中的视觉编码器进行视觉信息处理。

然后，这些表示通过指令微调与LLM的文本表示对齐，使得基于LLM的代理能够感知和解释多模态数据。例如，为了使基于LLM的代理处理蛋白质结构数据，需要一个额外的编码器将蛋白质结构数据编码为与LLM表示空间对齐的表示。这个编码器经过特定于模态的训练方案预训练，并在该编码器和LLM之间放置一个适配器以对齐两个模态的表示。然后，使用包含这两种模态的数据应用指令微调来训练适配器进行对齐。另一种替代方法是允许代理接收用不同模态表达的输入。例如，Fuyu使用仅解码器的变压器架构联合处理图像块和文本标记。同样，Gemini被设计为在一个模型内处理视觉、音频和文本输入。一旦为代理实施了感知模块以从环境中接收输入，交互和推理模块随之而来，以处理这些输入并进行外部互动。训练具有强大感知能力的代理以处理生物医学数据需要大量高质量的数据对，这些数据对能对齐多个模态。然而，收集这样的数据仍然具有挑战性。例如，多模态实验平台不存在或通量低，某些组织和细胞类型无法实验获取，以及许多疾病表型的小样本量使得数据收集不可行。

交互模块

除了对话模块外，科学家们还在生物研究中使用基于机器学习和其他工具，通过图形用户界面（GUI）探索数据集以分析和可视化数据，并与物理设备和湿实验室实验平台互动。因此，基于聊天优化的LLM代理需要具备交互能力，以便与科学家、其他AI代理和工具沟通和协作，而不仅仅是作为简单的聊天机器人。代理必须结合必要的交互模块以与环境中的元素互动。这包括人机交互，以支持与科学家的交流和遵循人类指令；多代理交互，用于代理之间的协作；以及工具使用动作，以访问机器学习工具和实验平台。

当与函数调用相结合时，LLM的交互能力可以充当科学家与代理接口之间的中介，以及科学家与其他功能项（如工具和其他代理）之间的中介。这种方法允许科学家用自然语言表达他们的意图，而无需寻找如何及在哪里完成任务的方法。同时，由于代理可以与工具互动并使用它们提供反馈，保留了功能项的优势。然而，训练于通用、非生物学领域的交互模块可能不适合专门的生物医学术语，因此需要在生物医学工具领域内进行训练。

人机交互模块

科学家与AI代理之间的交互通过合作沟通和生物知识建模使科学目标与AI代理同步。这种交互能力主要通过自然语言处理和人类评估方法来发展。InstructGPT增强了GPT模型，通过监督微调与人类对话的例子以提高模型的对话技能。代理与人类之间的对齐可以通过基于人类反馈的强化学习（RLHF）进行优化，该方法根据人类对模型响应的评估训练奖励模型来调整模型。或者，RLHF可以被直接偏好优化所取代，这是一种参数化的方法，提供了与人类偏好更一致和高效的对齐。通过人机交互，代理能够适应人类的需求和偏好，利用人类的见解作为执行复杂任务的指导。例如，Inner Monologue利用人类反馈来识别用户偏好或在具身情境中解释模糊请求。在AutoGPT中，人类制定任务并对代理返回的解决方案进行评分，而AutoGen则可以利用人类的专业知识来更好地解决问题。

多代理交互

多代理交互支持解决单个代理独立运作时无法完成的复杂目标。在这样的跨学科系统中，每个具有不同能力的代理专注于不同的生物领域，并通过各种通信手段进行互动。由于代理能够用语言与人类交流，语言成为了多代理交互的主要媒介。一个实例是生成型代理，它们创建了互动环境，在这些环境中代理模仿人类行为并使用自然语言进行互动。对于多代理交互，采用了包括合作和谈判在内的不同策略。例如，MetaGPT应用了人类团队工作中的标准化操作程序来定义任务和代理的责任。通过这些方法，代理间的交互使得处理单一代理难以应对的复杂任务成为可能。MedAgent利用多个医疗AI代理的专业知识来进行医学推理。同样，RoCo采用具有不同角色的机器人代理在物理世界中完成复杂任务。多代理交互还可以通过让较不熟练的代理向更有经验的代理学习来提升其效率。这些交互还能够为从公共卫生场景到人类社会行为的各种环境创建模拟，增强了系统的适应性和在不同背景下的应用。

工具使用

为了管理来自不同环境的任务，代理需要工具来增强它们的能力。常用的工具有应用程序API、搜索引擎、机器学习模型、知识数据库和用于物理任务的机器人设备。已经开发出一级代理系统，可以与一种或多种类型的工具互动。例如，ChemCrow利用化学工具和搜索引擎解决化学挑战；WebGPT可以在网络浏览环境中进行搜索和导航；SayCan使用大型语言模型控制物理世界的机器人完成任务。为了调用这些工具，AI代理生成特定格式的命令或查询预训练的控制模型来执行动作。为了发展这些能力，代理可以使用上下文内学习或通过工具使用的演示进行微调，后者代表了一种更为复杂的方法。

对于上下文内学习，需要在提示中包含系统能力，以便代理可以使用函数调用来查询工具。例如，HuggingGPT使用ChatGPT作为控制器，通过上下文内学习整合Hugging Face上的所有机器学习模型。另一种方法是使用带有函数调用的模型微调来创建一个集成功能/工具的基于LLM的代理。例如，Toolformer引入了一种自监督学习方法，以最少的演示掌握工具API的使用。通过分析自然语言文本输入来建模科学家的需求，AI代理可以选择最有可能可用的工具，识别期望的用户界面组件，并执行科学家预期的动作。交互模块设计成可集成和适应不断变化的环境。对于二级和三级代理，代理自主学习新的交互类型以及如何和何时开始使用新工具。

记忆和学习模块

在使用工具和机器学习模型进行生物研究时，科学家会记录实验日志，并根据这些记录规划下一步行动。对于AI代理而言，记忆模块通过记住必要的实验输出减轻了手动记录日志的需求。与仅执行一次性推理以生成预测的机器学习模型不同，基于大型语言模型（LLM）的代理的记忆模块存储并回忆信息，这对于执行复杂任务和适应新或变化的环境是必需的。记忆模块被设计为存储长期和短期的学习知识。随着代理遇到新的情况和获取数据，记忆模块会用新信息更新。

图5

长期记忆模块

长期记忆存储支撑代理行为和理解世界的基础性和事实性知识，确保这些信息在任务完成后仍然存在。这种记忆可以是内部的，通过学习过程编码在模型的权重中；也可以是外部的，保存在辅助知识库中。内部记忆直接用于完成零样本任务，而访问外部记忆则需要代理采取行动来获取和将数据整合到短期记忆中以供即时使用。例如，ChatDB使用外部数据库进行记忆存储，MemoryBank将记忆片段编码成嵌入以便日后检索。代理可以查询知识库，如全基因组关联研究（GWAS）数据库以寻找候选蛋白质靶点的遗传证据、治疗机制的知识库以及包含最新信息的科学文献，以便代理整合并决定是否可以通过治疗性扰动调节该蛋白质（图5B）。学习过程通过添加新知识或替换过时的信息来更新长期记忆。代理的内部记忆可以通过参数高效的微调、交互式学习和模型编辑来更新。这些策略必须对大型模型有效，并避免遗忘先前学到的信息。另一方面，更新外部记忆更为直接，涉及对知识库的修改。例如，在药物发现中，通过向药物库中添加一个新化合物来更新长期记忆是一种保持代理最新状态的便捷方式。

短期记忆模块

AI代理使用短期记忆在互动期间临时存储信息。这种短期记忆通过上下文内学习实现，其中相关信息作为上下文提示集成或通过LLM中的潜在嵌入。对于聊天机器人来说，之前的对话被保留为文本提示，支持多轮对话。文本方法为多代理和人机场景中的通信奠定了基础。在具身AI代理中，环境反馈以文本格式捕捉，作为短期记忆辅助推理。感知之后，多模态输入被转换成潜在嵌入，其功能如同短期记忆。LLaVA使用由视觉编码器生成的潜在嵌入来保留视觉信息。短期记忆使代理能够临时获得技能，如工具使用，存储有关生物系统最近状态的信息，并跟踪早期推理结果。这种学习机制对于代理在新条件下学习和应用新知识至关重要。此外，短期记忆可以暂时覆盖长期记忆，允许代理在模型权重内优先考虑最新的信息而非旧知识。代理可以根据短期记忆中存储的过去经验判断未来应运行哪些实验。在图5A中，作者详细说明了一个例子，其中代理回忆起类似蛋白质的实验，以告知给定蛋白质的初始抑制剂设计。

推理模块

生物研究涉及一个多学科、多阶段的过程，整合了来自不同领域的科学家的专业知识。科学家们提出假设，根据这些假设设计实验，解释结果，并规划下一步行动。将推理能力集成到AI代理中可以在整个过程中辅助生物研究。推理提高了代理在计划实验、对生物学假设作出决策以及解决竞争性候选生物机制方面的能力。使用大型语言模型（LLM）的AI代理可以实现交互式对话系统，通过自然语言对话来解释机器学习模型。推理模块可以通过提示和少量示例中的情境学习来实现。此外，代理还可以使用规划模型和动作模型。作者根据代理是否根据实验或人类反馈调整其计划，将推理模块分为两类：直接推理和带有反馈的推理。

直接推理模块

在直接推理中，代理基于环境的当前状态执行规划和推理，这可以遵循不同的推理模式，例如单路径推理和多路径推理。单路径推理包括代理将任务分解为多个递归步骤。例如，链式思维（CoT）推理允许代理通过使用情境示例或应用零样本提示如“让我们一步步思考”来进行逐步推理。跳跃思维鼓励模型采用创造性而非逻辑性的推理。虽然单路径推理在某些情况下匹配良好，但它适应不同条件的能力有限。

相比之下，多路径推理在合并成最终计划之前检查几条路径，允许更彻底的规划过程，考虑到不同的情景。例如，最少到最多提示将任务分解为顺序解决的子问题。自一致CoT从一组CoT答案中选择最一致的答案。思维树扩展推理路径到树状结构，从每个思维节点生成多条路径，并使用搜索算法选择最终路径。思维图进一步发展推理路径为图形结构以进行复杂推理。为了识别最佳路径，使用投票策略、蒙特卡罗树搜索和广度/深度优先搜索算法等方法。通过直接推理，代理可以生成能够考虑通路中的蛋白质靶点以及测试候选蛋白质靶点作用的实验思路（图5C）。

带有反馈的推理

实验和人类反馈可以帮助AI代理改进推理和规划过程。这种反馈可能包括代理与人类之间的互动以及代理的响应，它可以是互补的生物测定，量化目标分子的下游效应。在每个推理周期中，React结合之前的行动见解来精炼其思维过程并指导未来的行动。LLM-Planner根据在实体环境中新的观察动态调整计划。内心独白使用被动和主动场景描述及最近行动的反馈来指导未来行动。Voyager通过考虑环境反馈、执行错误和自我验证来改善后续步骤的规划。

除了外部反馈之外，代理的反馈机制还使得自我评估初始计划成为可能。诸如自我修正技术会根据LLM评估修订行动输出，自我检查机制允许代理审查和调整其推理，而反思机制则使用提示代理更新其决策制定。这些技术结合了生物学家的反馈，例如探索实验方法和环境约束如实验室库存（图5D）。推理能力对于生成假设和进行实验是必要的。生成新颖假设需要建模通用的生物医学知识、关于生物系统当前状态的具体信息以及潜在的下一步考虑。基于LLM的代理可以通过情境推理生成假设，但必须谨慎选择以确保高质量的假设。

挑战

此视角概述了在生物医学研究中实施AI代理的关键步骤，并确定了可以从代理型AI中受益的领域。然而，仍然存在挑战，并且随着多代理系统的引入，这些挑战可能会加剧（图6）。

图6 生物医学发现中AI代理的挑战。图中展示了关键挑战——包括稳健性和可靠性、评估协议、数据集生成、治理和风险——以及解决这些问题的战略方法。

稳健性和可靠性

部署代理系统的一个障碍——特别是那些被归类为2级和3级的系统，如表1所讨论的——是它们倾向于生成不可靠的预测，包括非事实信息的幻觉、推理错误、系统偏差以及在连接工具和实验平台时规划失败。这些问题可能因对这种有缺陷预测的过度自信（代理缺乏对其知识空白的意识）和对查询精确表述的高度敏感性而加剧，特别是在基于LLM的代理的情况下。这种行为可以追溯到这些模型是如何训练的。具体来说，自回归损失将预测的词序列与训练数据中的实际序列进行比较。用这种方法训练的模型的性能取决于三个因素：输入的概率分布、生成输出的序列以及训练期间遇到的不同任务的频率。因此，当任务变体偏离训练时所做的假设时，模型性能会下降。

表1

对于输入和任务概率的敏感性也为各种提示技术的成功提供了潜在解释（改写相同查询的方法）。通过提供信息丰富的上下文、指导性的推理步骤或代表性的例子，这些技术可以作为一种实证手段来提高任务和输入概率（从而提高模型性能）。然而，编写高质量提示往往高度依赖实证，同时需要大量的努力和领域知识。超越语言领域，即使是最先进的模型也会在需要物理意义行动的任务上失败，这对具身代理构成了障碍。虽然将连续传感器数据嵌入语言模型可以带来改进，但理解和长期规划物理互动的局限性仍然存在。训练这样的多模态系统的复杂性、覆盖具身任务和环境范围所需的大型数据集的需求，以及处理多模态输入的计算需求仍然是开放的问题。部署面临来自假阴性导致的重复尝试和最终具身代理停滞的挑战。因此，在执行前验证代理行动计划是必要的。

不确定性量化可以触发诸如提前终止、预定义的安全操作或人在回路干预等安全措施。然而，基础模型无法对其输出相关的不确定性进行推理，且对于日益普遍的架构没有建立良好的统计协议。例如，某些形式的提示估计不确定性基于模型的预测分布p(输出|输入)，这本身可能受到偏差的影响；此外，它不考虑与观察到的训练数据一致的模型参数分布，并在其预测上进行了边缘化。尽管一致性预测作为模型预测不确定性估计的框架已经出现，但其对底层统计假设的选择和置信水平校准的敏感性受到了批评。缺乏默认技术部分是因为难以建立对不确定性估计的全面质量评估。这使得在代理设计中做出选择并让用户相信其校准变得困难。

一个担忧是，高级能力的提升可能会以牺牲透明度和增加错位风险为代价。例如，集成人类反馈可以促进代理期望的行为，但它也可能加剧说服能力，从而强化错误信念。现有模型通过新数据进行微调可能会破坏其原始对齐，挑战AI代理预期目的的完整性。越狱攻击同样可以在部署后影响代理，这强调了严格评估的必要性。在复杂的多代理系统中，错误是不可避免的，因此管理这些错误对于保持系统的稳健性和可靠性至关重要。由于这些系统的交互性质，它们对复合错误非常敏感，小问题如果不能及时解决，可能会升级为重大问题。有效的错误管理策略对于诊断、定位和缓解这些问题至关重要。

评估协议

随着越来越多的AI代理被开发出来，需要为生物学家和普通用户提供评价框架，以评估代理性能的多个方面而不仅仅是准确性。评估AI代理需要分析其理论能力和评估实际影响，包括伦理考量、法规遵从以及融入发现工作流程的能力。挑战在于开发能够考虑这些多样因素的评估方法。集成了机器学习工具的代理，尤其是由企业开发的代理，可能在没有预先通知用户的情况下进行更新。这对可重复性构成了挑战，因为更新可能会改变模型的行为或性能，而研究人员并不知情。科学界需要像软件开发实践中那样，为代理提供透明的变更日志和版本控制。

现有的评估框架要么进行全面评估，要么针对模型的弱点进行基准测试，如任务表述、长时间依赖关系、无效格式或拒绝遵循指令等。此类框架的一个注意事项是评估代理是否学会了使用特定API而不是基于现实世界互动的一般结果的风险。另一个评估代理的挑战在于生物系统本身是动态的，具有因基因突变、环境变化和进化压力而演变的非平稳分布。在静态数据集上训练的代理可能难以准确地建模或预测这些变化系统中的结果。挑战在于开发能够适应或持续从新数据中学习的代理，确保其预测随着底层生物系统的改变而保持准确。在线学习、迁移学习和强化学习等技术可以用来解决这个问题，但它们也带来了与数据可用性和模型复杂性相关的一系列挑战。此外，生物医学发现工作流程缺乏标准化，包括基于疾病细胞系、剂量水平和时间点等因素的数据生成协议的变化。这种变异性使得对代理进行实验规划评估变得复杂。对使用计算工具和数据库的代理进行评估将受益于标准化API的日益普及。

数据集生成

正如所述，生物医学AI代理的愿景要求具备从不同模态的数据中寻找、聚合、感知和推理的能力，这些数据按照不同的规范创建，并且在质量和数量上存在固有的差异。为了支持这一愿景，迫切需要大型、开放的数据集，这些数据集既全面又易于访问，使模型能够在各种生物应用中发展。构建生物医学研究系统的人力投入很大一部分用于收集和准备供机器学习模型使用的数据（例如，针对特定模态，如图、时间序列或离散序列）。这需要审查过程和明确的标准来评估数据集的可靠性和适用性。

噪声数据，即包含错误、不一致和异常值的数据，对试图在最小人工监督或数据准备努力下提取有意义模式和洞见的模型构成了重大挑战。此外，多模态数据要求模型处理不同的数据表示和格式，并弥合它们之间的语义差距。应对这些挑战需要先进的特征提取、融合和降噪技术，同时保持稳健性。由于任何预训练阶段（无论多么广泛）都无法为所有数据源提供足够的例子，模型还必须推广到以前未见过的感觉输入。

AI代理的治理

AI代理的治理提出了跨越技术、科学、伦理和监管领域的挑战。一个挑战是建立全面的治理框架，平衡创新与责任。随着AI代理获得更大的自主性，确保负责任的发展、部署和商业化所需的坚实指导方针变得更加必要。讨论越来越多地提倡将代理的安全保障置于进一步自主性发展的优先位置。然而，在代理能力不断进步的同时，导航监管环境并在AI治理上达成国际共识仍然复杂。在创新和防范潜在风险之间取得平衡需要行业领导者、科学家和政策制定者之间的合作。

安全采用AI代理需要解决安全部署的问题。使机器学习工具如大型语言模型（LLM）符合伦理标准仍然是一个开放的挑战，而确保作为数字实体的代理与伦理标准的一致性则增加了复杂性。关于人机交互的指南尚未充分发展，尽管存在意外有害后果和恶意意图的潜力。正在开发包含培训、许可和强制性的安全及伦理合规检查的保护框架。

随着AI代理在生物领域工作流程中变得越来越不可或缺，监控其行为的复杂性也在增加。目前，验证代理输出的准确性和可信度并不简单，只有少数系统能够将生成的内容链接到相关参考文献。开发能够为生成内容提供可追溯参考的强大验证系统是至关重要的。评估合成知识可能变得不切实际且无法实现，因为代理进一步进化。当代理的能力与人类专家相当时，对AI的过度依赖风险增加，这可能导致人类专业知识的减少。最坏的情况下，这种依赖可能会由于监督不足而引入广泛的安全部门隐患。为应对这些挑战，人在回路的方法可以帮助保持问责制。与AI并行的人类持续培训和发展可以减轻对AI过度依赖的风险。

风险与保障

缺乏周密计划、广泛咨询、能力执行和持续适应的自主实验可能会造成长期的危害，这些危害可能超过所带来的好处。尽管无法预见所有潜在的问题，但早期且频繁地探讨可能的问题可以减少这些问题的预期成本。与AI代理相关的伦理和技术考量是广泛而深度交织的，特别是在生物医学领域。本节将突出一些关键类别。

忽视可能导致的风险类似于恶意行为带来的风险。在某些代理代表大型语言模型（LLM）的多代理系统中，由于设备故障和维护不足，可能会无意中制造有害物质，例如通过污染原本安全的程序。这个问题并不局限于多代理系统；它实际上是一个普遍的实验室安全问题。然而，缺少密切的人类监督会移除一个重要的审计层。自动化在代理系统中的作用增加带来了安全问题：一个强大但未对齐的系统，容易误解用户请求或不熟悉实验室安全实践，在获得充足的科学设施访问权限后，可能会通过混合易挥发物质或开发和散布毒素或病原体来造成损害。这些都是AI安全研究人员最为关切的情景之一。

代理利用了LLM在预训练期间获得的世界知识和一般推理能力来进行机器人技术和规划。然而，虽然已经努力教导机器人“应该做什么”，但“不应该做什么”却受到了较少的关注。教导机器人代理不要做的事情对于传达禁止行动的指令、评估代理对这些限制的理解并确保遵守至关重要。对于基于LLM的代理，插件安全芯片具备安全约束模块，该模块将自然语言约束转化为机器人必须遵守的形式化安全约束。与机器人的实验强调了将形式化方法与LLM结合以实现更佳机器人控制的潜力。

经过代码补全训练的LLM可以根据文档字符串编写Python程序，这是通过对代码补全任务进行训练，使模型能够根据自然语言命令编写代码。给定自然语言命令，这些编写代码的LLM可以被重新定位为编写机器人策略代码。但是，如果翻译不能准确反映预期的安全约束，则可能导致过于严格的行为，阻止机器人有效完成其任务，或者约束不够严格，导致安全违规。然而，机器人策略代码不如满足国际标准化组织（ISO）61508等标准的可验证安全操作可靠。这种方法假设所有给定的指令都是可行的，并且缺乏在执行前预测响应正确性的机制。但由于依赖于训练数据中的模式，LLM可能会生成语法正确但语义不适当的代码。此外，使用当前的LLM在不同机器人实体之间泛化计划是脆弱的。

鉴于AI代理对人类和动物健康与生命有直接影响，处理敏感生物和医疗数据时需要坚实的技术和监管措施来确保安全性和保密性。一个有前景的方法是使用隐私保护计算来训练代理，以保护高度敏感的医疗数据的隐私。同态加密可以通过允许在加密数据上进行计算来保障敏感数据的安全，而联邦学习技术则允许分布式训练代理，无需将各站点的数据集中到单一的数据仓库。算法公平性同样至关重要，因为带有偏见的AI代理可能会加剧患者之间的健康差异，并增加生成的数据集量和生物医学知识质量的不平等，特别是对于生物系统中长尾分布的疾病。对抗性去偏和公平表示学习等技术的发展为缓解这些风险提供了有希望的途径。此外，复合AI系统的黑箱性质构成了另一个挑战，特别是在医疗保健领域，可解释性对于临床采用和患者信任至关重要。为了提供更清晰的理由说明代理决策并使其更易于用户接受，将交互式对话系统纳入其中，通过自然语言对话解释代理输出变得至关重要。随着AI代理向3级代理发展，围绕生物安全的伦理考虑也随之浮现。这些问题与合成生物学和人造生物体的生物伦理学持续辩论相交，需要生物伦理学家和安全专家的监管指导和参与，以确保与社会价值观和安全标准的一致性。

生物医学AI代理的独特挑战

生物医学AI代理面临着几个独特的挑战，这使它们与其他AI应用区分开来。尽管强大的AI代理有可能缓解某些挑战，但它们在生物医学研究中的实施需要谨慎考虑。主要挑战之一是需要建立强大且可靠的系统，能够在虚拟和混合虚拟-物理环境中进行推理、规划和执行动作。例如，自然语言推理链可以增强代理行动及其情境结果的可解释性，帮助研究人员理解AI生成的洞见。然而，一些挑战依然存在，可能会延迟AI代理的可靠实施，甚至如果这些系统过早部署，还可能造成伤害。一个关键问题是区分相关性和因果关系的困难。当前的AI代理在生成强有力的假设、推理和进行实验验证方面遇到困难，这些任务通常需要高级别的AI系统（3级代理）或人类干预。此外，AI代理需要改进接口以安全有效地与实验平台互动。这些平台本身在产生无偏、AI就绪的数据集方面也面临限制，这些数据集需要准确捕捉生物系统内在的内部和外部变异。这种局限性阻碍了AI代理的泛化能力，它们依赖于全面和高质量的数据来实现最优功能。高通量技术数据的缺失可能导致AI代理形成错误的假设或造成损害。当AI代理使用小规模、有偏差的生物数据集工作时，这种风险更加严重，这些数据集可能受到批次效应等问题的影响。

展望

生物医学研究正在经历一个由计算智能进步带来的转型时代。目前，AI的作用主要局限于在低风险和狭窄任务中作为辅助工具，科学家可以审查这些结果。作者概述了基于代理的AI，以铺平通往能够进行反思学习和推理系统的道路，这些系统包括基于大型语言模型（LLM）的系统和其他机器学习工具、实验平台、人类，甚至是它们的组合。持续的人工智能互动性质和构建可信的沙盒，是实现这一目标的一种方式，在这里AI代理可以在失败中学习并从中吸取教训。这涉及到开发擅长各种任务的AI代理，例如通过带有ML反馈循环来规划发现工作流程以进行实验，并进行自我评估以识别并寻求知识中的空白。

确保上下文适当和用户特定的代理行为

为了确保代理按预期行为，必须通过实施评估协议来关注其稳健性和可靠性，这些协议测试代理在多种场景下的表现，以识别潜在的脆弱性。此外，将代理建立在伦理指南和文档（如实验室协议和安全指南）之上，对于使它们的行为与人类价值观和安全标准保持一致至关重要。通过解决这些方面，我们可以确保生物医学代理的行为既可靠又符合伦理。具体来说，作者认为在技术适应的早期阶段，理想的做法是通过限制行动空间来将代理的能力限制在其全部潜力的一个子集内，从而消除灾难性风险的可能性（例如，导致生命损失的决定）。对于具有类似风险特征的其他自主系统，如自动驾驶，已经存在类似的适应先例，这种逐步的技术适应是由伦理考量所驱动的。

治理和负责任的人工智能伙伴关系

管理错误需要设计诊断、定位和缓解错误的策略。为了内部诊断错误，代理应使用其推理能力构建自我评价方案，允许它们评估当前状态和行动。外部上，用特定生物医学用例领域的知识训练独立的异常检测和分布转移模型可以提供额外的监督来诊断错误。迭代代理交互可能导致级联错误。为缓解此问题，评估代理可以应用逆向推理链追溯到初始错误。增强代理的自适应推理能力对于动态调整变化条件和纠正发生中的错误至关重要。为了应对治理挑战，作者认为广泛的共识最好通过跨学科、跨党派、非营利和公共机构来达成，这些机构致力于公众利益。作者欢迎最近成立的一些公共人工智能安全机构，以促进这些讨论。拥有AI代理专业知识的重点小组可以制定伦理和技术评估标准，这些标准可以成为法规的基础，包括所需的人类监督程度和问责框架。此外，作者提倡通过国际倡议制定政策，以尽量减少监管缺口的风险，否则这些风险可能会被外包到缺乏可执行法规的司法管辖区。通过培养负责任的人工智能伙伴关系并建立稳健的治理框架，我们可以释放AI代理在生物医学研究中的变革潜力。协作代理方法可以带来突破性的进展，最终改善人类健康和福祉。

总结-概述-分析方法：

该综述讨论了AI代理在转变生物医学研究方面的潜力：

文章指出，这些配备了高级能力如推理、信息获取和与工具交互的代理可以自动化常规任务并分析复杂的数据集，最终加速发现工作流程。文章强调了数据驱动模型在生物医学研究中的演变，从简单的数据库到互动学习模型，再到如今复杂的AI代理。AI代理代表着一个重要的进步，因为它们能够主动收集信息，与实验室设备等工具进行交互，对数据进行推理，并从环境中学习。

作者提出了不同类型的生物医学AI代理：

基于大型语言模型（LLM）的代理可以通过领域特定微调、情境中学习或角色自动生成，模仿人类专业知识并分配给它们各种任务。
多代理系统旨在处理更复杂的发现工作流程，结合异构代理，包括基于LLM的代理、领域特定工具和人类专家。
文章进一步探讨了几种多代理系统的协作设计，包括头脑风暴代理、专家咨询代理、研究辩论代理、圆桌讨论代理和自动驾驶实验室代理。每种配置都利用了不同代理的多样化专长和能力，以提高研究生产力和创造力。自动驾驶实验室的概念尤为引人注目。在这种设置中，一个多代理系统管理端到端的发现工作流程，尽量减少逐步的人类监督需求。文章提出了这些代理的四个自主级别，从基本辅助到作为独立科学家的能力，能够提出和测试新的假设。
文章提供了AI代理在遗传学、细胞生物学和化学生物学中的具体应用示例。这些例子突显了AI代理在自动化复杂任务、分析大量数据集方面的潜力，并最终加速各个领域的科学发现。
作者还深入探讨了构建有效AI代理所需的关键模块：感知模块、交互模块、记忆模块和推理模块。这些模块使代理能够接收、处理并根据来自不同来源的信息采取行动，包括人类、其他代理和环境。

尽管AI代理在生物医学领域的潜力巨大，但文章也承认了相关的挑战：

稳健性和可靠性，确保AI代理能够处理多样化的场景并避免错误至关重要。
开发有效的评估协议来评估代理性能是必要的，特别是在生物系统动态性质的情况下。
数据集生成仍然是一个挑战，特别是对于训练代理处理多模态数据。
AI代理的治理至关重要，需要框架来解决伦理考虑、数据隐私和潜在偏见问题。
文章提倡一种协作方法来克服这些挑战，涉及科学家、技术专家、伦理学家和政策制定者。作者强调需要安全且负责任地采用AI代理，以充分实现其在生物医学研究中的变革潜力。

综述展望了一个未来，在这个未来中，AI代理将成为生物医学研究中的重要伙伴，承担越来越复杂的角色，从助手到合作者，甚至是独立的科学家。这一愿景依赖于“AI科学家”的发展，即能够进行怀疑性学习和推理的系统，通过协作代理无缝集成AI模型、生物医学工具和实验平台来增强研究。

以下是作者提案和建议的一些关键亮点：

AI代理可以显著提高生物医学研究的效率和范围。通过自动化重复任务、分析大型数据集、导航假设空间和执行实验，AI代理可以使人类科学家专注于更具创造性和战略性的研究方面。
作者提出了不同类型的AI代理，包括基于大型语言模型（LLM）的代理，这些代理可以模仿人类的专业知识并访问各种工具，以及多代理系统，该系统结合了多样化的AI代理和人类专家，以应对复杂的科研挑战。
多代理系统可以配置为各种协作设计，如头脑风暴、专家咨询、研究辩论、圆桌讨论和自动驾驶实验室。每种设计都利用不同代理的优势来提升研究生产力和创造力。
自动驾驶实验室是一个特别雄心勃勃的概念，它设想由一个多代理系统管理端到端的发现工作流程，可能只需要最少的人类监督。这一概念取决于AI代理实现更高的自主水平，正如作者提出的四层框架所描述的那样。
作者提供了AI代理在遗传学、细胞生物学和化学生物学中的具体应用示例，展示了它们在不同研究领域中自动化任务、分析数据和加速发现的潜力。
开发稳健可靠的AI代理至关重要。作者强调需要解决与错误处理、不确定性量化和安全机制相关的挑战，特别是对于具有更高自主级别的代理。
严格的评估协议是评估AI代理性能所必需的，尤其是考虑到生物系统的动态和复杂性质。开发标准化基准和评估指标对于确保AI代理在研究中的可靠性和可信度至关重要。
生成大型、多样化和可访问的数据集对于训练和评估AI代理在广泛的生物医学应用中至关重要。作者呼吁合作努力创建开放的数据集，以支持更强大和多样的AI代理的发展。
治理和伦理考量必须成为生物医学研究中开发和部署AI代理的核心。这包括解决潜在的偏见、确保数据隐私，并建立明确的责任制人机协作框架。

最终，作者认为负责任地开发和部署的AI代理具有巨大的潜力，可以革新生物医学研究，带来改善人类健康和福祉的突破。他们倡导一种涉及科学家、技术专家、伦理学家和政策制定者的协作方法，以驾驭这种变革技术所带来的挑战和机遇。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla