A Survey on Social Simulation Driven by Large Language Model-based Agent翻译
社会科学研究人类行为和社会结构,以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。问卷调查和心理实验通常用于检验理论假设、理解社会现象并预测集体结果。虽然这些方法可以提供高度真实的数据,但它们成本高昂、难以规模化,并且存在一定的伦理风险。近年来,大语言模型 (LLM) 在人类级别的推理和规划方面展现出令人印象深刻的能力。它们能够感知环境、做出决策并采取相应的行动,展现出其作为
摘要
传统的社会学研究通常依赖于人类的参与,这种参与虽然有效,但成本高昂、难以规模化,且存在伦理问题。大语言模型 (LLM) 的最新进展凸显了其模拟人类行为的潜力,使其能够复制个体响应,并促进许多跨学科研究。本文对这一领域进行了全面的综述,阐述了由 LLM 赋能的 Agent 驱动的模拟研究的最新进展。我们将模拟分为三类:(1)个体模拟,模拟特定个体或人口群体;(2)场景模拟,多 Agent 在特定情境下协作实现目标;(3)社会模拟,模拟智能体社会内部的互动,以反映现实世界动态的复杂性和多样性。这些模拟遵循从详细的个体建模到大规模社会现象的渐进式发展。我们将详细讨论每种模拟类型,包括模拟的架构或关键组件、目标或场景的分类以及评估方法。之后,我们总结了常用的数据集和基准。最后,我们讨论了这三种模拟类型的发展趋势。相关资源库位于 https://github.com/FudanDISC/SocialAgent。
1.介绍

社会科学研究人类行为和社会结构,以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。问卷调查和心理实验通常用于检验理论假设、理解社会现象并预测集体结果。虽然这些方法可以提供高度真实的数据,但它们成本高昂、难以规模化,并且存在一定的伦理风险。
近年来,大语言模型 (LLM) 在人类级别的推理和规划方面展现出令人印象深刻的能力。它们能够感知环境、做出决策并采取相应的行动,展现出其作为自主智能体替代人类的潜力。在适当的环境下,LLM 驱动的 Agent 能够利用其角色扮演能力(即所谓的算法保真度)准确地模拟相应个体的反应。这一特性使得 LLM 驱动的 Agent 在模拟人类行为方面极具价值。通过在特定场景下重现个体反应模式,LLM 驱动的 Agent 能够帮助研究人员更好地理解、验证和预测人类的反应。
正如个体并非独立存在于社会之中,除了单独的个体 Agent 之外,多 Agent 之间的交互也得到了广泛的研究,用于解决特定问题或模拟现实世界中的复杂动态。一方面,LLM 可以专门化为具有详细知识和技能的 Agent,利用集体智慧解决复杂问题,例如软件开发、自动诊断和司法决策。在这种情况下,多个自主 Agent 协作进行规划、讨论和决策,体现了人类群体解决问题时的合作性质。另一方面,多 Agent 之间的简单交互可以导致复杂的集体行为或模式的出现,从而复制现实世界中复杂的社会动态,例如舆论动态和宏观经济现象。此类模拟为理解、分析和预测现实生活中可能难以或不切实际直接观察的复杂现象提供了宝贵的工具,为政策制定和社会管理等领域的决策提供了强有力的支持。
该研究领域正在迅速扩展,论文涵盖各个方面。考虑到模拟的目的以及各个建模对多样性、规模和准确性的不同要求,我们将现有研究分为三类,如图 1 所示:
- Individual Simulation:利用基于 LLM 的 Agent 来模仿具有共同人口统计特征的特定个体或群体。这类研究侧重于复制单个个体的特征,例如个性,尚未涉及多 Agent 交互。
- Scenario Simulation:将一组 Agent 组织在一个集中的场景中,由特定的目标或任务驱动,例如软件开发、问答和论文评审。此类模拟通常侧重于特定场景中的小型 Agent,强调具有专业知识的 Agent 的集体智慧。
- Society Simulation:模拟 Agent 社会中更复杂、更多样化的行为,以探索现实世界应用中的社会动态。此类模拟可以在小范围内检验社会科学理论,或将大规模的现实社会现象融入虚拟空间和社区。此类模拟中个体的构成更加复杂多样。
这三种类型的模拟呈现出一种递进的关系。个体模拟针对特定的人或某一类人进行建模,是情景模拟和社会模拟的基础。理论上,社会模拟可以涵盖由无数子情景组成的混沌世界,但当前的研究主要集中在特定情景上。
尽管该领域发展迅速,一些综述总结了 Agent 架构或单 Agent 能力或多 Agent 系统的某些方面,但缺乏系统的综述来总结从个体到社会的工作,从而为该领域提供全面的蓝图。这促使我们提出这项综述,旨在为基于LLM的 Agent 驱动的模拟的研究和开发以及更广泛的跨学科研究做出贡献。为了全面描述我们的研究概况,我们将综述组织如下。在§2中简要介绍背景之后,我们将在§3中详细介绍如何进行个体模拟,讨论内容包括:(1) 单个智能体的架构、(2) 个体模拟的构建方法、(3) 目标分类以及 (4) 个体模拟的评估。接下来,在§4中,我们将总结情景模拟,包括:(1) 构成情景模拟系统的要素、(2) 情景分类以及 (3) 情景模拟的评估,探讨多个智能体如何在单个情景中协作实现目标。接下来,在第5节中,我们将介绍社会模拟,并探讨多智能体系统如何通过(1)社会模拟的社会建构要素、(2)社会模拟场景的分类以及(3)社会模拟的评估来构建复杂的社会动态。在第6节中,我们将总结现有的数据集和基准。基于前面的内容,我们将在第7节中分析这三个方面的趋势,并在第8节中得出结论。
2.背景
2.1 Large Language Model-based Agents
得益于大规模参数和基于海量数据的预训练,近年来出现的大语言模型在实现类人智能方面展现出巨大潜力。这引发了基于 LLM 的 Agent 研究的兴起,其核心思想是赋予 LLM 人类的记忆、规划和工具使用等能力。记忆模块使智能体能够存储和操作历史信息,以便于执行未来的操作。不同结构和格式的记忆已被集成到基于 LLM 的 Agent 中。规划模块帮助 Agent 将复杂任务分解为子任务,并在子任务中采用各种规划策略。工具使用模块允许 Agent 利用外部工具或资源来解决任务。总而言之,这些模块帮助 Agent 在复杂多样的环境中更有效地运行。
Multi-agent Systems
要实现复杂的场景,单个 Agent 是远远不够的。涉及多个 Agent 交互的系统被称为多 Agent 系统 (MAS)。这些 Agent 可能拥有共同的目标,例如协同完成一项任务或解决问题;也可能仅仅出于自身利益的考量,导致它们争夺有限的资源。在 Agent 体系统中,每个 Agent 可能被分配不同的角色和技能,以及不同的任务。这些 Agent 可以采用多种组织方式,例如分层或集中式结构,并可以通过不同的方式进行通信。这些因素显著影响着多智能体交互的有效性和效率。
3.Individual Simulation

个体模拟侧重于设计一个模块化架构,该架构集成个性化数据用于构建智能体,并以高保真度模拟特定目标。本节首先概述了个体模拟中 Agent 的基本架构,其中包含四个关键组件(见第3.1节)。然后,在第3.2节中讨论了两种构建方法,以实现第3.3节中介绍的将个性化数据集成到目标中的方法。第3.4节从不同角度分析了评估方法。总体框架如图2所示,代表性工作总结于表1。
3.1 Architecture
为了有效地实现个体模拟,构建一个能够准确复制个体特征的 Agent 架构至关重要。这需要在理论抽象和实际实现之间取得平衡,以捕捉人类行为的复杂性。通常,该架构模块化为四个核心组件:profile、memory、planning 和 action。
3.1.1 Profile
Profile 区分了模拟个体的独特特征,包括属性、行为和约束。Profile 的构建方式和形式各不相同。
Profile Construction。Profile 构建是指收集与个人相关的信息的过程,可分为手动修改和LLM生成。手动修改利用公开数据,通过人工引导的过程创建高质量的人物画像。根据收集的来源,手动修改又可分为三类:手工修改、在线社区修改和历史文学作品修改。手工修改会手动整理一些粗略的信息,例如知名人物和特定人物;而在线社区修改则基于维基百科和社交媒体等网络数据构建人物画像,这些人物画像隐含在对话和资料中。此外,文学作品作为补充描述,反映了作者的思想和故事情节中的人物。LLM生成通过向LLM提供必要的个人信息,自动生成预期的基于人物画像的信息人物画像。这种方法可以轻松探索多样化的人物画像,但其质量需要人工谨慎监督。
Profile Form。Profile 形式定义了个人信息的格式,可分为描述和对话。描述直接描述个人信息或身份,例如姓名、年龄和性别等细节。虽然描述可以直观地反映个体的基本属性,但更深层次的语境信息也可能被忽略。相反,对话则通过对话隐性地反映人物形象。大量的对话数据来源于电影、文学作品和剧本等来源。考虑到LLM在预训练阶段学习到的大量常识性知识,近期的研究利用LLM生成个人对话,通过六个基本要素定义艺术类型,从而生成详细的戏剧剧本,并通过语境学习模仿说话风格。
3.1.2 Memory
Memory 旨在存储感知或生成的信息,帮助 Agent 保持行为的一致性和连续性,并克服LLM上下文窗口有限的问题。鉴于 Memory 的复杂性,研究人员致力于设计更高效的 Memory 类型和操作。
Memory Type。根据存储内容的时间跨度,记忆通常可分为两类:短期记忆和长期记忆。短期记忆记录 Agent 感知到的即时局部信息,可进一步分为模拟内容和模拟补充。模拟内容包括必要的交互数据,例如用户指令、对话历史以及用户/环境响应。模拟补充提供额外的环境信息,例如场景描述和与场景相关的经验,引导 Agent 在模拟过程中恰当地执行任务。长期记忆存储持久的全局信息,防止偏离预期目标,并稳定地保存大量个体特定的信息,包括过去的经验和行为、当前的知识和技能。使用向量数据库作为长期记忆枢纽的提议,使记忆的管理、检索和组织更加有效。
Memory Operation。记忆操作代表Agent对记忆的不断更新和利用。常见的记忆操作包括三种:memory writing、memory retrieval 和 memory reflection。
Memory writing 旨在将相关的历史内容融入记忆中。这个过程类似于人类记忆的形成,有用的信息会被保留下来以供日后检索。需要写入的记忆形式多种多样,包括用户特定的对话历史、新技能、精选论文以及其他形式。
Memory retrieval 旨在根据定制需求从记忆中提取有价值的内容。由于模拟对上下文敏感,个体模拟的整体性能高度依赖于记忆检索的有效性。传统的检索技术依赖于相似性,例如关键词匹配和嵌入向量,而最近的研究则引入了检索模型来选择最相关的信息。
Memory reflection 反映了人类重新思考过去行为和观点的能力。具体来说,它帮助 Agent 组织、提炼和提升记忆,使其成为更抽象、更富有洞察力的概念 (原则)。Generative Agents 通过树状结构的反思过程,维护 Agent 经验的全面记录,以优化记忆利用率。ProAgent 将记忆反思与验证和信念修正相结合,以改进 Agent 的规划和决策。Voyager 允许 Agent 反思其行为,并通过自我验证更新其技能库。尽管记忆反思的应用场景仍然有限,但它在提升性能和增加模拟深度方面表现出显著的进步,尤其是在复杂环境中。
3.1.3 Planning
Planning 是决定一系列旨在实现特定目标的行动的过程。传统的规划任务通常侧重于解决特定问题,例如数学推理或具身任务。然而,在个体模拟层面,Agent 被期望超越单纯的解决问题能力。它们还应该能够在与特定个体互动时模拟个性化的思维和情绪反应。这将 planning 扩展为两个额外的类别:同理心规划和主观规划。
Empathetic planning。同理心规划是指 Agent 在采取行动之前推断和感知他人行为和情绪的能力。它涉及运用思维链 (CoT) 推理来理解他人的处境并做出自适应决策或判断。这使得 Agent 能够根据情绪和行为情境调整自身行动,从而引导其获得个性化反馈。
Subjective planning。主观规划是指 Agent 根据自身的想法和感受,根据其预设的角色或身份采取的行动。这可以包括利用模拟角色的内心独白来微调LLM,或使用CoT引导LLM根据自身信念进行表达。这种规划形式由 Agent 的内在状态驱动,而非由外部刺激或他人需求驱动。
3.1.4 Action
Action 是指LLM与其环境之间的直接交互。动作包含两个关键方面:动作情境(描述动作发生的上下文)和动作域(定义动作空间的要求)。Action 作为模拟人类行为的接口,使LLM能够执行模拟现实世界动作和响应的任务。这种交互使我们能够更深入地理解各种场景下类人决策和执行。
Action Situation。随着个体模拟关注的情境越来越多样化和复杂化,各种各样的动作情境也随之出现,包括对话、游戏、真实世界等等。通常,动作情境可以分为 simple dialogues 和 crafted situations。
Simple dialogues 是指没有环境限制的少轮对话,例如构建两个角色之间的对话。近期研究利用简单对话来诱导模型中的潜在属性,例如性格、特质和毒性。其他研究则通过访谈或问卷调查的方式进行人物角色评估,并结合简单对话进行实验。
Crafted situations 是精心设计的环境,包含详细的规则和周围环境的描述。常见的情境,例如游戏,是由简单的对话修改而来。它们利用游戏规则为用户和 Agent 提供一个固定的虚拟主题,尤其是在棋盘角色扮演游戏中。此外,研究人员还开发了一种更为精细的环境,称为沙盒,它不仅包含规则,还构建了一个客观的环境。为了进一步丰富个体模拟情境,一些作者添加了脚本中现有的一些元素,例如面部表情、细微动作以及来自环境图像的细微信息。
Action Domain。动作域通常根据动作空间的限制分为 closed domain 和 open domain。
Closed domain 模拟发生在可用动作空间有限的情况下。在诸如完成问卷测试、从一组选项中做出决策或按照预定义标准进行评分等简单情况下,LLM 的动作空间由研究人员在模拟之前确定,以使响应可预测。在实际场景中,LLM 需要选择工具或选择特定功能来完成具体的任务,例如推荐、浏览和编译。在该任务中使用 Agent 进行个体模拟可以提高人类的工作效率,其用途远不止娱乐。
Open domain 模拟对操作几乎没有限制,允许LLM自由生成响应。这种方法更接近真实世界的情况,但对个体模拟的要求也更高。在各种开放域任务中,通过对话采取行动是一种模拟个体行为的常用方法,其中多样化的设置激发了LLM进行个体模拟的潜力,并允许研究人员在多样化和细致入微的维度上监督模拟。另一种日益发展的开放域模拟方法是基于场景的交互,其中LLM被分配角色,并需要在沙盒或既定的游戏场景等预设情境中进行交互。
3.2 Construction
构建是指将个体数据融入已建立的LLM模型中,使设计模型与个体契合,从而创建模拟的LLM的过程。构建方法通常分为非参数化提示法和参数化训练法两类。
3.2.1 Nonparametric Prompting
非参数提示,即提示工程,是一种通过设计和优化输入提示来与LLM交互的方法。在一些个体模拟中,基于描述的 Profile 是通过系统提示实现的。研究人员经常创建以“You are a…”开头的系统提示,以便为模型分配特定的人口统计特征和角色。此外,一些研究通过 few-shot 提示来增强LLM的输出,即通过提供具体示例来注入详细信息并提高响应质量。此外,将针对具体问题的细节直接融入提示结构中可以显著提高模拟的有效性。
短期记忆通常通过非参数提示来实现。对于基于情境的个体模拟,环境描述和行为规则通常通过提示工程来传达。由于情境信息通常是客观的且必须遵循,因此在输入中直接强调这些信息是构建模拟的一种相当有效的方法。然而,由于LLM的上下文窗口限制,Profile 提示的质量显著限制了基于提示的个体模拟。此外,LLM中预设的模板配置作为“assistant”,对个体模拟中的提示工程构成了重大挑战。
3.2.2 Parametric Training
参数训练通过直接用给定数据更新LLM参数来修改模型。训练方法通常可分为预训练、微调和强化学习。
Pre-training。个体模拟中的预训练方法侧重于将原始LLM与个体相关的基本数据进行对齐,并为LLM建立个体的基础知识。近期研究中,训练数据集的目标对象多种多样,包括个体描述、文献综述以及哲学著作或言论。
Finetuning。微调方法旨在使LLM适应特定任务和情境下的个体模拟。研究人员收集并修改针对特定情境定制的有监督微调数据集,并对模型进行微调,使其具备相应的能力。使用角色增强数据集是规范模型在个体模拟中行为的有效方法,该数据集通过添加模拟个体行为的指令微调样本来构建。LoRA微调方法可以将多个角色集成到一个模型中。在多模态微调场景中,视觉和文本信息都被认为可以显著增强LLM在多模态情境下的模拟行为。与提示工程相比,微调能够更有效地利用大数据集,并减少LLM预训练阶段带来的限制。
Reinforcement Learning。强化学习方法用于在动态环境中改进模型,目标是最大化累积奖赏。在涉及对话的模拟中,LLM 的响应质量直接影响其获得的奖励,从而激励模型学习在对话中做出适当的回应方式。通过修改奖赏函数,研究人员可以影响模型的偏好,从而成功模仿模拟个体的性格。随着个体模拟变得越来越多样化和复杂,强化学习在改善模拟 LLM 的动态行为方面发挥着至关重要的作用。
3.3 Simulation Objectives
个体模拟的模拟目标可以分为两类:(1)Demographics:一群具有相同特征的人,例如心理特质(例如INTJ)或身份相关特征(例如农民)。(2)Characters:一个特定的个体,无论是真实的还是虚拟的,被人群广泛认可。
3.3.1 Demographics
人口统计学个体是指一群具有相同特征的人。从抽象意义上讲,人口统计学可以理解为代表共同观点和信念的嵌入空间的质心,本质上是为了分类而对个体嵌入进行聚类。人口统计学模拟涉及为LLM分配身份(例如“学生”),并指导模拟器执行特定任务。早期的人口统计学模拟侧重于探究预训练模型中的内部人口统计学属性,为进一步的模拟奠定基础。此外,这些模拟还用于反映民意调查或评估特定群体的偏好和偏见。由于人口统计学模拟能够扩展涉及特定人物角色的合成对话,因此也可以为社会模拟研究做出贡献。在大多数情况下,人口统计学模拟是通过非参数提示来实现的。该领域的许多研究人员专注于设计诸如问卷调查或社会实验之类的任务,以充分挖掘LLM的模拟潜力。
3.3.2 Characters
角色是彼此不同的独特个体。他们可能是普通的平台用户、知名的公众人物,也可能是小说中的虚构人物。研究人员青睐这些角色,因为它们能够提升 LLM(LLM)在特定领域的专业知识,并挑战这些模型的学习能力。从 Haruhi 和 Li Yunlong 到 Beethoven,个体模拟从现实世界和虚拟世界中选择主角。
Real Characters。真实人物,通常是名人,与来自维基百科和社交媒体等平台的高质量数据相关联,从而更容易建立客观的人物 Profile 并评估模拟。许多 LLM 专注于历史人物、不同时期和背景的名人、在线百科全书中的人物以及抖音上的热门主播。由于 LLM 通常对这些人物有所了解,因此创建他们的人物档案相对简单。真实人物和模拟人物也用于测试 LLM 的模拟能力,例如在哲学家模拟中。
Virtual Characters。虚拟角色是小说、电影和电子游戏中创造的虚构角色。虚拟角色模拟技术的进步可以极大地惠及游戏产业和主题公园等娱乐行业。许多研究人员从哈利·波特、孙悟空和佟祥玉等著名虚构人物中汲取灵感。此外,一些实验设计了具有特定属性或目标的虚拟角色。然而,尽管虚拟角色模拟备受关注,但开发虚拟个体 LLM 仍面临挑战,尤其是在确保其数据集的质量和可靠性方面。大多数虚拟角色模拟旨在实现交互式对话,以增强各种娱乐场景中的用户体验。
3.4 Evaluation
为了衡量个体模拟的性能,深入了解其可行性,并指导模拟架构的改进,研究人员开发了各种评估标准和方法,涵盖从简单到复杂的各种方法。这些方法可分为静态评估和交互式评估。
3.4.1 Static Evaluation
静态评估是指基于对话的 LLM 评估,直接诱导其生成并衡量其质量。它可分为主观评估(LLM 评估和人工评估)和客观评估(利用数学工具进行分析)。
Subjective Evaluation。主观评估是指由人工或 LLM 基于主观标准进行的评估。它通常涉及利用不同形式和语境的对话。访谈技巧被广泛采用,因为它们可以有效地促使 LLM 生成预期的回应。其他方法,例如话语模仿,也在一些研究中受到青睐。对话生成后,一些研究会利用高级 LLM 在给定的尺度上评估输出,并考虑绩效维度。这些维度涵盖了从基于心理学的指标(例如大五人格特质 (BFI) 和迈尔斯-布里格斯类型指标 (MBTI))到基于语言的因素(例如语法和语调)等)的方方面面。实验中通常会引入人工标注者,以提供人类参考点。
Objective Evaluation。客观评估是指基于客观指标,运用数学和统计工具进行的评估。它利用数学工具对模拟LLM的生成进行评分。考试通常涉及选项选择(或问卷调查)、排名和问答。选项选择和排名会使用准确率、F1分数和召回率。在生成(问答)的考试中,文本序列相关的工具(例如困惑度、ROUGE-L和BLUE)被广泛用于评估,尤其是那些有参考版本的工具。客观考试是评估LLM在单个模拟中表现的更可靠的方法。然而,它受到很大的限制,有时必须开发特定的客观工具来辅助评估特定维度的模拟。
3.4.2 Interactive Evaluation
交互式评估是一种基于情境的评估方法,它创建了一个详细的交互环境,以衡量个体模拟在复杂场景中的能力。它通常应用于游戏性能、任务完成和精细角色扮演等领域。交互式评估的三个关键特征是精心设计的环境、实时交互式外部响应和多阶段评估。关于精心设计的环境的信息已在§3.1.4中介绍。实时交互式外部响应是指外部环境对模拟LLM的输出做出的反馈。Agent-环境交互在LLM和环境之间构建了多重对话。这些交互有助于揭示LLM在复杂情境中的能力,从而实现更具动态性的模拟。单一方面的测量不足以进行交互式评估,因此许多研究采用了从具体动作到混合动作,或从单轮交互到多轮对话的评估目标。其他研究评估生成质量,重点关注相对于真实值的准确性、诸如语气模仿之类的细微模拟以及自我报告的一致性等方面。在交互式评估中,研究人员不仅优先考虑准确性,还优先考虑模拟与真实场景的相似程度。
4.Scenario Simulation

在现实世界中,个体并非孤立地行动。他们经常在特定场景下协作完成任务。这就引出了一个关键问题:基于LLM的智能体能否像人类一样合作,甚至在实现集体智慧方面超越人类?为了回答这个问题,研究人员模拟了多个个体在各种场景(从日常对话到复杂的专业任务)中的交互和协作,以增强集体智慧和解决问题的能力。场景模拟通常始于设计一个多 Agent 系统,包括构建场景环境、建模 Agent 角色,以及建立组织结构和通信协议来管理 Agent 之间的交互。
在本节中,我们将在§4.1中从四个关键方面开始讨论场景模拟的系统组成。随后,我们将在§4.2中总结最近引起研究人员关注的几个场景。最后,我们将在§4.3中回顾常用的评估场景模拟的方法和指标。整体框架如图3所示,代表性工作总结于表2中。
4.1 System
场景的多样性给提出一个适用于所有场景的统一系统带来了挑战。当前的大多数系统可以概括为“通过受限的通信,将 Agent 组织起来,在专用环境中扮演角色”。基于这一概括性描述,我们确定了场景模拟中的四个关键概念:环境、角色、组织和通信。
4.1.1 Environment
场景模拟中的环境定义了智能体在其中运行和交互的特定情境。正如人类从周围环境收集信息一样,Agent 也依赖环境从各种来源接收输入。这些信号引导着系统内 Agent 的行为和策略。因此,全面了解环境为 Agebt 的决策和任务连续性奠定了基础。我们将重点分析现有工作的环境,重点关注四个关键方面:配置、状态、历史记录和工具。
Configuration。环境配置提供基本信息,特别是场景中任务和目标所需的基本要素。系统将相应地初始化 Agent,以便它们与明确的目标进行交互。更具体地说,环境配置可能包括环境中的事件和Agent 的 profile。
Events 被表示为需要解决的主要焦点,例如提交法庭的具体案件,以及作为多 Agent 辩论基础的主题。
Profile 是指与特定场景下的 Agent 相关的个性化信息。与个体模拟中描述的基本属性不同,该模块涵盖了Agent 身份的各个方面,包括其兴趣、目标和角色。Agent 还可以配置为访问外部资源,例如相关研究论文、预定义策略或疾病信息。
State。环境状态包含场景执行过程中环境提供的信息(而配置在开始时就已固定)。它们直接影响 Agent 的决策和行为。根据代理接收信息的方式,状态可以进一步分为观察状态和反馈状态。
Observation 涉及环境变化以及周围实体的当前状态。例如,向 Agent 提供其他 Agent 的属性和空间位置,以便其进行实时决策。此外,持续更新 Afebt 的物理状态可用于与其环境和邻近代理建立实时空间关系。
Feedback 是指 Agent 执行操作后收到的响应,用于指导未来的策略调整。一些研究描述了 Agent 如何根据每次交互后的反馈来调整其认知状态和策略,从而使其能够模拟类似人类的适应性。同时,Agent 还会提供有关市场事件或他人决策以及外部工具执行结果的反馈,以促进策略调整并指导未来行动。
History。随着场景的运行,过去的状态和交互会累积成一系列历史记录。Agent 可以利用它们来适应新情况并改进策略,从而确保在动态环境中更连贯、更有效地执行任务。我们总结了四种广泛使用的处理和利用历史记录的方法,包括直接集成、改进、摘要和记忆机制。
Direct integration 将历史记录不加修改地附加到当前输入。Agent 可以通过将过去的对话直接合并到当前会话中来保持任务的连续性。多余的内容会被截断以适应 token 限制,同时保留关键的历史信息。
Refinement 会根据历史记录迭代更新和增强答案。Ma et al. 使用子图聚焦机制来细化答案,使 Agent 能够在每个推理步骤后优化结果。类似地,Weiss et al. 和 D’Arcy et al. 迭代地改进初始答案,以收敛到更准确的结果。
Summarization 是从历史中提炼出重要见解。具体做法包括:综合多个计划的核心行动,为不同场景提供参考;汇总多个 Agent 的报告,巩固研究结果;以及共享关键解决方案子任务,避免冗长的对话记录。
Memory mechanisms 通过 Agent 的记忆模块处理历史记录。这种动态方法使 Agent 能够在会话内部和跨会话保存相关信息。此外,Hong et al. 提出了共享消息池,以进一步提高通信效率,Agent 可以直接交换结构化消息,并以个性化的方式检索信息。
Tools。外部工具提供与场景模拟任务相关的专用功能,从而实现更准确、更精确的结果。场景模拟中使用的工具种类繁多,从 Python 和 SQL 等编程语言到方便外部交互的 API。通常,Python 主要用于执行和验证程序。SQL 和知识图谱查询工具已被用来检索外部结构化数据。在某些情况下,任务相关的工具(例如计算器、预定义工具和 API)也被用来提供中间结果,从而简化代理的处理流程。
4.1.2 Role
在场景模拟中,我们根据 Agent 的任务和功能为其分配不同的角色。如图 3 所示,典型场景中存在两组角色:参与者执行情景中的任务,而指导者则管理任务执行流程并提供必要的协助。每个角色都有各自的职责,分别侧重于系统运行的不同方面。他们相互协作,共同实现系统的总体目标。
4.1.3 Organization
4.1.4 Communication
4.2 Scenario
4.2.1 Dialog-Driven Scenario
4.2.2 Task-Driven Scenario
4.3 Evaluation
5.Society Simulation
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)