2009年,《阿凡达》(《Avatar》)将"意识注入克隆体"的幻想投射到银幕,"化身"(Avatar)一词随之超越宗教的概念而被重新诠释为人类数字生命的象征。

今天,我们离拥有自己的数字生命还有多远?

e6633a6736e27f7555af490666e6e3e3.png

论文:How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulations
Arxiv: https://arxiv.org/abs/2502.14642
Github: https://github.com/O-L1RU1/BehaviorChain

Digital Twin:从工业镜像到人类化身

3c40d9254e9b6869757398afcca5bf26.png

“Digital Twin”最初是工业领域的革命性概念——为物理实体(如引擎、建筑或城市)构建的可计算、可干预的实时联动系统。

随着元宇宙的兴起,人们对“Digital Twin”的期待由“物的镜像”扩展到“人的镜像”——在虚拟世界中,每个人都能拥有一个高度逼真的数字分身,进行社交互动、工作学习,甚至体验另一种人生。

凭借卓越的语言理解、生成能力,以及类人思维、情感和知识表达,大语言模型(LLMs)正引发学术界对“LLMs as Human Digital Twins”的深刻期待。人们设想通过整合个性化的历史信息使LLMs能够精准复制个体特征,或模拟专业知识成为领域专家,或提供定制化的情感陪伴与服务,或代表人类用户执行授权的代理行为并自主执行推理、决策等复杂任务。更进一步,基于LLM的“Digital Twin”个体可扩展为“Digital Twins”群体,在特定场景下交互构成“Social Digital Twins”,为研究群体决策、危机应对等复杂人类行为动态提供了新的视角。

尽管LLMs作为人类“Digital Twins”的概念引人遐想,其模拟的现实有效性仍需深入验证。语言和行为是评估“Digital Twins”的两大关键维度,当前研究多集中于LLMs的人类对话模拟,而更具挑战性、也更具代表性的人类行为模拟,尤其是在特定时空背景下的连续行为模拟,仍然亟待探索。

BehaviorChain: 1,001 段历史,人格,与连续行为序列

BehaviorChain基本信息

现实世界中高质量连续行为数据的稀缺性与隐私顾虑,限制了大规模数据构建。然而,海量文学作品提供了安全、可控且内容丰富的替代方案。

人物塑造丰满的文学作品,为评估大语言模型(LLMs)的连续行为模拟能力提供了理想的测试环境。这些作品不仅呈现了多元化的人物角色与细致的行为刻画,更构建了动态演进的情节场景,为考察LLMs在复杂、连续情境中的行为模拟提供了资源。

为填补LLMs在连续行为模拟方面的研究空白,作者们以小说和传记为载体提出基准BehaviorChain。该基准包含1,001个独特人物的连续行为序列(behavior chain),总计15846个行为节点,每位人物均配备详尽的个人档案(profile)和历史(history)。

9c494089226c5ee864bbfd3a42cb99e6.png

Example: Profile and History

个人档案(profiles)和历史(history)的构建均基于SuperSummary提供的文学作品分析材料。其中,人物档案(profile)源自SuperSummary的角色分析,经结构化处理后生成包含性格、动机等关键特征的深度角色解读,history则由改写后的章节摘要构成。

506b2ac4d0a90a26d6904db62f4e040c.png

Example: Context and Behavior Node

每个行为序列(behavior chain)由10至20个情境-行为(context-behavior)节点组成,通过对文学作品进行章节选择与分割、层次化的情境-行为提取,作者们获得了连续的、有意义的、不重复的行为及其对应情境

11b26ccedfbc98ecb9d74ef2dc6022e8.png
BehaviorChain数据构造关键步骤——行为链的提取和干扰项生成
  • 章节选择与段落分割 (Chapter Selection and Segmentation)
    为确保人物行为的连贯性、一致性并最大化可提取的行为数量,作者们从书籍后半部分中选取目标人物出现频率最高的章节,将其依目标人物出现频率均匀划分为段落,每个段落对应提取一个目标行为。

a849f1f3012f91a6a66f49cc3780c0a5.png
  • 行为与情境提取 (Behavior and Context Extraction)
    为解决行为提取中的非唯一性、无意义性以及情境信息泄露行为等问题,作者们采用了分层情境-行为提取方法。首先,从首个段落提取初始情境和人物关键行为,作为行为链的首个节点。在后续的生成中,依据前一节点的情境、行为以及当前段落,提取相应的情境和行为。最后,通过相似性和意义性双重验证,确保提取行为的有效性,并进行后处理以实现情境和行为的有效隔离。

57c07782e7cb4b4e2fac16907558b8b3.png
  • 干扰项生成 (Distractors Generation)
    为构建多项选择任务,作者们为每个情境-行为节点干扰项。首先,识别原始行为体现的核心人格特质,作为干扰项生成的心理锚点。随后,生成三个与情境相关、人格特征不同的对抗性干扰项,确保干扰项在情境上与原始行为关联,同时在人格特质上形成显著区分。

061f7ef6b76cb4da90f73c6b8e1c943a.png
任务设置:Complete the Behavior Chain One by One

作者们设计了包含选择任务和开放式生成任务的综合评估框架以评估LLMs的连续行为模拟能力。在选择任务中,输入包括人物档案(profile)、历史信息(history)、历史情境-行为序列(context-behaciors)、当前情境(current context)以及四个待选行为,所有原人物名称被随机替换为其他名称。被评估模型需选择当前情境下人物最有可能采取的行为。而在开放式生成任务中,待选行为不再作为输入提供,被评估模型需自主生成人物可能采取的行为。

76a3e5018e5a549a121a3cd66eef67a3.png

LLMs的“Digital Twin”之路,或许还有很远

整体性能不足

即使是最先进的LLMs,无论是闭源模型如GPT-4o,还是开源模型如Llama-3-70B,在BehaviorChain数据集上的平均准确率(AvgAcc)均未超过60%,链式准确率(ChainAcc)则更低。这表明,LLMs在识别符合人物与情境的连续行为方面,存在显著挑战,尤其难以维持长期的行为一致性。

在更贴近实际场景的生成任务中,LLMs的表现明显逊于选择题任务。这揭示了在 “Digital Twin”的愿景与实际应用之间,特别是需要长期行为保真度的生成式应用,存在鸿沟

3c61a3ebf3af8f0164cf0652422a20bd.png
非关键行为模拟劣势

与关键行为(key behaviors)相比,LLMs在模拟次关键行为(sub-key behaviors)时表现显著不足。这表明,LLMs更擅长识别和模拟具有高影响力的行为,而对于需要深度情境理解和推理的次关键行为缺乏敏感性

f9b4d8f44c84c00965e3a55a0f9e4b62.png
In-Context Learning的短暂增益与LLMs模拟能力的链式衰减

初期的情境-行为节点(NODE#1-NODE#5)能够为后续的行为识别提供良好的线索与示范,呈现出短期的上下文学习(in-context learning)效应(NODE#6-NODE#10)。然而,ICL的提升效果并未贯穿整个行为链。随着链条延伸,LLMs准确模拟人物行为变得越来越困难(NODE#11-NODE#20)。

256116f517c2d212e8c9f7e49019db8b.png
滚雪球效应

当作者们将模型选择的行为(chosen behavior)替换为真实行为(ground truth)作为历史节点输入模型时,LLMs模拟性能的显著下降。这表明,早期节点中偏离人物或情境的行为,会加剧LLMs在后续节点中出错的可能。这种滚雪球效应在真实场景中将带来更为严峻的挑战——由于无法获取ground truth,模型之前的行为记录被用作历史,而偏离人物角色的行为将持续影响后续行为的模拟,产生雪崩式的影响

5807b694e44d9259e1cd0d61bb1206f8.png

小结

本文提出了BehaviorChain连续行为模拟基准,利用文学素材中的人物构建人类“Digital Twin”的简化原型,揭示了当前LLMs在模拟人类连续行为时的局限。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

20f4404db13737ae37fd0b7dbbb218dd.png

id:DLNLPer,记得备注呦

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐