世界模型新进展-ReSim:融合Carla非专家行为数据后效果领先Vista!
ReSim通过整合真实人类驾驶日志与 CARLA 模拟器中收集的非专家行为数据,构建可控的高保真视频生成模型,实现对各类驾驶行为(包括越界、碰撞等危险行为)的可靠模拟。
编者荐语:香港中文大学、上海AI Lab等联合推出ReSim世界模型,突破自动驾驶模拟瓶颈!融合真实专家驾驶行为数据与CARLA生成的非专家行为数据,精准生成碰撞、越界等现实中难以获取的危险驾驶行为视频!CARLA作为核心的“危险行为数据生成器”,提供了至关重要的88,000条非专家轨迹(如偏航、低速、碰撞),弥补了现实数据集的巨大空白,是构建高可靠性、能泛化到极端场景的世界模型不可或缺的一环!

-
作者:Jiazhi Yang, Kashyap Chitta, Shenyuan Gao, Long Chen, Yuqian Shao, Xiaosong Jia, Hongyang Li, Andreas Geiger, Xiangyu Yue, Li Chen
-
作者单位:
-
香港中文大学、上海AI实验室OpenDriveLab
-
NVIDIA Research、香港大学、上海交通大学、图宾根大学、HKUST、小米EV
-
-
论文链接:arXiv:2506.09981
-
项目主页:https://opendrivelab.com/ReSim
简介
现有的世界模型大多仅基于现实中“专家级”驾驶行为数据,难以模拟危险或非专家行为,从而限制了策略评估等应用场景。本文提出 ReSim,通过整合真实人类驾驶日志与 CARLA 模拟器中收集的非专家行为数据,构建可控的高保真视频生成模型,实现对各类驾驶行为(包括越界、碰撞等危险行为)的可靠模拟。此外,提出 Video2Reward 模块,从模拟视频中估计奖励,使其可用于策略选择和闭环测试。
研究动机
-
现状问题:
-
当前自动驾驶世界模型以“安全专家轨迹”为主;
-
难以泛化到危险或极端场景;
-
缺乏奖励反馈,限制规划和决策使用。
-
-
本论文关注的问题:
-
如何在保留高视觉保真度的同时,精确控制输入动作;
-
如何将预测未来的视频序列转换为可量化奖励,用于策略评估与优化。
-
论文贡献
-
提出 ReSim 模型:结合真实专家数据与模拟非专家数据,提升模型可控性;
-
设计多项训练机制:包括动态一致性损失、非均匀噪声采样、多阶段微调;
-
引入 Video2Reward 模块:从生成的视频中估计奖励,实现端到端可用性;
-
系统评估:在 Waymo、nuScenes、NAVSIM 上验证其在可控性、保真度和策略性能上的领先表现。
ReSim模型
(a)异质驾驶数据包括(i,ii)专家的安全驾驶日志,以及(iii)模拟的潜在危险(非专家)驾驶行为。
(b)事先驾驶世界模型仅对专家数据进行了训练,从而导致始终安全但不准确的想象力;在RESIM中,利用所有数据源来模拟可靠和现实的未来,并建立强大的奖励模型,该模型将概括为模拟器中的开放世界情景。
(c)恢复的高保真预测,准确的行动跟踪和奖励估计能力有助于驱动与政策部署和模拟有关的驾驶应用程序。
ReSim 基于 CogVideoX 文本到视频扩散模型构建,加入了视觉上下文和未来轨迹条件,并新增以下三个关键组件:
1. 多源异构训练数据整合
-
专家数据:OpenDV (4M 视频),NAVSIM (85K)
-
非专家模拟数据:CARLA (88K),含偏航、低速、碰撞等异常轨迹
2. 可控视频生成模型
-
核心损失函数:视频扩散损失

其中:
-
:扩散后视频 latent
-
:历史视频
-
:文本命令
-
:未来动作(ego trajectory)
-
动态一致性损失(Dynamics Consistency Loss):
最终总损失:
-
非均匀噪声采样:增加高噪声步长采样频率,使模型更关注复杂动态。
3.奖励估计模块(Video2Reward)
架构:Frozen DINOv2 + MLP
监督信号:CARLA 模拟器的 infraction score(碰撞、脱轨、低速等)
推理方式:
-
用 ReSim 对输入轨迹进行未来预测;
-
将视频送入 V2R 模型估计奖励;
-
可用于策略排序与选择。
实验结果与分析
在 Waymo 上:ReSim 相较 Vista,动作跟随误差降低 80%(expert)、54%(action-free);
人类偏好测试中,在非专家行为上: ReSim 的视觉真实度和轨迹可控性均获最高票。




论文亮点总结
ReSim 是首个融合真实与模拟数据、可精确控制动作并支持奖励估计的世界模型,在视频保真度、动作可控性、策略评估等方面均领先现有方法,为通用自动驾驶提供关键支撑。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)