世界模型新进展-ReSim：融合Carla非专家行为数据后效果领先Vista！

ReSim通过整合真实人类驾驶日志与 CARLA 模拟器中收集的非专家行为数据，构建可控的高保真视频生成模型，实现对各类驾驶行为（包括越界、碰撞等危险行为）的可靠模拟。

SYNKROTRON

235人浏览 · 2025-08-04 14:49:31

SYNKROTRON · 2025-08-04 14:49:31 发布

编者荐语：香港中文大学、上海AI Lab等联合推出ReSim世界模型，突破自动驾驶模拟瓶颈！融合真实专家驾驶行为数据与CARLA生成的非专家行为数据，精准生成碰撞、越界等现实中难以获取的危险驾驶行为视频！CARLA作为核心的“危险行为数据生成器”，提供了至关重要的88,000条非专家轨迹（如偏航、低速、碰撞），弥补了现实数据集的巨大空白，是构建高可靠性、能泛化到极端场景的世界模型不可或缺的一环！

作者：Jiazhi Yang, Kashyap Chitta, Shenyuan Gao, Long Chen, Yuqian Shao, Xiaosong Jia, Hongyang Li, Andreas Geiger, Xiangyu Yue, Li Chen
作者单位：
- 香港中文大学、上海AI实验室OpenDriveLab
- NVIDIA Research、香港大学、上海交通大学、图宾根大学、HKUST、小米EV
论文链接：arXiv:2506.09981
项目主页：https://opendrivelab.com/ReSim

简介

现有的世界模型大多仅基于现实中“专家级”驾驶行为数据，难以模拟危险或非专家行为，从而限制了策略评估等应用场景。本文提出 ReSim，通过整合真实人类驾驶日志与 CARLA 模拟器中收集的非专家行为数据，构建可控的高保真视频生成模型，实现对各类驾驶行为（包括越界、碰撞等危险行为）的可靠模拟。此外，提出 Video2Reward 模块，从模拟视频中估计奖励，使其可用于策略选择和闭环测试。

研究动机

现状问题：
- 当前自动驾驶世界模型以“安全专家轨迹”为主；
- 难以泛化到危险或极端场景；
- 缺乏奖励反馈，限制规划和决策使用。
本论文关注的问题：
- 如何在保留高视觉保真度的同时，精确控制输入动作；
- 如何将预测未来的视频序列转换为可量化奖励，用于策略评估与优化。

论文贡献

提出 ReSim 模型：结合真实专家数据与模拟非专家数据，提升模型可控性；
设计多项训练机制：包括动态一致性损失、非均匀噪声采样、多阶段微调；
引入 Video2Reward 模块：从生成的视频中估计奖励，实现端到端可用性；
系统评估：在 Waymo、nuScenes、NAVSIM 上验证其在可控性、保真度和策略性能上的领先表现。

ReSim模型

（a）异质驾驶数据包括（i，ii）专家的安全驾驶日志，以及（iii）模拟的潜在危险（非专家）驾驶行为。
（b）事先驾驶世界模型仅对专家数据进行了训练，从而导致始终安全但不准确的想象力；在RESIM中，利用所有数据源来模拟可靠和现实的未来，并建立强大的奖励模型，该模型将概括为模拟器中的开放世界情景。
（c）恢复的高保真预测，准确的行动跟踪和奖励估计能力有助于驱动与政策部署和模拟有关的驾驶应用程序。

ReSim 基于 CogVideoX 文本到视频扩散模型构建，加入了视觉上下文和未来轨迹条件，并新增以下三个关键组件：

1. 多源异构训练数据整合

专家数据：OpenDV (4M 视频)，NAVSIM (85K)
非专家模拟数据：CARLA (88K)，含偏航、低速、碰撞等异常轨迹

2. 可控视频生成模型

核心损失函数：视频扩散损失

其中：

：扩散后视频 latent
：历史视频
：文本命令
：未来动作（ego trajectory）
动态一致性损失（Dynamics Consistency Loss）：

最终总损失：

非均匀噪声采样：增加高噪声步长采样频率，使模型更关注复杂动态。

3.奖励估计模块（Video2Reward）

架构：Frozen DINOv2 + MLP

监督信号：CARLA 模拟器的 infraction score（碰撞、脱轨、低速等）

推理方式：

用 ReSim 对输入轨迹进行未来预测；
将视频送入 V2R 模型估计奖励；
可用于策略排序与选择。

实验结果与分析

在 Waymo 上：ReSim 相较 Vista，动作跟随误差降低 80%（expert）、54%（action-free）；

人类偏好测试中，在非专家行为上： ReSim 的视觉真实度和轨迹可控性均获最高票。

论文亮点总结

ReSim 是首个融合真实与模拟数据、可精确控制动作并支持奖励估计的世界模型，在视频保真度、动作可控性、策略评估等方面均领先现有方法，为通用自动驾驶提供关键支撑。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla