OpenDWM项目安装与配置指南

1. 项目基础介绍

OpenDWM(Open Driving World Models)是一个开源项目,专注于自动驾驶视频生成。该项目旨在提供一个高质量、可控制的工具,用于生成自动驾驶视频,采用最新的技术,并致力于构建一个既用户友好又高度可重用的代码库。

主要编程语言:Python

2. 项目使用的关键技术和框架

  • 模型架构:支持流行的模型架构(如SD 2.1, 3.5),便于利用社区内先进的预训练生成能力。
  • 训练技术:包括多任务学习和自监督等多种训练技术,有效地利用自动驾驶视频数据中的信息。
  • 评估框架:遵循流行的torchmetrics框架,方便配置、开发和集成到管道中。

3. 项目安装和配置的准备工作

准备工作

  • 硬件要求:对于生成多视图图像或短视频(<= 6帧/迭代),需要32GB GPU内存(例如V100);对于生成多视图长视频(6 ~ 40帧/迭代),需要80GB GPU内存(例如A100, H100)。
  • 软件要求:安装git(版本>= 2.25)和Python(版本>= 3.9)。

安装步骤

  1. 安装PyTorch:

    python -m pip install torch==2.5.1 torchvision==0.20.1
    
  2. 克隆仓库并安装依赖项:

    cd OpenDWM
    git submodule update --init --recursive
    python -m pip install -r requirements.txt
    
  3. 根据具体需求配置和运行项目。以下是一个基本的项目配置和运行的例子:

    • 示例:生成视频

      1. 下载基础模型和驾驶生成模型检查点。

      2. 编辑JSON配置文件中的pathprompts

      3. 运行以下命令:

        PYTHONPATH=src python examples/ctsd_generation_example.py -c examples/ctsd_35_6views_image_generation.json -o output/ctsd_35_6views_image_generation
        
    • 示例:根据布局条件生成视频

      1. 下载基础模型和驾驶生成模型检查点。

      2. 下载布局资源包并解压到指定路径。

      3. 修改JSON配置文件中的相关路径。

      4. 运行以下命令:

        PYTHONPATH=src python src/dwm/preview.py -c examples/ctsd_35_6views_video_generation_with_layout.json -o output/ctsd_35_6views_video_generation_with_layout
        

确保按照项目的具体需求和指导进行配置和操作,以获得最佳结果。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐