Diffusion生成室外3D大场景论文笔记：SemCity [CVPR2024], Pyramid Discrete Diffusion [ECCV2024 Oral]

Diffusion生成室外3D大场景论文方法详解

xying_chloe

1175人浏览 · 2025-02-03 11:09:11

xying_chloe · 2025-02-03 11:09:11 发布

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

Diffusion基础：

Diffusion扩散模型梳理笔记（一）: DDPM, DDIM, Classifier Guidance, Classifier-Free Guidance-CSDN博客

Diffusion扩散模型梳理笔记（二）：LDM (Stable Diffusion核心算法), DiT (Transformer架构）-CSDN博客

论文1 SemCity: Semantic Scene Generation with Triplane Diffusion [CVPR2024]

代码：GitHub - zoomin-lee/SemCity: [CVPR 2024] The official implementation for "SemCity: Semantic Scene Generation with Triplane Diffusion"
要点：
- 将三平面(Triplane)表征方式用于大场景生成
- 用扩散模型实现生成【扩散在Triplane空间实现】
- 可以完成场景修复(inpainting)、扩展(outpainting)和语义补全(semantic scene completion)的任务
Pipeline:
- 场景压缩：场景【输入】→ Encoder → 三平面(Triplane)特征 → Decoder → 场景语义预测
- 扩散生成：三平面(Triplane)特征 → 前向加噪 → 纯噪音 → 反向去噪 → Decoder → 场景语义预测
核心模块1: Triplane的场景压缩方法
- Auto-Encoder结构：Encoder为3D卷积层， Decoder为MLP
核心模块2: Triplane Diffusion
- 扩散方法：DDPM【对三平面(Triplane)操作】
下游任务实现：
- 场景修复(inpainting)：
- 场景拓展(outpainting)：生成新的更大三平面（和原三平面有重叠），处理方法和inpainting类似
- 场景语义补全(semantic scene completion)：

论文2: Pyramid Diffusion for Fine 3D Large Scene Generation [ECCV2024 Oral]

代码：GitHub - yuhengliu02/pyramid-discrete-diffusion: Official implementation of paper "Pyramid Diffusion for Fine 3D Large Scene Generation" (ECCV 2024 Oral)
要点：通过设计Pyramid Discrete Diffusion (PDD)，实现由粗到细的场景生成
PDD方法详解：
- Discrete Diffusion：对体素空间进行加噪去噪
- Pyramid Discrete Diffusion (PDD)
  - 对多个尺度的场景扩散
- 场景细分(Scene Subdivision)
  - 将场景 $Z^{(l)}$ 划分为四个重叠的子场景 $Z^{(l)}_{i}, i = 1,2,3,4$
  - 整个场景以自回归的方式生成【划分时的重叠区域，保证生成的连续性】
PDD的优势：
- 高质量生成结果
- 每个尺度的Diffusion是独立的，可以并行训练
- 可以从中间过程开始，恢复任何粗粒度场景的生成

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla