Diffusion生成室外3D大场景论文笔记:SemCity [CVPR2024], Pyramid Discrete Diffusion [ECCV2024 Oral]
Diffusion生成室外3D大场景论文方法详解
·
【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】
Diffusion基础:
Diffusion扩散模型梳理笔记(一): DDPM, DDIM, Classifier Guidance, Classifier-Free Guidance-CSDN博客
Diffusion扩散模型梳理笔记(二):LDM (Stable Diffusion核心算法), DiT (Transformer架构)-CSDN博客
论文1 SemCity: Semantic Scene Generation with Triplane Diffusion [CVPR2024]
- 代码:GitHub - zoomin-lee/SemCity: [CVPR 2024] The official implementation for "SemCity: Semantic Scene Generation with Triplane Diffusion"
- 要点:
- 将三平面(Triplane)表征方式用于大场景生成
- 用扩散模型实现生成【扩散在Triplane空间实现】
- 可以完成场景修复(inpainting)、扩展(outpainting)和语义补全(semantic scene completion)的任务
- Pipeline:
- 场景压缩:场景【输入】→ Encoder → 三平面(Triplane)特征 → Decoder → 场景语义预测
- 扩散生成:三平面(Triplane)特征 → 前向加噪 → 纯噪音 → 反向去噪 → Decoder → 场景语义预测

- 核心模块1: Triplane的场景压缩方法
- Auto-Encoder结构:Encoder为3D卷积层, Decoder为MLP

- Auto-Encoder结构:Encoder为3D卷积层, Decoder为MLP
- 核心模块2: Triplane Diffusion
- 扩散方法:DDPM【对三平面(Triplane)操作】

- 扩散方法:DDPM【对三平面(Triplane)操作】
- 下游任务实现:
- 场景修复(inpainting):

- 场景拓展(outpainting):生成新的更大三平面(和原三平面有重叠),处理方法和inpainting类似
- 场景语义补全(semantic scene completion):

- 场景修复(inpainting):
论文2: Pyramid Diffusion for Fine 3D Large Scene Generation [ECCV2024 Oral]
- 要点:通过设计Pyramid Discrete Diffusion (PDD),实现由粗到细的场景生成
- PDD方法详解:
- Discrete Diffusion:对体素空间进行加噪去噪

- Pyramid Discrete Diffusion (PDD)
- 对多个尺度的场景扩散

- 对多个尺度的场景扩散
- 场景细分(Scene Subdivision)
- 将场景
划分为四个重叠的子场景
- 整个场景以自回归的方式生成【划分时的重叠区域,保证生成的连续性】
- 将场景
- Discrete Diffusion:对体素空间进行加噪去噪
- PDD的优势:
- 高质量生成结果
- 每个尺度的Diffusion是独立的,可以并行训练
- 可以从中间过程开始,恢复任何粗粒度场景的生成
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)