【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

Diffusion基础:

Diffusion扩散模型梳理笔记(一): DDPM, DDIM, Classifier Guidance, Classifier-Free Guidance-CSDN博客

Diffusion扩散模型梳理笔记(二):LDM (Stable Diffusion核心算法), DiT (Transformer架构)-CSDN博客

论文1 SemCity: Semantic Scene Generation with Triplane Diffusion [CVPR2024]

  • 代码:GitHub - zoomin-lee/SemCity: [CVPR 2024] The official implementation for "SemCity: Semantic Scene Generation with Triplane Diffusion"
  • 要点:
    • 将三平面(Triplane)表征方式用于大场景生成
    • 用扩散模型实现生成【扩散在Triplane空间实现】
    • 可以完成场景修复(inpainting)、扩展(outpainting)和语义补全(semantic scene completion)的任务
  • Pipeline: 
    • 场景压缩:场景【输入】→ Encoder → 三平面(Triplane)特征 → Decoder → 场景语义预测
    • 扩散生成:三平面(Triplane)特征 → 前向加噪 → 纯噪音 → 反向去噪 → Decoder → 场景语义预测
  • 核心模块1: Triplane的场景压缩方法
    • Auto-Encoder结构:Encoder为3D卷积层, Decoder为MLP
  • 核心模块2: Triplane Diffusion
    • 扩散方法:DDPM【对三平面(Triplane)操作】
  •  下游任务实现:
    • 场景修复(inpainting):
    • 场景拓展(outpainting):生成新的更大三平面(和原三平面有重叠),处理方法和inpainting类似
    • 场景语义补全(semantic scene completion):

论文2: Pyramid Diffusion for Fine 3D Large Scene Generation [ECCV2024 Oral]

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐