1. 基本信息

  • 题目:AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction
  • 时间:2024.12
  • 发表:arxiv
  • 机构:Alibaba等
  • 作者:Lingteng Qiu等
  • 链接直达:Project
  • 关键词:img to 3d, human avatar
  • 概括:通过multiview diffusion model生成,输入一个img,生成multiview,通过优化4DGS获得3D模型
  • 摘要翻译:从单幅图像中生成可动画的人体化身对于各种数字人体建模应用至关重要。现有的三维重建方法往往难以捕捉动画模型中的精细细节,而可控动画的生成方法虽然避免了隐含3D建模,在极端姿势中存在视点不一致和计算效率低下的问题。在本文中,我们通过利用生成模型的力量来解决这些挑战,以产生详细的多视图规范姿势图像,这有助于解决可动画人体重建中的模糊问题。然后,我们提出了一种鲁棒的方法对不一致图像进行三维重建,从而在推理过程中实现实时渲染。具体来说,我们采用了一种基于Transformer的视频生成模型来生成多视角规范姿态图像和法线图,在大规模视频数据集上进行预训练,提高泛化性。为了处理视图不一致性,我们将重建问题重铸为4D任务,并使用4D Gaussian抛雪球介绍了一种高效的3D建模方法。实验表明,我们的方法实现了真实感的、实时的3D人体替身动画,显示了它的有效性和泛化能力。

2. 理解(个人初步理解,随时更改)

  1. 干了一件什么事:

  2. 怎么来的:

  3. pipeline(如图):

数据集
训练数据集:
预训练阶段:为训练多视图生成模型,使用动态人体视频数据集。大约10万个单人视频样本。
微调阶段:用公共合成3D数据集的组合来渲染多视图图像。数据集包括2K2K,Thuman2.0,Thuman2.1和CustomHumans,以及Thwindom和RenderPeople等商业数据集。值得注意的是,没有使用人体模型进行训练。总共利用了6124个人工合成的扫描数据。

3个setting上进行实验:
canonical multi-view generation【Compare to MagicMan, CHAMP】
multi-view reconstruction【CharacterGen,SiTH, MagicMan, LGM】
human animation【En3D and CharacterGen】
评价数据集:
从Human4DiT中选择50个rigged human avatars,来评估setting1和2上的性能
对于setting3:使用Blender获取GTvideo,并导出运动序列来驱动创建的人体模型。然后,我们在前景区域中计算photometric metrics来评估在animation上的性能。

实验setting 评测数据 baseline
canonical multi-view generation Human4DiT MagicMan, CHAMP
multi-view reconstruction Human4DiT CharacterGen,SiTH, MagicMan, LGM
human animation Blender En3D , CharacterGen
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐