【AniGS】论文阅读

微调阶段：用公共合成3D数据集的组合来渲染多视图图像。数据集包括2K2K，Thuman2.0，Thuman2.1和CustomHumans，以及Thwindom和RenderPeople等商业数据集。值得注意的是，没有使用人体模型进行训练。对于setting3：使用Blender获取GTvideo，并导出运动序列来驱动创建的人体模型。然后，我们在前景区域中计算photometric metrics

萌新一个啥都不会

1174人浏览 · 2025-01-08 16:20:07

萌新一个啥都不会 · 2025-01-08 16:20:07 发布

笔记目录

1. 基本信息
2. 理解（个人初步理解，随时更改）

1. 基本信息

题目：AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction
时间：2024.12
发表：arxiv
机构：Alibaba等
作者：Lingteng Qiu等
链接直达：Project
关键词：img to 3d, human avatar
概括：通过multiview diffusion model生成，输入一个img，生成multiview，通过优化4DGS获得3D模型
摘要翻译：从单幅图像中生成可动画的人体化身对于各种数字人体建模应用至关重要。现有的三维重建方法往往难以捕捉动画模型中的精细细节，而可控动画的生成方法虽然避免了隐含3D建模，在极端姿势中存在视点不一致和计算效率低下的问题。在本文中，我们通过利用生成模型的力量来解决这些挑战，以产生详细的多视图规范姿势图像，这有助于解决可动画人体重建中的模糊问题。然后，我们提出了一种鲁棒的方法对不一致图像进行三维重建，从而在推理过程中实现实时渲染。具体来说，我们采用了一种基于Transformer的视频生成模型来生成多视角规范姿态图像和法线图，在大规模视频数据集上进行预训练，提高泛化性。为了处理视图不一致性，我们将重建问题重铸为4D任务，并使用4D Gaussian抛雪球介绍了一种高效的3D建模方法。实验表明，我们的方法实现了真实感的、实时的3D人体替身动画，显示了它的有效性和泛化能力。

2. 理解（个人初步理解，随时更改）

干了一件什么事：
怎么来的：
pipeline（如图）：

数据集
训练数据集：
预训练阶段：为训练多视图生成模型，使用动态人体视频数据集。大约10万个单人视频样本。
微调阶段：用公共合成3D数据集的组合来渲染多视图图像。数据集包括2K2K，Thuman2.0，Thuman2.1和CustomHumans，以及Thwindom和RenderPeople等商业数据集。值得注意的是，没有使用人体模型进行训练。总共利用了6124个人工合成的扫描数据。

3个setting上进行实验：
canonical multi-view generation【Compare to MagicMan, CHAMP】
multi-view reconstruction【CharacterGen，SiTH, MagicMan, LGM】
human animation【En3D and CharacterGen】
评价数据集：
从Human4DiT中选择50个rigged human avatars，来评估setting1和2上的性能
对于setting3：使用Blender获取GTvideo，并导出运动序列来驱动创建的人体模型。然后，我们在前景区域中计算photometric metrics来评估在animation上的性能。

实验setting	评测数据	baseline
canonical multi-view generation	Human4DiT	MagicMan, CHAMP
multi-view reconstruction	Human4DiT	CharacterGen，SiTH, MagicMan, LGM
human animation	Blender	En3D , CharacterGen

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Unicorn Binance Websocket API 使用教程

Unicorn Binance Websocket API 是一个开源项目，由 LUCIT Systems and Development 开发。该项目旨在提供一个简单易用的 Python 库，用于通过 Binance 平台的 WebSocket API 接收实时数据。它支持流式数据订阅，包括市场深度、价格变动、交易历史等，并允许用户轻松处理这些数据。## 2. 项目快速启动### 环境准

火山引擎 ADG 社区

开源项目使用教程：Driving-with-LLMs

`Driving-with-LLMs` 项目是一个用于自动驾驶的可解释性研究项目，其目录结构如下：- `assets/`：存储项目的相关资源文件。- `data/`：包含训练和测试数据集。- `models/`：存放训练好的模型权重文件。- `results/`：保存模型运行后的结果文件。- `scripts/`：包含项目运行所需的脚本文件。- `utils/`：包含一些工具函数和类

火山引擎 ADG 社区

Chatbot UI终极指南：如何快速构建个性化AI聊天界面

Chatbot UI是一个功能强大的开源AI模型聊天界面，能够轻松与多种AI服务提供商集成，包括OpenAI、Anthropic、Google、Azure等主流平台。这个项目为开发者和用户提供了一个直观、美观的聊天机器人界面，让您能够快速创建个性化的AI对话体验。无论您是想要构建企业级聊天机器人，还是希望拥有个人AI助手，Chatbot UI都能为您提供完美的解决方案。## 🚀 快速开始：5