VGGT: Visual Geometry Grounded Transformer论文学习
DINO ViT patch tokens + 可学习的 camera token(每帧1个)+ 4 个 register token。(Alternating-Attention):先帧内自注意力,再跨帧全局自注意力,循环 24 次。Tracking Head(CoTracker2):用跟踪特征完成任意点到全部帧的匹配。Dense Head(DPT):输出深度图、点云图、不确定性图、跟踪特征图。
一、核心贡献
-
统一、端到端的3D重建模型
-
名字:VGGT(Visual Geometry Grounded Transformer)
-
能力:给定1~数百张无序图像的前向推理网络,一次性输出
-
相机内参/外参
-
每帧深度图
-
每帧点云(全局坐标)
-
任意像素在全部输入图像中的3D轨迹
-
-
速度:单张RTX H100上 < 1 秒完成全部预测
-
无需后优化:直接可用,效果优于或等于需要BA/全局对齐的传统或学习方法。
-
-
极简架构,极大通用性
-
纯Transformer(24 层),无3D专属模块(如cost volume、epipolar attention)。
-
仅引入 “交替注意力”(Alternating-Attention):先帧内自注意力,再跨帧全局自注意力,循环 24 次。
-
训练数据:海量公开3D数据集,采用多任务联合监督。
-
-
下游任务即插即用
-
把VGGT的backbone当作特征提取器,可显著提升
-
非刚性/动态点跟踪(CoTracker)
-
前馈新视角合成(NV Synthesis)
-
-
无需相机参数即可做NV Synthesis,性能与LVSM等方法相当。
-
二、实验亮点
表格
复制
| 任务 | 数据集 | VGGT成绩 | 对比基线 | 备注 |
|---|---|---|---|---|
| 相机位姿估计 | CO3Dv2 / RealEstate10K | AUC@30 88.2 / 85.3 | MASt3R 81.8 / 76.4 | 0.2 s vs 9 s |
| 稠密MVS | DTU | Overall 0.382 | DUSt3R 1.741 | 无GT相机 |
| 点云重建 | ETH3D | Overall 0.677 | MASt3R 0.826 | 0.2 s vs 9 s |
| 两视图匹配 | ScanNet | AUC@20 73.4 | Roma 70.9 | 非专用模型 |
| 动态跟踪 | TAP-Vid RGB-S | δ_vis 84.0 | CoTracker 78.9 | 仅用VGGT特征 |
三、方法细节速览
-
输入:N 张 RGB 图像(顺序任意,第1帧为世界坐标系)。
-
Token化:DINO ViT patch tokens + 可学习的 camera token(每帧1个)+ 4 个 register token。
-
主干:24 层 Alternating-Attention Transformer。
-
输出头
-
Camera Head:输出每张图的 9维相机参数(4旋+3平+2焦距)。
-
Dense Head(DPT):输出深度图、点云图、不确定性图、跟踪特征图。
-
Tracking Head(CoTracker2):用跟踪特征完成任意点到全部帧的匹配。
-
-
训练损失
多任务联合:相机回归、深度/点云回归、跟踪回归,并加不确定性加权。 -
推理技巧
训练时同时学 depth+camera+point map;推理时用 depth+camera 重新投影出点云,比直接用 point-map head 更准。
四、结论
VGGT 展示了一个 “大模型+大数据” 就能让3D视觉摆脱传统几何优化的范例:
-
一个通用 Transformer 即可在多个3D任务上达到或超越专用+后优化方法。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)