一、核心贡献

  1. 统一、端到端的3D重建模型

    • 名字:VGGT(Visual Geometry Grounded Transformer)

    • 能力:给定1~数百张无序图像的前向推理网络,一次性输出

      • 相机内参/外参

      • 每帧深度图

      • 每帧点云(全局坐标)

      • 任意像素在全部输入图像中的3D轨迹

    • 速度:单张RTX H100上 < 1 秒完成全部预测

    • 无需后优化:直接可用,效果优于或等于需要BA/全局对齐的传统或学习方法。

  2. 极简架构,极大通用性

    • 纯Transformer(24 层),无3D专属模块(如cost volume、epipolar attention)。

    • 仅引入 “交替注意力”(Alternating-Attention):先帧内自注意力,再跨帧全局自注意力,循环 24 次。

    • 训练数据:海量公开3D数据集,采用多任务联合监督。

  3. 下游任务即插即用

    • 把VGGT的backbone当作特征提取器,可显著提升

      • 非刚性/动态点跟踪(CoTracker)

      • 前馈新视角合成(NV Synthesis)

    • 无需相机参数即可做NV Synthesis,性能与LVSM等方法相当。


二、实验亮点

表格

复制

任务 数据集 VGGT成绩 对比基线 备注
相机位姿估计 CO3Dv2 / RealEstate10K AUC@30 88.2 / 85.3 MASt3R 81.8 / 76.4 0.2 s vs 9 s
稠密MVS DTU Overall 0.382 DUSt3R 1.741 无GT相机
点云重建 ETH3D Overall 0.677 MASt3R 0.826 0.2 s vs 9 s
两视图匹配 ScanNet AUC@20 73.4 Roma 70.9 非专用模型
动态跟踪 TAP-Vid RGB-S δ_vis 84.0 CoTracker 78.9 仅用VGGT特征

三、方法细节速览

  • 输入:N 张 RGB 图像(顺序任意,第1帧为世界坐标系)。

  • Token化:DINO ViT patch tokens + 可学习的 camera token(每帧1个)+ 4 个 register token。

  • 主干:24 层 Alternating-Attention Transformer。

  • 输出头

    • Camera Head:输出每张图的 9维相机参数(4旋+3平+2焦距)。

    • Dense Head(DPT):输出深度图、点云图、不确定性图、跟踪特征图。

    • Tracking Head(CoTracker2):用跟踪特征完成任意点到全部帧的匹配。

  • 训练损失
    多任务联合:相机回归、深度/点云回归、跟踪回归,并加不确定性加权。

  • 推理技巧
    训练时同时学 depth+camera+point map;推理时用 depth+camera 重新投影出点云,比直接用 point-map head 更准。


四、结论

VGGT 展示了一个 “大模型+大数据” 就能让3D视觉摆脱传统几何优化的范例:

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐