VGGT: Visual Geometry Grounded Transformer论文学习

DINO ViT patch tokens + 可学习的 camera token（每帧1个）+ 4 个 register token。（Alternating-Attention）：先帧内自注意力，再跨帧全局自注意力，循环 24 次。Tracking Head（CoTracker2）：用跟踪特征完成任意点到全部帧的匹配。Dense Head（DPT）：输出深度图、点云图、不确定性图、跟踪特征图。

李小星同志

887人浏览 · 2025-07-16 02:33:49

李小星同志 · 2025-07-16 02:33:49 发布

一、核心贡献

统一、端到端的3D重建模型
- 名字：VGGT（Visual Geometry Grounded Transformer）
- 能力：给定1～数百张无序图像的前向推理网络，一次性输出
  - 相机内参/外参
  - 每帧深度图
  - 每帧点云（全局坐标）
  - 任意像素在全部输入图像中的3D轨迹
- 速度：单张RTX H100上 < 1 秒完成全部预测
- 无需后优化：直接可用，效果优于或等于需要BA/全局对齐的传统或学习方法。
极简架构，极大通用性
- 纯Transformer（24 层），无3D专属模块（如cost volume、epipolar attention）。
- 仅引入 “交替注意力”（Alternating-Attention）：先帧内自注意力，再跨帧全局自注意力，循环 24 次。
- 训练数据：海量公开3D数据集，采用多任务联合监督。
下游任务即插即用
- 把VGGT的backbone当作特征提取器，可显著提升
  - 非刚性/动态点跟踪（CoTracker）
  - 前馈新视角合成（NV Synthesis）
- 无需相机参数即可做NV Synthesis，性能与LVSM等方法相当。

二、实验亮点

表格

复制

任务	数据集	VGGT成绩	对比基线	备注
相机位姿估计	CO3Dv2 / RealEstate10K	AUC@30 88.2 / 85.3	MASt3R 81.8 / 76.4	0.2 s vs 9 s
稠密MVS	DTU	Overall 0.382	DUSt3R 1.741	无GT相机
点云重建	ETH3D	Overall 0.677	MASt3R 0.826	0.2 s vs 9 s
两视图匹配	ScanNet	AUC@20 73.4	Roma 70.9	非专用模型
动态跟踪	TAP-Vid RGB-S	δ_vis 84.0	CoTracker 78.9	仅用VGGT特征

三、方法细节速览

输入：N 张 RGB 图像（顺序任意，第1帧为世界坐标系）。
Token化：DINO ViT patch tokens + 可学习的 camera token（每帧1个）+ 4 个 register token。
主干：24 层 Alternating-Attention Transformer。
输出头
- Camera Head：输出每张图的 9维相机参数（4旋+3平+2焦距）。
- Dense Head（DPT）：输出深度图、点云图、不确定性图、跟踪特征图。
- Tracking Head（CoTracker2）：用跟踪特征完成任意点到全部帧的匹配。
训练损失
多任务联合：相机回归、深度/点云回归、跟踪回归，并加不确定性加权。
推理技巧
训练时同时学 depth+camera+point map；推理时用 depth+camera 重新投影出点云，比直接用 point-map head 更准。

四、结论

VGGT 展示了一个 “大模型+大数据” 就能让3D视觉摆脱传统几何优化的范例：

一个通用 Transformer 即可在多个3D任务上达到或超越专用+后优化方法。
代码/模型已开源：https://github.com/facebookresearch/vggt

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla