读V JEPA:Video Joint Embedding Predictive architective 以及VJEPA2
许多用于学习基于像素环境的世界模型的常见方法,采用的是通过像素级重建目标训练的生成式架构。在本研究中,我们分析了在完全离线设置下(即无法访问奖励信息)使用 VICReg 和 SimCLR 目标训练的 JEPA 的性能,并将其结果与生成式架构的表现进行对比。我们在一个简单的环境中进行了测试:一个移动点目标并伴有多种背景干扰物,并对所学表示进行了探测,以评估其对点位置的编码能力。此外,我们从理论上解释
论文名称: 联合嵌入预测框架聚焦于慢特征
作者单位:Meta AI, 纽约大学
作者:Vlad Sobal,…, Yann LeCun
发表在 Arxiv (没道理,居然没有在顶会)
而名字相关的:
I-JEPA CVPR 2023
Point-JEPA WACV 2025
C-JEPA NIPS 2024
莫名奇妙!!
摘要先安排,从摘要中的叙述我们可以看出本文的贡献和解决的问题。
许多用于学习基于像素环境的世界模型的常见方法,采用的是通过像素级重建目标训练的生成式架构。最近提出的联合嵌入预测架构(Joint Embedding Predictive Architectures,JEPA)[20] 提供了一种无需重建的替代方案。在本研究中,我们分析了在完全离线设置下(即无法访问奖励信息)使用 VICReg 和 SimCLR 目标训练的 JEPA 的性能,并将其结果与生成式架构的表现进行对比。我们在一个简单的环境中进行了测试:一个移动点目标并伴有多种背景干扰物,并对所学表示进行了探测,以评估其对点位置的编码能力。
我们发现,当干扰物噪声在每个时间步都发生变化时,JEPA 方法的表现与重建方法相当或更优;但当噪声是固定不变的时,JEPA 方法则表现不佳。此外,我们从理论上解释了基于 JEPA 的方法在固定噪声情况下表现差的原因,指出了其一个重要局限性
VJEPA2 是VJEPA 一代基础上,使用自监督,对理解、预测和规划任务的具体实现。

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)