简单来说,现在的 AI 要么“眼疾手快但听不懂复杂指令”(传统的物体检测器),要么“博学多才但手抖画不准圈”(多模态大语言模型 MLLM)。这篇论文就是为了结合两者的优点,造出一个既能听懂人话,又能精准在图上指出物体位置的全能型 AI。

为了让你更容易理解,我将用通俗的语言,配合论文中的图表,分五个部分为你讲解。

1. 动机:为什么要研发 Rex-Omni?

在计算机视觉领域,有两个主要流派:

  • 传统派(如 YOLO, DINO): 它们是“神枪手”。给它一张图,它能飞快地框出人、车、狗。但它们不懂复杂的语言。如果你让它“找出那个穿红裙子正在喝咖啡的女士”,它可能就懵了,因为它只认识“人”这个标签 。

  • 新锐派(MLLM,如 GPT-4V, Qwen-VL): 它们是“博学家”。它们能理解复杂的描述,能看图说话。但是,当让它们在图上精确画框(定位)时,它们往往表现得很笨拙——框不准、漏标、或者同一个物体重复标好几次 。

动机: 作者希望结合两者,让大模型(MLLM)不仅能理解复杂的“人话”,还能像“神枪手”一样精准地定位物体,甚至能做 OCR(文字识别)、GUI(界面按钮识别)等所有视觉任务 。


2. 要解决的问题是什么?

尽管 MLLM 很聪明,但让它做“物体检测”面临两个核心难题:

  1. “由于手抖导致的考试不及格”(坐标预测的离散化问题): 大模型是按“词”来输出的。比如坐标 3233 在图片上离得很近,但在模型看来是两个完全不同的“词”。如果正确答案是 33,模型预测了 32,传统的训练方法会判定它“全错”,这就导致模型很难学好微小的精细定位 。
  2. “复读机病”(重复预测与幻觉): 目前的训练方式(Teacher-Forcing)像是一个严厉的老师,学生每说一个字老师都纠正。到了实际考试(推理)时,没有老师管了,模型往往会失控:要么同一个物体画好几个框(重复预测),要么没说完就停了,要么瞎编物体。这是因为模型没有学会“自我调节” 。

3. 方法是什么:怎么解决问题的?

作者提出了 Rex-Omni,通过“三板斧”解决了上述问题:

第一板斧:统一语言(任务公式化)

它把所有的视觉任务(检测、OCR、关键点检测)都变成“预测下一个点”的游戏。

  • 它把图片上的位置(坐标)变成了 0 到 999 之间的特殊词汇(Tokens)

  • 不管是画框(Box)、画点(Point)还是画多边形(Polygon),对模型来说都是在“说话”,说出一串坐标代码 。
第二板斧:海量题库(数据引擎)

为了训练这个模型,仅靠公开数据是不够的。作者开发了一套自动数据生成引擎

  • 先用大模型描述图片。

  • 再用 NLP 工具提取关键词。

  • 最后用现有的检测器把这些关键词在图上标出来。 通过这种方式,他们搞到了 2200 万 张高质量的图片数据,专门教模型怎么“把字和图对应起来” 。
第三板斧:特训(两阶段训练)—— 这是最核心的创新

作者采用了两步走的训练策略:

  1. 第一阶段(SFT,监督微调): 就像普通上课,老师教什么,AI 学什么。学完这一步,AI 懂了基本规则,但还是会有“复读机病” 。

  2. 第二阶段(GRPO,强化学习后训练): 这是一个类似“实战演练”的过程,使用了 GRPO (Group Relative Policy Optimization) 算法。

    • 怎么做? 让 AI 对同一张图生成好几个不同的答案。

    • 怎么奖惩? 如果 AI 画的框和真实物体重合度高(IoU高),就奖励它;如果它罗里吧嗦重复画框,就惩罚它。

    • 效果: 这一步极大地治好了 AI 的“复读机病”,让它的预测变得精准且干净 。


4. 实验是怎么验证方法的有效性的?

作者在非常多的任务上进行了测试,结果证明 Rex-Omni 是真的强:

  • 普通物体检测(COCO): 在没见过 COCO 数据集的情况下(零样本),它的表现超过了之前的最强 MLLM,甚至超过了一些专门的检测器 。

  • 密集物体检测(VisDrone): 这是一个很多小物体挤在一起的场景(比如航拍图)。普通 MLLM 在这里经常“发疯”,画出巨大的框或者无数重复的框。但经过 GRPO 特训后的 Rex-Omni 表现非常稳定,消除了重复预测

  • 指代理解(Referring): 比如“找出戴黑帽子的那个人”。Rex-Omni 在这方面表现出色,证明它真的听懂了复杂的描述 。

  • 其他任务: 在 GUI(手机界面识别)、OCR(文字识别)甚至空间关系理解上,都取得了领先成绩 。

关键验证: 实验特别对比了只有第一阶段训练(SFT)和完整训练(SFT+GRPO)的模型。结果显示,GRPO 极大地减少了重复框,提升了准确率。这证明了第二阶段的强化学习是成功的关键 。


5. 有什么启发或者讨论补充

这篇论文给 AI 领域带来了几个重要的启发:

  1. 强化学习 (RL) 不止能用来聊天: 之前大家认为 RL(如 RLHF)主要用来让 ChatGPT 说话更好听。这篇论文证明,RL 也可以用来“矫正”多模态模型的视觉行为,比如让它别乱画框,这对未来的视觉模型训练很有指导意义 。

  2. 大模型可以“如臂使指”: 以前我们觉得大模型只是为了“理解”世界,现在 Rex-Omni 证明了通过特殊的训练,大模型完全可以作为精准的工具(Tool),去点击屏幕上的按钮或者识别文档中的细微文字 。

  3. 速度问题: 虽然 Rex-Omni 很强,但作者也坦诚,因为它还是基于大语言模型,所以推理速度比那些专门的“神枪手”小模型要慢。如果你需要每秒处理几百帧视频,它可能还不够快 。

一句话总结: Rex-Omni 通过引入“强化学习”这一剂良药,成功治好了多模态大模型“眼手不协调”的毛病,让 AI 既懂常识,又能干精细活。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐