Rex-Omni:通过下一点预测检测任何物体
物体检测长期以来一直由传统的基于坐标回归的模型主导,如YOLO、DETR和Grounding DINO。尽管最近的研究尝试利用MLLM来解决这一任务,但它们面临诸如召回率低、重复预测、坐标错位等挑战。在本研究中,我们弥合了这一差距,提出了Rex-Omni,一个30亿规模的MLLM,实现了最先进的物体感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下达到了与基于回归的模型(如
摘要
物体检测长期以来一直由传统的基于坐标回归的模型主导,如YOLO、DETR和Grounding DINO。尽管最近的研究尝试利用MLLM来解决这一任务,但它们面临诸如召回率低、重复预测、坐标错位等挑战。在本研究中,我们弥合了这一差距,提出了Rex-Omni,一个30亿规模的MLLM,实现了最先进的物体感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下达到了与基于回归的模型(如DINO、Grounding DINO)相当甚至超越的性能。这得益于三个关键设计:1)任务公式化:我们使用特殊令牌来表示0到999的量化坐标,降低了模型的学习难度,并提高了坐标预测的令牌效率;2)数据引擎:我们构建了多个数据引擎来生成高质量的接地、引用和指向数据,为训练提供语义丰富的监督;3)训练流程:我们采用了两阶段训练过程,结合了2200万数据的监督微调和基于GRPO的强化后训练。这种强化后训练利用几何感知奖励有效弥合了离散到连续坐标预测的差距,提高了边界框精度,并缓解了初始SFT阶段教师引导性质导致的不良行为,如重复预测。除了传统检测外,Rex-Omni固有的语言理解能力使其具备多功能能力,如物体引用、指向、视觉提示、GUI接地、空间引用、OCR和关键点检测,所有这些都在专用基准上进行了系统评估。我们相信Rex-Omni为更通用和语言感知的视觉感知系统铺平了道路。

1. 引言
物体检测[23,87,86,85,8,122,102,60,58,127,38,99,20]由于其广泛的应用,长期以来一直是计算机视觉中的基础任务。该领域已经从早期的基于CNN的架构(如YOLO[86]和Faster R-CNN[87])发展到基于Transformer的模型,如DETR[8]和DINO[122],而任务本身也从传统的闭集检测演变为开集检测[59,49,29,13,72,88,35,71,72],以更好地应对新兴的实际挑战。
物体检测的一个首要目标是开发能够识别任意物体和概念的模型。解决这一问题的常见方法是开词汇物体检测,其中模型如Grounding DINO[59]和DINO-X[88]利用文本编码器(如BERT[37]或CLIP[81])来表示物体类别并执行类别级开集检测。尽管这些方法有效,但它们从根本上受到相对较浅的语言理解能力的限制,这限制了它们处理复杂语义描述的能力(在图2中,尽管输入提示是"红苹果",Grounding DINO检测到了所有苹果)。因此,这些方法在完全实现这一目标方面存在固有限制。
相比之下,多模态大语言模型(MLLMs)[74,101,65,107,11,1,44,18,105]受益于其基础LLM的强大语言理解能力,为将高级语言理解能力集成到物体检测中提供了一条有希望的途径。基于MLLM的常见方法[9,116,106,120,123,30,69,33,133,24,4]是将坐标表示为离散令牌[10],并通过下一个令牌预测来预测边界框。虽然概念上优雅,但现有的基于MLLM的方法很少能在COCO等基准测试中匹配传统的基于回归的检测器的性能。如图2所示,即使是像Qwen2.5-VL[4]这样的高级MLLM在精确物体定位方面也存在困难,此外还面临召回率低、坐标漂移和重复预测等限制。
我们认为,基于MLLM的物体检测中的性能差距主要源于其当前公式化和训练中固有的两个基本挑战。首先,MLLM通常将坐标预测视为离散分类任务,直接生成绝对坐标值,并依赖交叉熵损失进行监督。虽然传统的基于回归的模型受益于连续的、几何感知的损失(如L1、GIoU),这些损失对小的几何偏移直接敏感,但MLLM在准确将固定的一组离散令牌映射到连续像素空间方面面临着显著的学习难度。如图2所示,离散坐标预测中的微小像素错位可能导致不成比例的大型交叉熵损失,阻碍精确定位。这一固有挑战强调了需要有效的策略来减少坐标学习复杂性并为此映射提供大量数据。
其次,MLLM通常采用监督微调(SFT)来进行教师引导的下一个令牌预测训练[79]。虽然高效,但这种范式在训练和推理之间造成了根本性的不匹配。在SFT期间,模型始终以真实前缀为条件,即教师强制,这意味着它从未接触到自己可能不完美的预测。这种训练设置无法捕捉模型在自主生成设置中的真实性能。这从根本上阻止了模型发展健全的行为意识。因此,在没有这种直接指导的自由形式推理期间,模型往往难以调节自己的输出结构。这导致异常的坐标序列生成,如虚假的重复预测或物体遗漏,这些都会削弱其整体性能。解决这两个相互交织的挑战对于推进基于MLLM的物体检测至关重要。
为了克服这些固有限制并释放MLLM在精确和多功能物体感知方面的全部潜力,我们提出了Rex-Omni,一个30亿规模的MLLM,它在性能上与传统检测器相媲美,同时在语言理解能力方面明显优于传统检测器。我们通过三个核心设计原则来解决上述挑战:
任务公式化:我们将视觉感知任务统一在一个坐标预测框架下,其中每个任务都被公式化为生成坐标序列。具体来说,指向预测一个点,检测使用两个点形成边界框,多边形使用四个或更多点表示物体轮廓,关键点任务输出多个语义点。我们采用量化坐标表示,其中每个坐标值映射到0到999之间对应的1000个离散令牌之一。这种方法显著降低了坐标学习复杂性并简化了优化,同时提高了空间表示的效率。
数据引擎:为了促进模型学习1000个离散坐标令牌与像素级位置之间的映射,并培养对复杂自然语言表达式的强大理解,我们为接地、引用和指向任务设计了多个专门的数据引擎。这些引擎生成高质量、语义丰富的视觉监督信号用于坐标预测。
训练流程:我们采用两阶段训练范式。在第一阶段,我们在2200万数据上执行监督微调,以教授模型基本的坐标预测技能。在第二阶段,我们应用基于GRPO[92]的强化后训练,使用三个几何感知奖励函数。这种强化阶段有两个目的:它通过连续几何监督增强坐标预测的精度,并且至关重要的是,它缓解了初始SFT阶段教师引导性质导致的不良行为(如重复预测)。
经过这种两阶段训练后,Rex-Omni在多种感知任务上实现了卓越性能,如图1所示,包括物体检测、物体引用、视觉提示、GUI接地、布局接地、OCR、指向、关键点检测和空间引用。所有这些任务都是通过直接预测坐标点实现的。为了定量评估其性能,Rex-Omni首先在COCO[53]上进行评估,这是物体检测的核心基准。在零样本设置下(没有在COCO数据上训练),Rex-Omni展示了优于传统坐标回归模型(如DINO-ResNet50、Grounding DINO)和其他MLLM(如SEED1.5-VL[24])的F1分数性能。除了COCO,Rex-Omni的性能还在多种任务上进行了基准测试,如长尾检测、引用表达理解、密集物体检测、GUI接地和OCR。Rex-Omni始终优于传统检测器和MLLM,从而建立了一个结合精确定位和强大语言理解的统一框架。
总之,Rex-Omni代表了将强大语言理解与精视觉感知统一的重要一步。通过仔细整合原则性的任务公式化、先进的数据引擎和复杂的两阶段训练流程,我们证明了MLLM具有定义下一代物体检测模型的深刻潜力,为视觉感知系统提供前所未有的多功能性和真正语言感知的方法。
2. 任务公式化
在本节中,我们介绍Rex-Omni的任务公式化设计,涵盖其坐标表示、不同任务的具体输出格式以及模型架构的详细信息。
2.1 坐标公式化
我们首先定义坐标预测的输出公式化。现有利用MLLM进行此任务的方法可以大致分为三种范式,如图3a所示:1)直接坐标预测:受Pix2Seq[10]范式的启发,这些方法[9,116,106,120,123]将坐标值视为语言模型词汇表中的离散令牌,使模型能够直接生成坐标输出;2)基于检索的方法:这种方法[30,69,31,33]包含一个额外的提案模块。LLM被训练来预测候选区域或边界框的索引,从而将输出表示为对预定义提案的检索任务;3)外部解码器:在这种策略中[121,108,42,61],LLM预测特殊令牌,其相应的嵌入然后传递给负责生成最终坐标的外部解码器。我们为Rex-Omni采用直接坐标预测策略,这是由其简单性、灵活性以及不依赖外部模块或额外监督的优势所驱动的。
在直接坐标预测范式内,存在几种变体,如图3b所示:1)使用特殊令牌的相对坐标:坐标被量化为0到999之间的值,每个坐标由LLM词汇表中的一个特殊令牌表示。模型因此被训练来预测这些1000个令牌作为坐标的表示。代表性模型是Pix2Seq[10]。2)不使用特殊令牌的相对坐标:坐标同样被量化为1000个区间;然而,它们由多个原子令牌而不是单个特殊令牌表示。代表性模型是SEED1.5-VL[24]。3)绝对坐标:此方法使用绝对坐标,其中坐标值如1921被标记化为单个数字(1,9,2,1)。代表性模型是Qwen2.5-VL[4]。我们选择使用特殊令牌的相对坐标建模方法,主要有两个原因:首先,选择相对坐标而非绝对坐标本质上通过将分类任务限制在1000个类别的有界范围内降低了学习复杂性。其次,为坐标使用专用特殊令牌显著减少了每个坐标所需的令牌长度。例如,一个边界框仅由四个特殊令牌表示,相比之下,没有这种方案需要15个原子令牌(包括分隔符)。这显著提高了令牌效率和推理速度,特别是在密集物体场景中。
2.2 输入格式
Rex-Omni为所有视觉感知任务采用统一的基于文本的接口。每个任务都表示为一个自然语言查询,指定要在图像中识别的目标物体或关系。这种设计允许模型在单一指令驱动框架下无缝集成各种视觉语言任务。
文本提示。对于大多数任务,模型接收一个与自然语言格式化的文本提示配对的图像。文本提示可以描述一个或多个目标。当指定多个目标时,它们对应的类别或引用表达式使用逗号连接。例如:
多目标检测的文本提示示例
请在此图像中检测鸽子、人、卡车、雪。以边界框格式返回输出。
对于不同的任务,我们设计了不同的查询风格来指导模型生成。
视觉提示。虽然文本提示提供强大的泛化和可解释性,但在处理缺乏清晰语言描述的物体时——特别是罕见或视觉上复杂的类别——它们面临局限性。如T-Rex2[32]等先前工作所示,某些物体本质上难以仅通过文本来表达。为了解决这个问题,Rex-Omni支持视觉提示,允许用户提供边界框作为额外和直观的输入形式。
与现有方法[32,88,28]不同,这些方法通过从指示区域提取嵌入并与检测查询进行比较,将视觉提示视为特征匹配问题,Rex-Omni采用统一的基于文本的接口。给定边界框格式的视觉提示,相应区域首先转换为量化坐标令牌。然后,模型通过自然语言指令进行引导,以识别所有与指示区域相同类别的物体。这种设计将视觉提示无缝集成到生成文本框架中,使模型能够通过语言对视觉对应关系进行推理。
Rex-Omni中视觉提示的示例
以下是几个指定图像中某些物体位置的示例边界框:"object1":["<12><412><339><568>","<92><55><179><378>"]。请检测所有相同类别的物体,并以[x0,y0,x1,y1]格式返回它们的边界框。
2.3 每个任务的输出格式
每个视觉任务的输出统一表示为结构化令牌序列,包括描述短语、坐标令牌和用于分隔的特殊令牌,组织如下:
Rex-Omni的基本输出格式
<|object_ref_start|>PHRASE<|object_ref_end|><|box_start|>COORDS<|box_end|>
这里,PHRASE表示由坐标序列表示的物体的类别或描述,COORDS指坐标序列。Rex-Omni基于Qwen2.5VL-3B构建,我们保留Qwen2.5-VL的原始特殊令牌用于任务格式化,包括短语开始令牌(<object_ref_start>)、短语结束令牌(<object_ref_end>)、坐标开始令牌(<box_start>)和坐标结束令牌(<box_end>)。
对于涉及输出边界框的任务,如物体检测,COORDS由[x0,y0,x1,y1]格式的坐标序列组成,按x0升序排序。例如:
| 输出边界框任务的示例 |
| <|object_ref_start|>person<|object_ref_end|><|box_start|><12><42><512><612>,<24><66><172><623>,....<|box_end|>,...(更多短语) |
对于涉及输出点的任务,如物体指向,COORDS由[x0,y0]对的序列组成。例如:
| 输出点任务的示例 |
| <|object_ref_start|>button<|object_ref_end|><|box_start|><100><150>,<200><250>,...<|box_end|>,...(更多短语) |
对于涉及输出多边形的任务,如OCR,COORDS由[x0,y0,x1,y1,x2,y2,…]格式的坐标序列组成。例如:
| 输出多边形任务的示例 |
| <|object_ref_start|>text<|object_ref_end|><|box_start|><10><20>....<|box_end|>,...(更多短语) |
对于关键点检测任务,我们输出包含物体边界框及其相关关键点的结构化JSON格式。
关键点检测任务的示例
{"person1": {"box":<0><123><42><256>,"keypoints": {"left eye":<32><43>,"right eye":<66><55>,..}}, {"person2": {"box":<51><116><72><522>,"keypoints": {"left eye":<342><23>,"right eye":<16><571>,..}}}
对于同时检测多个短语,不同短语对应的预测输出使用逗号连接。如果特定短语引用的物体在图像中不存在,则相应的COORDS字段替换为None。
2.4 模型架构
如图4所示,Rex-Omni基于Qwen2.5-VL-3B-Instruct模型构建,仅进行了最小的架构修改。虽然原始Qwen2.5-VL采用绝对坐标编码方案,我们调整模型以支持相对坐标表示,而不引入额外参数。具体来说,我们重新利用模型词汇表的最后1000个令牌作为特殊令牌,每个对应于0到999之间的量化坐标。

3. 训练数据
为了使Rex-Omni具备精确的坐标预测能力和强大的语言理解能力,我们利用两种训练数据来源:公开可用的数据集和由我们定制设计的数据引擎自动生成标注的数据。
3.1 公开数据集
在表1中,我们列举了用于Rex-Omni训练的各种子任务的公开可用数据集,包括物体检测、物体引用、视觉提示、OCR、布局接地、GUI接地、指向、功能接地、空间引用和关键点检测。对于每个任务,定义了一组问题模板来构建相应的问题-答案(QA)对。总共使用了约890万个公开数据样本。
3.2 数据引擎
有效训练Rex-Omni需要学习其1000个量化坐标令牌与图像连续像素空间之间的细粒度映射。这种能力需要比传统公开数据集中通常可用的更大规模的高质量训练数据。此外,虽然许多公开数据集提供类别级标注,但提供更丰富的实例级语义接地(如引用表达式)的数据集在规模和多样性方面仍然稀缺。为了解决这些限制,我们开发了一套专用的数据引擎,专门用于生成大规模、高质量的训练数据,特别针对细粒度空间推理和复杂语言接地任务。
3.2.1 接地数据引擎
构建大规模检测数据集的常见策略是开发接地数据引擎[29,88,89,13,77],通常涉及生成图像标题、提取候选短语,并使用接地模型(如Grounding DINO)为这些短语分配边界框。与先前方法相比,我们在流程中引入了一个短语过滤阶段,以提高标注质量。具体来说,我们的标注过程包括以下四个阶段:
图像标题生成:我们首先使用Qwen2.5VL-7B-Instruct为每个图像生成描述性标题。这些标题提供视觉内容的自然语言描述,通常涵盖场景中的多个物体。
短语提取:然后我们应用SpaCy NLP工具包从生成的标题中提取名词短语。这些短语可能包括基本类别名称(如桌面、柠檬)以及更具体的描述(如切片的黄色柠檬、绿色柠檬)。
短语过滤:这一步标志着与先前方法的关键区别。为了最小化数据歧义,我们移除包含描述性属性(如形容词)的名词短语(例如,"绿色柠檬"被丢弃,而"柠檬"被保留)。理由是当前接地模型难以准确解释此类描述性表达式,通常会检测某个类别的所有实例,而不管修饰语如何。例如,短语"绿色柠檬"可能会错误地触发所有柠檬的检测,从而引入显著的标注错误。
短语接地:最后,我们使用DINO-X[88](一个开词汇物体检测器)为过滤后的短语生成对应的边界框。
对于这个数据引擎,图像主要来自COYO[6]和SA-1B[39]数据集。我们应用严格的预处理,包括丢弃低分辨率图像和过滤标记为NSFW的内容。这个过程产生了约300万张图像的精选数据集,每张图像都带有高质量的接地标注。
3.2.2 引用数据引擎
与检测或接地数据不同,后者主要强调物体类别名称,引用数据需要语义更丰富的自然语言描述,例如"穿黄色衬衫的男人"这样的短语。RexSeek[33]研究强调,高质量的引用标注应允许单个引用表达式映射到多个实例,从而培养模型学习灵活和上下文感知的引用接地的能力。然而,RexSeek对人工标注的依赖使其劳动密集型且本质上不可扩展。为了解决这一限制,我们设计了一个完全自动化的引用数据引擎,能够在无需人工监督的情况下生成大规模引用数据。
表达式生成:给定带有边界框和相应类别标签标注的图像,我们使用Qwen2.5-VL-7B,结合图像和类别信息,生成一组引用表达式。每个表达式被设计为自然描述图像中存在的物体类别,模仿人类般的描述。
指向:对于每个生成的引用表达式,我们使用Molmo[18](一个最先进的引用模型)生成对应的空间点。虽然Molmo仅输出点级预测,但它在理解和接地引用表达式方面表现出色。
掩码生成:我们应用SAM[39]为图像中的每个真实边界框生成掩码。
点到框关联:将Molmo生成的每个点与SAM生成的掩码对齐。当点位于掩码内时,对应的边界框与引用表达式链接,从而将语言接地到物体区域。
对于这个数据引擎,我们使用来自O365[91]、OpenImages[40]和我们接地数据引擎生成的额外数据的图像。通过这个流程,我们获得了约300万张带有自动生成引用标注的图像。
3.2.3 其他数据引擎
除了接地和引用数据外,我们还开发了两个相对轻量级的数据引擎,用于生成指向和OCR任务的数据集。
指向数据引擎:点级监督为边界框提供了一种高效的替代方案,特别是当物体边界模糊或难以描绘时(如边缘、空白或精细结构)。为了从框级监督中派生点标注,我们采用了几何感知策略。给定一个边界框,首先使用SAM获取对应的分割掩码。然后计算掩码的最小面积外接旋转矩形,并取其对角线的交点作为候选点。如果该点位于掩码内,则将其指定为框的点标注。通过这种转换,我们从现有的检测数据集以及我们接地和引用数据引擎的输出中获得了约500万个点级样本。
OCR数据引擎:使用PaddleOCR²来标注包含文本内容的图像,提取文本区域的多边形边界及其对应的转录。对于每个提取的多边形,随后计算其最小外接轴对齐矩形,作为其边界框表示。图像来自COYO数据集,产生了约200万个OCR标注样本。
总计,结合公开可用数据集和我们标注流程生成的数据,我们获得了2200万张高质量标注图像用于训练。
4. 训练流程
我们采用两阶段训练策略,如图6所示。在第一阶段,在2200万个标注样本上执行监督微调(SFT),使用教师引导方法,使模型获得基本的坐标预测能力。在第二阶段,我们应用基于GRPO框架的强化学习,通过结合几何感知奖励和行为感知优化,进一步完善模型性能,从而解决SFT阶段的局限性并提高整体预测质量。
4.1 阶段1:监督微调
由于模型以0到999的量化令牌形式预测坐标,它必须首先学习如何将这些离散值准确映射回图像内的连续像素位置。这对应于一个1000路分类问题,需要大量监督才能实现可靠性能。因此,我们开始使用教师引导的监督微调阶段,在大规模标注数据上训练,使模型获得解释和预测空间坐标的基本能力。
我们采用以下在线策略构建SFT对话数据:
对话模板:对于每个训练任务,我们使用GPT-4o构建多个问题模板以模仿真实用户场景。这些模板包括PHRASE关键字的占位符,在训练期间被实际短语替换。
多短语查询:在实际设置中,用户可能希望在单个图像中检测多个物体类别。为了反映这一点,如果图像包含N个标注短语,我们随机采样1到N个短语形成训练查询。
视觉提示训练:遵循T-Rex2[32],对于每个由图像和其标注类别特定边界框组成的训练样本,我们模拟视觉提示场景。具体来说,对于图像中存在的每个类别,我们随机采样1到N个边界框,其中N表示该类别的最大标注实例数。这些采样框被视为视觉提示,并转换为与我们坐标公式一致的量化坐标令牌。然后,通过自然语言查询指导模型检测所有与给定视觉提示指示的相同类别的物体。
我们采用标准交叉熵损失进行训练。模型在8个节点上训练,每个节点配备8个A100 GPU,总训练时间约为8天。所有模型参数在训练过程中都会更新。我们为不同组件使用单独的学习率:视觉编码器为2e-6,投影层和LLM均为2e-5。优化使用AdamW[64]优化器,学习率预热为3%,权重衰减为0.01。遵循Qwen2.5-VL的架构,Rex-Omni也采用原生分辨率Vision Transformer作为其视觉编码器。我们将输入像素数量限制在最小16×28×2816\times28\times2816×28×28到最大2560×28×282560\times28\times282560×28×28之间。给定ViT补丁大小为28,这将图像令牌数量限制在16到2560之间。
4.2 阶段2:强化后训练
4.2.1 SFT的局限性
虽然SFT允许模型通过利用大量标记数据快速获得基本坐标预测能力,但它存在两个关键限制:
几何离散化问题。使用交叉熵损失进行坐标预测本质上引入了离散化问题。坐标表示为类别令牌(从<0>到<999>),模型被训练对每个令牌进行精确分类。然而,这种公式与空间任务中几何的连续性不一致。例如,如果真实令牌是<33>但模型预测<32>,在像素空间中的差异可能可以忽略不计,但CE损失将其视为完全错误的预测而进行惩罚。相反,如果真实值是<0><0><100><100>但模型预测<0><0><100><1000>,只有一个令牌被错误分类。在这种情况下,CE损失仍然相对较小,尽管生成的边界框严重错位,几何误差很大。
行为调节缺陷。在SFT阶段,教师强制训练依赖于完整的真实序列进行高效并行学习。这种设置将预测框的数量固定为真实计数,阻止模型自主学习要预测多少物体。因此,在推理期间,模型通常无法调节输出数量,导致两种典型错误:(1)预测的框少于所需(漏检),或(2)预测的框多于必要(具有相同或略微偏移坐标的重复检测)。这些行为反映了模型缺乏有效的输出调节能力。
4.2.2 基于GRPO的后训练
为了解决SFT的几何和行为相关限制,我们采用基于GRPO[92]的强化后训练策略。GRPO使模型能够探索自己的输出空间并通过奖励引导的优化进行改进。给定图像和问题(I,x)(I,x)(I,x),模型从当前策略πθ\pi_{\theta}πθ中采样G个完整响应组{o1,o2,⋯ ,oG}\{o_1,o_2,\cdots,o_G\}{o1,o2,⋯,oG}。每个响应由完整的推理轨迹和最终预测的坐标集或框组成,具体取决于任务。对于每个输出oio_ioi,我们计算标量奖励rir_iri,该奖励在组内归一化以获得相对优势:
Ai=ri−mean(r1,⋯ ,rG)std(r1,⋯ ,rG).A_i=\frac{r_i-\mathrm{mean}(r_1,\cdots,r_G)}{\mathrm{std}(r_1,\cdots,r_G)}.Ai=std(r1,⋯,rG)ri−mean(r1,⋯,rG).
这些基于组的优势为不同输出之间提供了细粒度的信用分配,鼓励模型更喜欢更准确和非冗余的预测。GRPO目标被公式化为带KL正则化的裁剪策略梯度:
JGRPO(θ)=1G∑i=1G1∣oi∣∑t=1∣oi∣[min(ρi,tA^i,t,clip(ρi,t,1−ϵ,1+ϵ)A^i,t)−βDKL[πθ∣∣πref],\mathcal{J}_{\mathrm{GRPO}}(\theta)=\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}[\mathrm{min}(\rho_{i,t}\hat{A}_{i,t},\mathrm{clip}(\rho_{i,t},1-\epsilon,1+\epsilon)\hat{A}_{i,t})-\beta\mathbb{D}_{\mathrm{KL}}[\pi_{\theta}||\pi_{\mathrm{ref}}],JGRPO(θ)=G1i=1∑G∣oi∣1t=1∑∣oi∣[min(ρi,tA^i,t,clip(ρi,t,1−ϵ,1+ϵ)A^i,t)−βDKL[πθ∣∣πref],
其中ρi,t\rho_{i,t}ρi,t是重要性采样比率,πref\pi_{\mathrm{ref}}πref是SFT阶段后冻结的模型。KL惩罚通过防止与参考模型过度偏离来确保训练稳定性。
该框架自然地缓解了几何和行为限制:1)奖励可以是几何感知的,如IoU或L1距离度量,直接鼓励超越令牌级正确性的精确空间对齐;2)通过允许可变长度输出,模型可以学习避免重复或过度生成。重复或冗余预测获得较低奖励,导致更简洁和行为对齐的响应。
4.2.3 几何感知奖励
为了提供关于预测空间质量的信息反馈,我们设计了三种针对不同任务定制的几何感知奖励函数:框IoU奖励、掩码内点奖励和框内点奖励。这些奖励类型反映了预测输出相对于真实标注的结构正确性。
框IoU奖励。此奖励应用于需要边界框预测的任务,包括物体检测、接地、引用和OCR。该奖励鼓励准确的定位和正确的物体类别对齐。
给定预测框集B^={b^1,⋯ ,b^m}\hat{B}=\{\hat{b}_1,\cdots,\hat{b}_m\}B^={b^1,⋯,b^m}和真实框集B∗={b1∗,⋯ ,bn∗}\boldsymbol{B}^{*}=\{\boldsymbol{b}_1^{*},\cdots,\boldsymbol{b}_n^{*}\}B∗={b1∗,⋯,bn∗},我们执行真实引导的匹配。对于每个真实框bj∗\boldsymbol{b}_j^{*}bj∗,我们找到与bj∗\boldsymbol{b}_j^{*}bj∗具有最大IoU的预测框b^i\hat{b}_ib^i:
IoU(bj∗,b^i)=maxb^i∈B^IoU(bj∗,b^i).\mathrm{IoU}(\boldsymbol{b}_j^{*},\hat{b}_i)=\operatorname*{max}_{\hat{b}_i\in\hat{B}}\mathrm{IoU}(\boldsymbol{b}_j^{*},\hat{b}_i).IoU(bj∗,b^i)=b^i∈B^maxIoU(bj∗,b^i).
如果b^i\hat{b}_ib^i的类别标签与bj∗\boldsymbol{b}_j^{*}bj∗匹配,我们将IoU值分配为该真实框的奖励rjr_jrj。否则,rj=0r_j=0rj=0。令R={r1,⋯ ,rn}R=\{r_1,\cdots,r_n\}R={r1,⋯,rn}为所有GT框的奖励集。然后我们计算召回率和精确率如下:
Recall=∑j=1nrjn,Precision=∑j=1nrjm,rIoU=2⋅Precision⋅RecallPrecision+Recall+ϵ,Recall=\frac{\sum_{j=1}^{n}r_j}{n},\quad Precision=\frac{\sum_{j=1}^{n}r_j}{m},\quad r^{IoU}=\frac{2\cdot Precision\cdot Recall}{Precision+Recall+\epsilon},Recall=n∑j=1nrj,Precision=m∑j=1nrj,rIoU=Precision+Recall+ϵ2⋅Precision⋅Recall,
其中ϵ\epsilonϵ是防止除零的小常数。此公式奖励空间准确性和标签正确性。它惩罚不匹配或错误分类的预测,并通过F1风格奖励信号平衡过度和不足预测。
掩码内点奖励。此奖励应用于模型通过点预测定位物体的任务,如指向检测、接地和引用。它评估预测点是否位于物体掩码内。
给定真实边界框集B∗={b1∗,⋯ ,bn∗}\boldsymbol{B}^{*}=\{\boldsymbol{b}_1^{*},\cdots,\boldsymbol{b}_n^{*}\}B∗={b1∗,⋯,bn∗},我们对每个真实框bj∗\boldsymbol{b}_j^{*}bj∗应用SAM提取二进制掩码MjM_jMj。令P^={p^1,⋯ ,p^m}\hat{P}=\{\hat{p}_1,\cdots,\hat{p}_m\}P^={p^1,⋯,p^m}表示预测点,每个点关联一个类别标签。对于每个真实掩码MjM_jMj,我们确定是否存在位于MjM_jMj内的预测点p^i\hat{p}_ip^i:
∃p^i∈P^,s.t.p^i∈Mj.\exists\hat{p}_i\in\hat{P},\quad\mathsf{s.t.}\quad\hat{p}_i\in M_j.∃p^i∈P^,s.t.p^i∈Mj.
如果存在这样的点且其关联的类别标签与MjM_jMj匹配,我们为对应的真实实例分配1的奖励;否则,奖励为0。然后使用与框IoU奖励中相同的公式计算精确率、召回率和F1奖励。
框内点奖励。此奖励专门为GUI接地任务设计,其中模型需要预测指示可点击位置(如按钮)的点在图形用户界面上。如果预测点落在目标GUI元素的真实边界框内,则分配1的奖励;否则,奖励为0。这种简单的二元奖励有效鼓励GUI场景中所需的精确点级交互行为。
4.2.4 实施细节
我们从SFT数据集中采样66K数据作为GRPO阶段的训练数据。我们重用SFT阶段的相同对话模板。GRPO训练在8个A100 GPU上进行,耗时约24小时。我们将rollout大小设置为8,KL惩罚系数β\betaβ设置为0.01,批量大小为64。在此阶段更新所有模型参数。
5. 基准测试结果
本节介绍了Rex-Omni在多种视觉感知任务上的评估结果,如常见、长尾和密集物体检测、引用物体检测和物体指向。对于每项任务,我们概述了基准数据集、实验设置和评估指标。
5.1 常见物体检测
常见物体检测是指检测在预定义类别集中频繁出现在现实场景中的物体的任务。该任务的目标是评估模型准确识别和定位这些常见物体的基本能力。
基准:我们在COCO[54]数据集上进行评估,这是物体检测领域最广泛使用的基准之一。该数据集包括5000张测试图像,涵盖80个不同物体类别,代表了各种常见物体。

评估设置:我们评估了两种变体:Rex-Omni-SFT,仅经过第一阶段监督微调;以及完整的Rex-Omni模型,经过SFT和后续的GRPO强化后训练。我们将这些变体与三类模型进行比较:1)在COCO上训练的闭集检测模型,包括Faster RCNN[87]、DETR[8]、DyHead[17]、DAB-DETR[58]、Deformable-DETR[134]和DINO[122];2)未在COCO上训练的开集检测模型Grounding DINO[59];3)多模态大语言模型(MLLMs),包括DeepSeek-VL2[110]、Ovis2.5[65]、MiMo-VL[100]、Qwen2.5-VL[4]和SEED1.5-VL[24]。对于闭集检测模型,我们输入图像并仅保留类别与每张图像中的真实(GT)标签匹配的预测边界框。对于开集模型,我们提供所有GT类别作为文本提示并保留相应结果。对于MLLMs,我们采用两种提示策略:(1)一次查询一个GT类别(例如,“在此图像中检测狗”),和(2)同时查询所有GT类别(例如,“在此图像中检测狗、猫、人”)。虽然后者在现实场景中更实用,但大多数MLLM在同时处理多个类别时表现下降。因此,除了SEED1.5-VL和Rex-Omni外,我们使用单类别策略。Rex-Omni的所有评估(SFT和完整版本)都以采样温度0进行,以最小化随机性。
指标:在物体检测中,标准指标是平均精度(AP),它依赖置信度分数在不同阈值下计算精确率和召回率。然而,多模态模型通常缺乏可靠的置信度估计,使AP不适用。因此,我们采用召回率、精确率和F1分数作为评估指标。给定预测和真实框,召回率和精确率按类别计算然后平均,而F1取它们的调和平均值。遵循COCO惯例,交并比(IoU)在0.5到0.95的阈值下评估(步长0.05),并在IoU=0.5\mathrm{IoU}=0.5IoU=0.5、IoU=0.95\mathrm{IoU}=0.95IoU=0.95和阈值平均值下报告结果。为了与MLLMs公平比较,我们进一步在0到1的置信度阈值范围内(步长0.01)为闭集和开集检测模型计算F1分数,报告最高F1作为最终性能。
结果:结果如表2所示。首先,在MLLMs中,Rex-Omni超越了现有方法,包括之前保持最先进检测性能的SEED1.5-VL。

在IoU阈值为0.5时,Rex-Omni表现出卓越性能,超过了开集检测模型Grounding DINO-SwinT和闭集检测模型DINO-R50。重要的是,Rex-Omni在零样本设置下(未在COCO数据上训练)实现了这一性能,这表明当精确边界框定位不是唯一关键因素时,基于MLLM的检测方法确实可以超越传统的基于回归的模型。然而,在更严格的IoU阈值0.95下,Rex-Omni的性能虽然仍然强劲,但仅略优于DAB-DETR,这表明在需要极精确边界框紧密度的场景中,MLLM可能仍然落后于传统的基于回归的模型。
尽管存在这种细微限制,但所达到的性能对于广泛的实际应用通常足够。我们在图7中展示了一些可视化结果。此外,在GRPO后训练后观察到显著改进,完整的Rex-Omni模型大幅优于其仅SFT变体(Rex-Omni-SFT)。这清楚地突出了我们强化学习策略的有效性。
5.2 长尾物体检测
长尾物体检测解决了识别具有高度不平衡实例分布的类别这一挑战,其中大多数类别代表性不足。该任务要求模型在复杂现实场景中有效泛化并稳健地检测稀有物体。
基准:我们在广泛使用的LVIS[25]数据集上进行评估。LVIS包含1203个类别,远多于COCO的80个,并包含19626张测试图像。其类别源自WordNet同义词集,有意分布以模仿现实频率,导致自然的长尾分布,其中许多类别只有很少的实例。
评估设置和指标:我们评估开集检测模型和MLLMs的性能,遵循第5.1节中为COCO描述的相同评估设置和指标。
结果:结果如表3所示。在LVIS上,MLLMs通常优于传统的开集检测器,如Grounding DINO,这归功于其LLM组件比传统文本编码器(如CLIP或BERT)具有更强的语言推理能力。这种优势有助于更好地泛化到低频类别。

在零样本设置下,Rex-Omni取得具有竞争力的性能,在IoU=0.5\mathrm{IoU}=0.5IoU=0.5下的F1分数仅次于SEED1.5-VL,可能是因为后者的模型规模更大,语言理解能力更强。值得注意的是,Rex-Omni在mIoU指标上达到了最先进的结果,反映了其在阈值范围内的边界框精度优越性。此外,从Rex-Omni-SFT到完整Rex-Omni模型的显著改进强调了基于GRPO的强化后训练在增强物体定位方面的有效性。定性结果如图7和图19所示。
5.3 密集和微小物体检测
密集和微小物体检测对于遥感和物体计数等应用至关重要,要求在拥挤场景中准确定位大量小物体。对于MLLMs,此任务特别具有挑战性:它不仅需要精确、扩展的坐标预测,对微小像素变化敏感,还暴露了缺乏多尺度特征机制(如特征金字塔[55])的问题,传统基于回归的检测器利用这些机制来处理尺度多样性。因此,MLLMs在密集和微小物体检测场景中通常会出现重复预测和坐标偏移等问题。
基准、设置和指标:我们在两个针对密集和微小物体检测定制的不同数据集上评估开集检测模型和MLLMs。第一个数据集VisDrone[19]包含1610张空中交通图像,涵盖10个类别,单个框平均尺寸约为30.7×32.430.7\times32.430.7×32.4像素。此外,我们引入了Dense200,一个手动收集的数据集,包含200张密集标注的图像,涵盖109个类别。在Dense200中,每张图像平均包含91.2个边界框,平均尺寸为66.8×64.566.8\times64.566.8×64.5像素。这些数据集共同构成了重大挑战,因为小物体尺寸和高物体密度的结合,要求精确的空间推理和准确定位。评估设置和指标与第5.1节中用于COCO评估的相同。
结果:结果如表4所示,代表性可视化如图8和图20所示。正如第4.2.1节所预期的,MLLMs在密集和微小物体检测方面表现不佳,大多数模型表现很差。我们确定了两种关键失效模式:(1)大框预测,单个过大的边界框错误地覆盖多个相邻物体,和(2)结构化重复预测,重复的坐标具有最小偏移,而不是不同的物体框。


我们将其归因于SFT阶段。在完整真实序列上的教师强制训练限制了模型调节自己输出结构的能力。在推理时没有这种指导,模型无法决定物体数量或避免冗余预测。值得注意的是,我们在仅SFT变体中也观察到了这些有问题的重复预测。关键的是,在基于GRPO的强化后训练之后,这些重复问题在很大程度上消失了,有力地证明了我们的两阶段流程在纠正SFT引起的缺陷和在密集和微小物体场景中实现更连贯、准确预测方面的有效性。


5.4 引用物体检测
引用物体检测要求模型识别和定位由自然语言表达式描述的物体。与标准物体检测不同,后者专注于类别级识别,此任务需要细粒度的语言理解和语言描述与视觉内容之间的强大对齐。
基准:评估在两个公认的公共基准上进行:1)RefCOCOg(val/test):RefCOCOg[70]基于COCO图像构建,包含4889个验证和9577个测试引用表达式。每个表达式映射到单个真实边界框,使该基准相对容易评估。2)HumanRef:HumanRef[33]是一个专注于人物的人工标注基准,包含6000个测试表达式,组织成六个子集:属性、位置、交互、推理、名人和拒绝。我们使用前五个子集(5000张图像)进行评估。与RefCOCOg不同,HumanRef中的单个表达式可能对应多个真实框,平均每个表达式两个。这种设计带来更大挑战,需要细粒度的语言理解和强大的视觉感知。
评估设置和指标:我们使用与第5.1节中为COCO描述的相同设置和指标评估开集检测模型和MLLMs,有一个例外:在测试期间,模型一次查询一个引用表达式。对于开集检测器Grounding DINO,我们采用其官方演示的置信度阈值0.25。
结果:结果如表5所示。开集检测模型在此任务上明显表现不佳,这从Grounding DINO在所有基准测试中的一致性表现不佳可以看出。相比之下,MLLMs利用其固有的强大语言理解能力,在此任务上始终表现出色。在HumanRef上,Rex-Omni取得了具有竞争力的结果,仅次于SEED1.5-VL。这表明,虽然Rex-Omni(3B参数)具有足够的语言理解能力以进行有效的引用表达理解,但像SEED1.5-VL这样的更大模型因其更大的容量而受益于更细致的推理能力。总体而言,Rex-Omni在所有数据集上的强劲表现证明了其将自然语言与视觉内容对齐的能力,使其在现实世界的引用场景中具有高度实用性。可视化示例如图9和图21所示。
5.5. 视觉提示
虽然文本提示在许多任务中被广泛使用,但它们有固有的局限性,特别是当某些物体难以仅用语言描述时。在这些场景中,视觉提示可以为物体检测提供更有效的方法。在本节中,我们将视觉提示定义为一项任务,即给定一幅图像及其内部的几个示例边界框,模型需要检测所有与示例所指示类别相同的其他物体。
基准测试和评估设置:我们在物体计数数据集FSC147上以及物体检测基准测试COCO、LVIS和Dense200上评估视觉提示能力。FSC147数据集包含1,190张图像,每张图像包含来自单一类别的密集物体集,以及三个用作视觉提示的示例边界框。对于COCO、LVIS和Dense200,我们遵循T-Rex2方法,即对于图像中的每个真实类别,随机采样一个边界框作为该类别的视觉提示。为了与Rex-Omni对接,所选视觉提示框的坐标被转换为特殊令牌并嵌入到查询中,例如:“给定参考框<12><52><212><337><12><52><212><337><12><52><212><337>指示一个或多个物体,在图像中找到所有相同类别的物体。”
指标:我们主要采用第5.1节中所述的F1分数作为物体检测的指标。此外,我们引入平均绝对误差(MAE)指标来评估模型的物体计数能力。MAE计算为预测物体数量与真实物体数量之间绝对差值的平均值,从而为模型在密集场景中准确计数物体的能力提供额外度量。
结果:虽然Rex-Omni的整体性能仍不及传统专家模型T-Rex2,但它展示了强大的视觉提示能力。特别是在密集场景和长尾场景中,Rex-Omni表现良好,突显了其在应对高物体密度和严重类别不平衡方面的有效性。代表性可视化结果如图10所示。
5.6. 物体指向
物体指向任务要求模型为指定的目标物体预测精确的点坐标。与边界框不同,点标注在定位方面提供更大的灵活性,因为模型可以指示物体的中心或其边界内的任何代表性位置。
基准测试、评估设置和指标:为了评估物体指向,我们整合了先前用于基于框的检测的数据集,包括COCO、LVIS、Dense200、VisDrone、RefCOCOg和HumanRef。这些数据集覆盖了从常见和长尾物体到密集小物体和复杂引用表达式的广泛视觉场景。评估协议遵循早期检测任务的标准。对于大多数模型,除了SEED1.5-VL和Rex-Omni外,每张测试图像一次只查询一个真实类别。我们采用与物体检测相同的基于F1分数的评估指标,但在匹配标准上有一个修改。对于每个真实边界框,我们使用SAM生成分割掩码,如果预测点落在相应掩码内,则认为该点是正确的。然后按照标准基于框的评估方式计算召回率、精确率和F1分数。
结果:所有评估模型的性能如表7所示。虽然大多数MLLMs在常见物体类别上达到了合理的指向精度,但在密集或小尺度实例上表现不佳,特别是在Dense200和VisDrone数据集上。Rex-Omni在一般和具有挑战性的数据集上都获得了最高的F1分数,突显了其强大的空间定位能力。代表性可视化如图11和图22所示。
5.7. GUI定位
图形用户界面(GUI)定位评估模型基于自然语言查询定位特定UI元素的能力。此任务对智能代理、自动化UI交互和软件测试等应用至关重要,因为它需要视觉感知和语言理解的无缝集成。
基准测试、评估设置和指标:我们在两个数据集上评估模型:ScreenSpot-V2和ScreenSpot-Pro。ScreenSpot-V2涵盖移动、桌面和Web场景,在1,272张图像中具有多种UI布局。ScreenSpot-Pro则专注于超高分辨率界面,专门设计用于测试模型在极具挑战性的视觉条件下定位UI元素的精度,包含1,581张图像。Rex-Omni使用其基于点的预测能力进行评估,为每个查询在目标UI元素内输出一个点。按照标准协议,我们报告准确率,如果预测点落在真实边界框内,则认为预测正确。
结果:如表8所示,Rex-Omni在GUI定位任务上始终表现出色。具体而言,在3B参数模型中,Rex-Omni在ScreenSpot V2和ScreenSpot Pro上都达到了最高的准确率。这突显了其在不同和超高分辨率UI场景中无缝集成强大语言理解与细粒度视觉定位的卓越能力。
5.8. 布局定位
布局定位要求模型定位和解释文档中元素之间的空间关系,如标题、段落、章节和图表。此任务对文档布局分析和网页理解等应用至关重要,因为它不仅需要物体检测,还需要对结构安排和语义关系进行推理。
基准测试、评估设置和指标:我们在DocLayNet和M6Doc数据集上评估我们的模型。DocLayNet从PDF文档中收集,包含11个类别,如脚注、图片、表格和标题,测试集包含6,480张图像。M6Doc数据集则复杂得多,涵盖来自不同领域(如科学文章、教科书、试卷、杂志、报纸、笔记、书籍)的数据,共74个类别,2,724张测试图像。对于评估,我们将此任务视为物体检测问题,遵循与COCO上常见物体检测相同的评估协议。
结果:结果如表9所示。Rex-Omni在布局定位方面大幅优于其他MLLMs。虽然与闭集模型相比仍存在性能差距,但Rex-Omni处理开集布局定位的能力提供了独特优势。与局限于预定义类别的闭集模型不同,Rex-Omni展示了泛化到未见领域和新颖布局结构的独特能力,使其成为现实世界布局理解任务中更具通用性和适应性的解决方案。代表性可视化结果如图12和图23所示。
5.9. OCR
光学字符识别(OCR)涉及文本检测和识别,模型需要识别和提取图像或文档中的文本。此任务要求模型检测文本区域,然后识别这些区域内的字符或单词,从而将扫描文档或图像转换为机器可读文本。
基准测试、评估设置:我们在四个不同数据集上评估PaddleOCR、SEED1.5-VL和Rex-Omni的性能。核心评估方法是检测和识别图像中的所有文本。数据集包括:HierText(3,446个实例,主要是密集文本)、TotalText(600个实例,场景文本,主要是弯曲文本)、ICDAR2015(1,000个实例,场景文本)和SROIE(720个实例,打印收据数据,主要是水平文本)。这些数据集共同涵盖了从密集和弯曲场景文本到结构化文档文本的广泛OCR挑战。对于PaddleOCR和Rex-Omni,我们预测边界框(BBOX)和多边形(POLY)文本区域,并报告两种格式的性能,以全面评估文本定位能力。
指标:我们将OCR作为物体检测任务进行评估,遵循COCO评估协议,将类别替换为识别的文本。如果(1)预测区域和真实区域匹配,且(2)识别的文本与真实文本完全匹配,则认为预测正确。性能使用F1分数报告,平衡精确率和召回率。
结果:OCR任务的评估结果如表10所示。对于边界框(BBOX)输出,Rex-Omni表现出强劲的竞争力。它在所有指标和数据集上大幅优于SEED1.5-VL,并在几个关键方面达到或超过了专用OCR专家模型PaddleOCRv5。这突显了Rex-Omni在使用边界框进行文本检测和识别方面的强大能力。在多边形(POLY)输出格式中,Rex-Omni也表现出竞争力。经过GRPO后训练的完整Rex-Omni模型在ICDAR2015等具有挑战性的数据集上实现了领先的多边形文本区域检测结果。这表明我们的方法在处理更复杂的文本几何形状方面的通用性。从Rex-Omni-SFT到Rex-Omni的持续改进进一步验证了我们的两阶段训练流程在增强OCR性能方面的有效性。代表性可视化结果如图13和图24所示。
5.10. 空间指向
此任务专注于在复杂场景中定位描述空间关系的自然语言表达式。与标准引用物体检测不同,后者主要将物体与类别名称或简单属性匹配,空间定位要求模型解释关系线索,如相对位置、锚定和自由空间放置。
基准测试和指标:RefSpatial-Bench在两个任务上评估复杂室内场景中的空间引用和推理:位置和放置,每个任务有100个精选样本。每个样本包括一幅图像、一个自然语言引用表达式和精确的掩码标注。位置任务要求模型根据引用表达式预测对应于目标物体的2D点,这些表达式可能涉及颜色、形状、空间顺序或基于锚点的引用等属性。放置任务要求在自由空间内识别适合的2D点,通常涉及多个锚点或分层空间关系。为了评估泛化能力,基准测试还提供了77个未见样本,包含训练中不存在的空间关系新组合。评估使用真实掩码进行,准确率定义为落在掩码区域内的预测百分比。
结果:如表11所示,Rex-Omni大幅优于先前的专有和引用专家模型。它在位置和放置任务上的强劲表现表明其在下游场景(如机器人操作)中的增强适用性,其中准确抓取和放置至关重要。此外,Rex-Omni展示了对未见案例的卓越泛化能力,突显了其处理新空间关系的鲁棒性。代表性可视化结果如图14所示。
5.11. 关键点
基准测试、评估设置和指标:COCO是一个旨在评估2D人体姿态估计和实例级关键点检测能力的基准数据集,适用于不受约束的环境。它包含大量图像,其中人物处于多样和复杂的自然场景中。每个标注的人物实例包括17个预定义的身体关节,形成标准人体骨架。AP10K是一个旨在推进2D动物姿态估计领域的基准,解决了跨物种解剖变异的挑战。该基准使用统一的17个身体关键点定义,标准化了哺乳动物、爬行动物和鸟类的关键点标注。遵循COCO协议,我们采用对象关键点相似度(OKS)作为评估指标。我们报告OKS阈值为0.5、0.95和从0.5到0.95以0.05为增量的平均值的F1分数。
结果:如表12所示,开集专家模型X-Pose在COCO关键点检测上实现了最强的性能,尤其是在较低OKS阈值下。然而,它在AP10K上的泛化能力很差,性能急剧下降。相比之下,Rex-Omni在人类和动物关键点基准测试上表现出更平衡的结果。虽然其在COCO上的绝对分数落后于X-Pose,但Rex-Omni在AP10K上大幅优于X-Pose,突显了其卓越的跨域泛化能力。此外,从Rex-Omni-SFT到完整Rex-Omni模型的一致改进验证了我们的两阶段训练流程在增强关键点推理方面的有效性。代表性可视化结果如图15所示。
6. Rex-Omni的深入分析
在本节中,我们进行全面分析,研究和阐明Rex-Omni关键设计组件的有效性。我们的目标是更深入地理解每个架构选择、训练策略(包括GRPO的作用)和数据设计如何共同影响模型在各种视觉感知任务上的整体性能。
6.1. 为什么GRPO有效
Rex-Omni采用两阶段训练策略,从监督微调(SFT)开始,然后是基于GRPO的强化学习。在所有坐标预测基准测试中,经过GRPO增强的模型始终优于仅SFT的对应模型。为了研究这些增益的来源,我们分析模型行为并突出GRPO有效缓解的关键错误模式。
6.1.1. 训练动态
为了更好地理解Rex-Omni如何获得其视觉感知能力,我们分析SFT和GRPO阶段的性能轨迹,观察训练进展。图16展示了模型性能在代表性基准测试上随训练步骤(以看到的数据量衡量)的变化。
在SFT阶段,性能表现出稳定且渐进的改进。随着模型接触到更多训练数据,它逐渐学习将视觉输入与坐标输出对齐,从而在基准测试上实现一致但渐进的增益。然而,一旦SFT结束,性能往往会趋于平稳,表明从更多监督暴露中获得进一步改进是有限的。相比之下,GRPO阶段产生了显著不同的轨迹。仅经过少量训练步骤,模型在基准测试上就经历了快速的性能飞跃。值得注意的是,这种改进不能简单地归因于更多的数据暴露,因为GRPO阶段涉及的样本远少于SFT。相反,结果表明SFT训练的模型已经拥有强大的潜在能力,但这些能力未被充分利用。GRPO通过引入行为感知奖励和序列级反馈,有效地解锁了这种隐藏潜力,使模型能够以最小的额外训练实现性能的大幅跃升。
综合来看,这些动态揭示了GRPO的优势不在于扩展监督学习,而在于重塑模型行为以更好地利用现有能力。在接下来的小节中,我们将深入探讨这种改进背后的具体机制,首先探讨GRPO如何纠正SFT期间学习的有问题行为。
6.1.2. 通过GRPO进行行为纠正
重复预测。一个主要的错误模式是生成重复预测的倾向。在SFT下,模型在每一步都以真实令牌为条件进行训练——因此很少遇到或纠正此问题。相比之下,GRPO要求模型自主生成序列并提供基于奖励的反馈。重复坐标获得低奖励,有效阻止重复并促进更连贯的预测。
为了验证此效果,我们分析了仅SFT模型和GRPO训练模型的预测,重点关注重复输出。重复预测定义为坐标序列中相同值连续出现至少10次,且预测框总数超过真实计数两倍的情况。我们移除这些重复项并重新评估F1分数。如表13所示,仅SFT模型在移除重复项后表现出显著改进(例如,COCO上+1.23%,LVIS上+1.38%,VisDrone上+15.3%),而GRPO模型显示的增益很小(例如,COCO上+0.08%,VisDrone上+0.1%)。这表明SFT训练的模型比GRPO训练的模型产生明显更多的重复预测。移除重复项后,SFT和GRPO之间的性能差距缩小,在VisDrone等密集数据集上几乎可以忽略不计。这些差异的可视化示例如图17(左)所示。这些发现证实,GRPO有效抑制了重复预测,这是Rex-Omni整体性能改进的关键因素。
大框预测。在密集物体检测场景中观察到的另一个行为问题是模型预测单个大边界框,该框包含多个密集物体的倾向。此失败模式也在我们对密集物体检测的基准测试中得到强调(第5.3节)。为了研究此问题,我们在Dense200数据集上进行实验。大框预测定义为图像中仅预测一个边界框,且其面积超过图像总面积95%的情况。然后,我们分析仅SFT模型和GRPO训练模型的此类大框预测实例,并从评估中移除这些样本。
如表14所示,仅SFT模型有20.5%的总预测被归类为大框,导致在移除这些大框预测后性能显著提高(例如,F1@IoU=mIoU从44.9提高到56.7)。相比之下,GRPO训练模型只有3.5%的预测被归类为大框,因此在移除它们后性能变化要小得多(F1@IoU=mIoU从58.3提高到60.0)。这清楚地表明,GRPO的行为感知优化有效阻止模型在密集场景中生成这种过大的、包含性的边界框。此失败模式的可视化示例如图17右侧所示。
6.1.3. 坐标精度的改进?
我们假设SFT中使用的交叉熵损失缺乏几何感知能力,而GRPO可以利用几何感知奖励来细化坐标精度。为了验证这一点,我们在COCO、LVIS和HumanRef上评估坐标精度。
具体而言,对于每个测试样本,我们只包括SFT和GRPO模型预测框数量与真实计数完全匹配的样本。此外,对于这些选定的样本,两个模型的每个预测框必须与其对应的真实边界框达到超过预定义匹配阈值的IoU。此过滤策略使我们能够有效地将分析隔离到仅关注坐标精度的细微差异。如表15所示,GRPO相对于SFT仅产生适度增益。例如,F1@mIoU在COCO上从63.0略微增加到63.5,在LVIS上从56.6增加到56.9。这些结果表明,SFT已经为学习准确坐标和紧密定位提供了足够的能力。因此,GRPO的主要优势不在于提高原始坐标精度,而在于纠正行为缺陷,如重复预测和大框输出,如前所述。
6.1.4. 提高正确预测的可能性
除了行为纠正和坐标细化外,我们从采样概率角度检查GRPO的影响。我们假设SFT模型本质上具有生成准确预测的能力,但其推理随机性降低了始终采样最优输出的可能性。相比之下,GRPO利用奖励引导的探索来增加这种可能性。
为了实证测试这一点,我们使用SFT模型在COCO、LVIS和Dense200上进行高温采样实验。我们通过为每个测试实例采样8个候选预测(使用温度1.2,top-k 50,top-p 0.99)来模拟GRPO的rollout。从中,我们得出两个基于SFT的指标:
- SFT-Sampling-Best:SFT模型8次独立完整数据集测试运行中达到的最高F1分数。
- SFT-Sampling-Vote:对于每个测试样本,从其8个采样输出中选择最佳预测(与真实情况的最高F1分数)。然后聚合这些样本级最佳预测以获得整体性能。这估计了SFT在样本级别可靠选择最佳预测时的最大性能。

如表16所示,在COCO上,SFT-Sampling-Vote分数(72.6 F1@0.5)超过了GRPO(72.0)和基础SFT(68.2),表明SFT具有生成准确预测的潜在能力,而GRPO主要在较简单的数据集上提高采样一致性。然而,在LVIS和Dense200上,SFT-Sampling-Best和SFT-Sampling-Vote都无法达到GRPO的性能,表明对于复杂任务,GRPO通过实现本质上更连贯和精确的预测发挥更深层次的作用。这些发现表明,GRPO的优势因任务复杂性而异:在较简单设置中增加采样概率,在更具挑战性的环境中从根本上增强预测质量。
6.2. 推理效率和速度
坐标表示的效率至关重要,因为它直接影响输出长度和推理速度。我们比较Rex-Omni(使用特殊令牌编码量化坐标)和SEED1.5-VL(在不使用特殊令牌的情况下表示相对坐标)。为了评估这一点,我们从COCO和Dense200中各采样100张图像,并测量每张图像的平均框数、每张图像的总输出令牌数和每框令牌数。如表17总结,Rex-Omni实现了更高的令牌化效率。例如,在COCO上,它每框平均只需要7.6个令牌,而SEED1.5-VL需要148.8个,每张图像的总输出长度从631.0减少到45.3个令牌。在Dense200上也观察到类似的改进,证实专用特殊令牌大大提高了效率,特别是在密集物体设置中。
除了令牌化效率外,我们进一步检查实际推理速度。图18展示了预测框数、输出令牌长度和平均生成时间之间的关系,在单个NVIDIA A100 GPU上使用vLLM以BF16精度测量(未应用加速或压缩)。生成时间和令牌数都随着预测框数近似线性增长:检测少量物体(0-29个)需要不到2秒,而检测数百个物体(例如410-419个)则超过16秒。这些发现表明,当前基于MLLM的检测器比传统优化检测器慢,速度直接与检测到的物体数量成比例。尽管如此,这种限制可以通过量化或蒸馏等加速策略来缓解。
7. 结论
在本工作中,我们介绍了Rex-Omni,一个3B参数的MLLM,系统地解决了基于MLLM的物体检测的挑战。通过使用特殊令牌进行高效的坐标令牌化、通过自定义引擎进行大规模数据生成,以及新颖的SFT+GRPO两阶段训练流程,我们弥合了精确定位和深度语言理解之间的差距。我们的广泛实验表明,Rex-Omni在各种视觉感知任务上实现了最先进或高度竞争的零样本性能。至关重要的是,我们的分析验证了虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引起的行为缺陷(如重复和大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的关键贡献。尽管性能强劲,但推理速度等限制仍然存在。我们相信,模型加速和先进奖励引导采样方面的未来工作将是关键的下一步。总之,Rex-Omni代表了重要的前进步骤,证明了MLLM的行为和几何限制可以被系统地克服,从而为下一代多功能、语言感知的感知系统铺平道路。
8. 相关工作
基于回归的物体检测方法。物体检测长期以来一直是计算机视觉的基石任务,基于回归的方法在该领域历史上占据主导地位。这些方法的核心原理是通过回归其属性来预测边界框,通常包括中心坐标(x,y)和尺寸(宽度,高度),作为从预定义参考的归一化偏移。多年来,这些方法经历了重大演变,从早期基于锚点的CNN模型(如YOLO、SSD和Faster R-CNN)到无锚点方法(如CornerNet、CenterNet和FCOS)。随着DETR等基于Transformer的检测器的引入,出现了重大范式转变,将物体检测视为直接集预测问题。这一系列工作通过Deformable DETR和DINO等模型进一步推进,显著提高了性能和收敛速度。除了这些范式变化,回归检测器的持续改进得益于众多增量但关键的创新。这些包括架构增强(如特征金字塔网络FPN)、损失函数的进步(如Focal Loss)以及复杂的增强技术(如MixUp和Mosaic)。正是这些广泛而持续努力的累积效应,推动了基于回归的物体检测器达到当前高性能和实用可用性的状态。
开集物体检测方法。物体检测的长期目标是开发能够识别任意数量物体类别的模型,无需特定任务的微调,从而解决现实世界动态场景的挑战。开集物体检测代表了朝着这一目标的重大范式转变,超越了闭集检测的限制,使模型能够识别预定义类别集之外的物体。应对这一挑战的流行方法是文本提示开词汇物体检测。这些方法通常利用强大的预训练视觉-语言模型(如CLIP或BERT)将文本描述与视觉表示对齐,展示了令人印象深刻的零样本识别能力。然而,这些模型在处理复杂或细微的描述时表现不佳,因为它们的语言理解能力有限。为了克服这一点,引入了视觉提示,允许模型使用视觉示例(如框或点)识别物体。视觉提示对罕见或难以描述的物体有效,但通用性不如文本提示。最近的模型(如T-Rex2)结合了文本和视觉提示,使用对比学习来利用各自的优势。这种集成使模型能够在更广泛的物体类别和现实世界场景中表现良好。虽然传统的开集检测器实现了类别级泛化,但它们仍然缺乏更深层次的语言理解,使其难以处理富含上下文的现实世界场景。
基于MLLM的物体检测方法。为了克服传统开集检测器的浅层语言理解,一个有前途的方向是直接利用多模态大语言模型(MLLMs)的强大推理能力进行物体级感知。核心思想是将物体检测重新定义为语言建模任务。受Pix2Seq启发,大量工作出现,将边界框坐标表示为离散量化令牌的序列。这些模型(包括Kosmos-2、Shikra、Ferret和CogVLM)通过LLMs的标准下一个令牌预测机制直接生成坐标序列。这种方法优雅地将物体检测与语言模型的原生能力统一起来。然而,正如我们在引言中所讨论的,这种概念上优雅的方法面临重大实践挑战。虽然MLLM在高级图像理解方面表现出色,但它们通常在物体检测所需的细粒度空间精度方面表现不佳。现有方法经常遭受低召回率、坐标漂移和虚假重复预测等限制。我们认为,这些问题源于两个根本挑战:使用交叉熵损失从离散令牌到连续像素空间学习精确映射的固有难度,以及监督微调(SFT)教师引导性质引起的行为缺陷。解决这些挑战是Rex-Omni设计的主要动机。
参考文献
[此处省略了详细的参考文献列表,保持与原文格式一致]
A. 附录
A.1. 更多可视化结果
为了提供对Rex-Omni能力更全面和直观的理解,本节展示了各种视觉感知任务的额外定性结果。这些可视化补充了主论文中报告的定量结果,提供了对模型在多样和具有挑战性场景中性能的进一步洞察。我们展示了以下任务的更多可视化结果:
-
常见和长尾物体检测(图19)

-
密集物体检测(图20)

-
物体引用(图21)

-
物体指向(图22)

- 布局定位(图23)

- OCR(光学字符识别)(图24)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)