论文作者:Shenghao Fu, Qize Yang, Qijie Mo, Junkai Yan, Xihan Wei, Jingke Meng, Xiaohua Xie, Wei-Shi Zheng
发布期刊:CVPR
发布年份:2025
模型代码:https://github.com/iSEE-Laboratory/LLMDet

论文创新点

  1. 首次将「图像级长文本详细描述」作为显式监督,引入开放词汇目标检测
    现有方法的局限
  2. 提出「图像级 + 区域级」双层语言生成监督,实现全局–局部语义闭环对齐
  3. 提出「LLM 监督 Detector」的训练范式,并实现“训练增强、推理零开销”

摘要

最近的开放词汇检测器借助丰富的区域级标注数据取得了令人瞩目的性能。通过为每张图像生成图像级详细描述,与大型语言模型协同训练的开放词汇检测器能够进一步提升性能。为实现这一目标,本文首先收集了一个数据集——GroundingCap-1M,其中每张图像都配有相关的接地标签和图像级详细描述。利用该数据集,对开放词汇检测器进行微调,训练目标包括标准的接地损失和描述生成损失。借助大型语言模型,为每个感兴趣的区域生成区域级短描述,并为整个图像生成图像级长描述。在大型语言模型的监督下,所得到的检测器LLMDet显著优于基线模型,具备更出色的开放词汇能力。此外,经过改进的LLMDet反过来可以构建更强大的大型多模态模型,实现互利共赢。

方法

在这里插入图片描述LLMDet概述。LLMDet包含一个标准的开放词汇检测器和一个大型语言模型(LLM),并在接地损失和语言建模损失下进行训练。该LLM旨在使用特征图作为视觉输入生成图像级描述,以及使用单个对象查询作为视觉输入生成区域级描述,这两种描述通过不同的提示词区分。只有区域级生成中的视觉令牌会通过LLM中的交叉注意力(CA)模块,这部分用虚线框突出显示。由于图像级和区域级生成中的令牌数量差异很大,将LLM分别前向传播两次以节省内存和计算资源。在推理时可以舍弃LLM,因此不会产生额外成本。

开放词汇目标检测器(Detector)

  1. Backbone(视觉特征提取)
    使用 Swin-T / Swin-B / Swin-L,输出多尺度特征(p3 / p4 / p5)
  2. Transformer Encoder(特征建模)
    将 backbone 输出编码为 上下文增强后的视觉特征
    LLMDet 中使用:p4 + p5 作为 LLM 的视觉输入
  3. Object Queries + Decoder(DETR 核心)
    每个 object query 表示:一个潜在目标实例
    Decoder 输出:Bounding box与文本的匹配关系
  4. Grounding Head(原始检测监督)
    输入:Object queries和Grounding text(类别/短语拼接)
    输出:检测框和词–区域对齐关系
    损失:L_align:词–区域对齐,L_box:边界框回归
    这部分 = MM-GDINO 原生能力。

Projector(Detector ↔ LLM 对齐桥梁)

Detector 的视觉特征空间 ≠ LLM 的语言 token 空间,直接丢给 LLM 会导致语义错位和破坏预训练能力,所以需要Projector进行对齐。
Projector 的作用
输入:Detector Encoder 的视觉特征(p4 / p5 或 object query)
输出:LLM 可理解的 视觉 token embedding

大语言模型(LLM)

包含两条关键分支:Image-level 与 Region-level 语言监督
图像级描述生成(Global Branch)
输入:视觉 token:p4 + p5 特征(resize 后拼接)
Prompt:Describe the image in detail.
LLM 行为:不使用 cross-attention,直接基于全图视觉 token 生成
输出:长文本描述(~115 tokens)物体、属性、关系、场景
区域级描述生成(Local Branch)
仅有图像级 caption无法解决:“这个词对应哪个目标?”的问题
输入:单个 正样本 object query
Prompt:Describe the region in a phrase.
Cross-Attention(关键设计)
object query token:作为 Query
Encoder feature map:作为 Key / Value
用全局上下文补充局部语义,消除歧义(如多个相似目标)
输出:区域级短语:young man、dishes、mother
输出的文本对应的概率分布会在最后经过损失函数:
在这里插入图片描述
完成对模型的优化

训练流程

在这里插入图片描述
LLMDet的多步骤训练流程。在每个步骤中,橙色模块是可调整的,而蓝色模块是冻结的。第一步,训练一个投影器,使检测器的特征与大语言模型(LLM)对齐,这样就可以将大语言模型集成到检测器中,而不会破坏预训练的特征。然后,在第二步中,使用标准的定位任务和新引入的 captioning(图像级描述和区域级描述) 任务来训练检测器。

实验

在这里插入图片描述
零样本迁移 指的是:模型在训练阶段从未见过某些类别,但在测试阶段仍能识别这些新类别
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

在这项研究中,我们探索了一种新的训练目标,以提升现有开放词汇检测器的性能。通过利用大型语言模型生成图像级的详细描述和区域级的粗略定位短语,检测器能从详细描述中获取更多信息,对图像形成更全面的理解,并构建丰富的视觉-语言表征。由此产生的检测器LLMDet在多种基准测试中均达到了最先进的性能。我们还发现,经过改进的LLMDet反过来可以构建强大的大型多模态模型,实现互利共赢。我们希望我们的研究能为利用性能卓越的大型语言模型增强视觉模型提供启发。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐