LLMDet:在大型语言模型监督下学习强大的开放词汇目标检测器
最近的开放词汇检测器通过丰富的区域级标注数据实现了令人瞩目的性能。在本工作中,我们证明了一个开放词汇检测器与大型语言模型共同训练,通过为每张图像生成图像级详细描述,可以进一步提升性能。为实现这一目标,我们首先收集了一个数据集GroundingCap-1M,其中每张图像都附有相关的定位标签和图像级详细描述。利用这一数据集,我们通过包括标准定位损失和描述生成损失在内的l个训练目标对开放词汇检测器进行微
摘要
https://arxiv.org/pdf/2501.18954
最近的开放词汇检测器通过丰富的区域级标注数据实现了令人瞩目的性能。在本工作中,我们证明了一个开放词汇检测器与大型语言模型共同训练,通过为每张图像生成图像级详细描述,可以进一步提升性能。为实现这一目标,我们首先收集了一个数据集GroundingCap-1M,其中每张图像都附有相关的定位标签和图像级详细描述。利用这一数据集,我们通过包括标准定位损失和描述生成损失在内的l个训练目标对开放词汇检测器进行微调。我们利用大型语言模型为每个感兴趣区域生成区域级短描述,以及为整个图像生成图像级长描述。在大型语言模型的监督下,所得到的检测器LLMDet以明显优势超越了基线模型,具有卓越的开放词汇能力。此外,我们还证明了改进后的LLMDet反过来可以构建一个更强大的大型多模态模型,实现互利共赢。代码、模型和数据集可在https://github.com/iSEE-Laboratory/LLMDet获取。
1. 引言
开放词汇目标检测[14, 27,36]旨在基于用户输入的文本标签检测任意类别,这比传统的封闭集目标检测[2, 12, 16, 32]是一个更通用的检测任务。GLIP[27]首次通过区域-词对比预训练统一了目标检测和短语定位。这种公式化方法受益于1) 覆盖广泛概念的大规模定位和图像-文本数据,使得学习到的1) 表示具有丰富的语义。后续工作专注于有效的视觉-语言融合[10,36]以及通过精心设计的词嵌入[56]和负样本[25, 57, 64]实现细粒度的区域-词对齐。通过扩展预训练数据和计算资源[41, 57],现有的开放词汇目标检测器可以在各种基准测试上实现惊人的零样本性能。
最近的研究表明,将定位任务与其他语言任务统一起来,可以丰富视觉表示的语言知识,从而创建一个更强大的开放词汇检测器。GLIPv2[62]在定位损失和掩码语言建模损失下预训练模型。随后,CapDet[38]和DetCLIPv3[58]证明,统一密集描述和定位也能提升开放词汇能力。然而,它们为每个对象使用短描述,例如粗略描述和层次类别标签,这些描述是粗粒度的、孤立的,并且缺乏对象之间的关联。相比之下,包含丰富细节和对图像全面理解的长图像级描述,比短区域级描述提供了更多信息,这促使我们探索长详细图像级描述能为开放词汇检测器带来什么优势。
鉴于此,我们提出了LLMDet,它通过标准定位目标和描述生成目标训练开放词汇检测器。一个大型语言模型(LLM)被附加到检测器上,接收来自检测器的图像特征和区域特征作为输入,分别预测图像级长详细描述和区域级短语。与之前仅生成每个对象短描述的工作相比,我们的LLMDet在四个方面表现出色:首先,长描述为图像中的每个对象提供了更多细节。包含详细对象类型、纹理、颜色、对象部分、对象动作、精确对象位置和文本的长描述有助于构建丰富的视觉-语言表示。而现有的区域级描述对于区域而言过于简化的描述。其次,图像级生成将图像中的所有元素作为一个整体对齐,这既建模了前景对象、背景,也建模了各种对象之间的关系,提供了比仅关注单个感兴趣区域的对象级描述更多的信息和对图像更全面的理解。第三,图像级描述比区域级标注更具可扩展性。最近现成的大型视觉-语言模型擅长整体图像理解,但在精确区域级理解方面仍然存在困难。通过适当的提示,我们可以低成本地从它们获取高质量的图像级描述。此外,完全预训练的大型语言模型天生就是开放词汇的。使用LLM生成描述使检测器与之对齐,从而继承强大的泛化能力并显著提高稀有类别的性能。
然而,现有的定位数据集缺乏整个图像的详细描述。因此,我们首先收集了一个名为GroundingCap-1M的数据集来训练LLMDet。与标准定位数据集相比,GroundingCap-1M中的每个元素被表述为一个四元组,包含一个图像、一个短定位文本、一些映射到定位文本中短语的标注边界框,以及一个长详细图像级描述。大型语言模型被用来理解区域和图像特征,并生成与每个对象对应的定位短语和图像级描述。为了有效地将大型语言模型集成到LLMDet中并保留预训练知识,我们首先仔细地将大型语言模型与现有检测器对齐,然后将它们作为一个整体进行微调。
通过这种新颖的训练框架,我们证明了视觉基础模型可以从LLM的监督中受益。这种监督不仅来自于使用LLM生成的描述作为标签,还来自于共同训练的梯度。最终的LLMDet实现了卓越的开放词汇性能。与基线相比,LLMDet在LVIS[15] minival上使用Swin-T/B/L作为骨干网络时,分别提高了3.3%/3.8%/14.3% AP和3.1%/3.3%/17.0% APr。我们还在各种数据集上进行了全面的零样本迁移,以证明LLMDet的卓越性能,如图1所示。
通过将改进后的LLMDet与大型语言模型集成,我们可以进一步构建一个强大的大型多模态模型(LMM)。在大型语言模型的监督下进行训练,LLMDet不仅实现了更强的开放词汇能力,还与大型语言模型预先对齐。因此,预训练的LLMDet可以作为一个强大的视觉基础模型,反过来构建一个更好的LMM,实现互利共赢(见附录)。
2. 相关工作
2.1. 开放词汇目标检测
在开放词汇目标检测(OVD)中,检测器在有限的训练数据集上训练,但旨在检测任意测试时用户输入的类别。为了检测任意类别,开放词汇目标检测被表述为一个视觉-语言任务,使检测器能够通过类别名称检测从未见过的类别。受视觉-语言模型(例如CLIP[43])令人印象深刻的零样本能力的启发,将检测器与CLIP[14, 26,54]对齐或将CLIP作为模型的一部分集成[13, 22]是解决OVD的直接方向。然而,由于CLIP是使用图像级目标预训练的,CLIP中的特征并不完全适合OVD。
另一种方法是使用来自各种资源的海量数据[27,36,56, 66]构建对象感知的视觉-语言空间,包括图像分类数据集[9]、目标检测数据集[15,31, 44, 5O]、定位数据集[17, 42]和图像-文本数据集[45],这已经显示出令人印象深刻的结果。此外,与其他语言任务的多任务学习,如掩码语言建模[62]和密集描述[38, 58]可以实现更好的视觉-语言对齐,从而提高检测器的开放词汇能力。然而,先前的工作[30,38,53,58]只关注为感兴趣区域生成短语。在本工作中,我们探索了另一个共同训练任务,即使用大型语言模型生成图像级详细描述。
提示:创建详细描述描述给定图像的内容,尽可能详细。包括对象类型、纹理和颜色、对象部分、对象动作、精确对象位置、文本,仔细检查对象之间的相对位置等。而不是描述想象的内容,只描述可以从图像中确定的内容。不要以列表形式描述内容。尽可能减少美学描述。
图2. GroundingCap-1M的一个例子。为了清晰起见,省略了边界框标注。与原始短定位文本相比,GroundingCap-1M中的详细描述在对象类型、纹理、颜色、对象部分、对象动作、精确对象位置和文本方面非常丰富。GroundingCap-1M中的每个描述平均约有115个单词。
2.2. 大型视觉-语言模型
最近的大型视觉-语言模型[23, 34, 35]为大型语言模型[7, 48, 55]配备了卓越的视觉感知和理解能力。一个常见的大型视觉-语言模型包含三个部分:一个视觉基础模型[43, 61]用于提取视觉标记,一个投影器将视觉特征映射到语言空间,以及一个大型语言模型用于理解视觉和文本输入。最近的工作[47]发现,更好的视觉编码器可以提高最终大型视觉-语言模型的多模态性能。但大型语言模型是否反过来可以改进视觉编码器则较少被探索。InternVL[5]将CLIP-like视觉编码器扩展到6B参数,使用大型语言模型作为文本编码器。在本工作中,我们证明了检测器也可以从大型语言模型中受益,而改进后的检测器可以提升大型语言模型的多模态性能,实现互利共赢。
为了训练更好的大型视觉-语言模型,高质量的描述数据是必不可少的[4, 23, 29]。我们认为,描述的质量也是在大型语言模型监督下训练开放词汇检测器的关键因素。因此,我们利用现有的高质量描述数据集,并引导大型视觉-语言模型生成高质量数据。
3. GroundingCap-1M数据集
数据表述。为了支持LLMDet在定位损失和描述损失下的训练,我们将每个训练样本表述为一个四元组(I,Tg,B,Tc)(I,T_{g},B,T_{c})(I,Tg,B,Tc),其中I是图像,TgT_{g}Tg是短定位文本,B是一些标注的边界框,每个边界框映射到定位文本中的一个短语,TcT_{c}Tc是整个图像的详细描述。一个例子如图2所示。在收集整个图像的详细描述时,我们遵循两个核心原则:首先,描述应包含尽可能多的细节。我们期望描述包含对象类型、纹理、颜色、对象部分、对象动作、精确对象位置以及图像中的文本,使描述信息丰富。其次,描述应只包含关于图像的事实细节。太多想象或推理的描述会降低信息密度,甚至阻碍模型学习。这些详细且信息密集的描述将促进高效训练。
数据集构建。为了节省构建成本,我们从具有边界框或详细描述的现有数据集开始。遵循先前的工作,数据集从目标检测数据集、定位数据集和图像-文本数据集中收集。
对于目标检测数据集,我们选择了著名的COCO[31]和V3Det[50]数据集。由于COCO广泛用于许多多模态指令微调数据集,我们可以从现有资源中收集其详细描述。具体来说,我们从ShareGPT4V[4]收集了168k个描述,该数据集以详细描述著称,以及从ASv2[52]收集了42k个描述,该数据集主要关注对象关系。V3Det是一个包含13k类别的数据集,因此可以极大地扩展检测器的词汇量,并被广泛用于许多开放词汇检测器[58, 65]。V3Det的描述由我们使用Qwen2-VL-72b[51]生成,提示如图2所示。遵循GLIP[27],检测数据集的定位文本是数据集中类别名称的连接,例如"椅子,叉子,杯子,牛"。
对于定位数据集,我们选择了广泛使用的GoldG[27],它包含GQA[17]和Flickr30k[42]。我们发现原始标注对同一图像有许多短定位文本。为了节省计算量并增加负样本,我们将来自同一图像且无边界框冲突的一些定位文本通过简单连接合并为单个定位文本。合并后,数据集从769k缩减到437k。详细描述也由我们使用Qwen2-VL-72b[51]生成。
对于图像-文本数据集,我们使用了LCS-558k[34],其描述来自LLaVA-OneVision[23]和ShareGPT4V[4]。为了为该数据集中的图像生成伪边界框,我们首先使用传统语言解析器从描述中解析名词短语,然后利用MM_Grounding_DINO[65](Swin-L)为每个短语生成边界框。丢弃边界框少于三个的图像。定位文本是同一图像中短语的连接,与检测数据集相同。
总之,最终的数据集GroundingCap-1M包含1120k个样本,如表1总结。
质量验证。在数据收集过程中,我们仔细选择提示并使用我们能访问的最佳模型(Qwen2-VL-72b)。在训练这个顶级性能模型时,已经做了大量工作来防止幻觉。然而,数据集中不可避免地会存在一些噪声。因此,我们引入了一些后处理来清理数据集。1)我们发现,尽管我们提示描述模型不要描述想象内容,但模型仍然倾向于输出它们,但使用一些明显的词语,如"indicating"、“suggesting”、“possibly”。我们简单地删除包含推测性词语的子句。2)我们还设计规则来过滤无意义的描述,例如"In the image, a man a man a man…(重复)“或"Sorry, I can not answer the question.” 3)为了确保描述细节丰富,我们使用Qwen2-VL-72b为第一次生成的描述少于100个标记的图像重新生成描述。这种双重检查机制确保了数据集的质量。后处理后,每个描述平均约有115个单词。图2显示了GroundingCap-1M数据集的一个例子。更多例子可以在附录中找到。一些定量分析在第5.3节中展示。
4. 在大型语言模型监督下训练LLMDet
将定位任务与一些其他语言任务统一起来,可以丰富视觉特征的语言知识,从而拓宽视觉概念并实现更好的视觉-语言对齐。先前的工作[30, 38, 53, 58]主要关注密集描述,其中语言模型被设计为生成短描述或类别名称来描述单个感兴趣区域。然而,单个对象的细节、对象之间的关系以及关于前景和背景的更多信息被忽略了,但这些信息可以在单个详细的图像级描述中描绘出来。在本工作中,我们证明了区域级开放词汇目标检测器也可以在大型语言模型的监督下从长详细图像级描述中受益。整体流程如图3所示。
具体来说,我们利用大型语言模型(LLM)基于预训练的DETR基础开放词汇检测器生成描述。由于检测器和LLM是分别预训练的,我们首先训练一个投影器将检测器的视觉特征映射到LLM的输入空间,遵循训练大型多模态模型的常见做法。我们将来自检测器编码器的p5特征图作为LLM的输入,并要求LLM在语言建模损失的监督下生成完整的图像描述。在此步骤中(图3中的步骤1),只有投影器是可调的。
预对齐后,检测器、投影器和LLM以端到端的方式进行微调(图3中的步骤2)。除了原始的定位任务,包括词-区域对齐损失Lalign\mathcal{L}_{align}Lalign和边界框回归损失Lbox\mathcal{L}_{box}Lbox,我们还引入了两个任务:图像级描述生成和区域级描述生成。详细信息如图4所示。
在图像级描述生成任务中,语言模型将来自检测器的特征图作为视觉输入,并输出GroundingCap-1M中标注的相应长详细描述。遵循训练大型多模态模型的常见做法,我们将LLM的输入数据组织成对话格式,包括系统消息、用户输入和回答。用户输入包含来自检测器的视觉特征和提示,例如"详细描述图像"。回答是来自GroundingCap-1M的描述。LLM旨在在标准语言建模损失Llmimage\mathcal{L}_{lm}^{image}Llmimage的监督下,基于用户输入输出回答。由于输出回答包含各种细节和对图像的全面理解,这些视觉线索应该在视觉特征中建模,以便LLM可以最小化训练损失并正确生成描述。
然而,由于LLM在图像级描述生成中将整个特征图作为输入,LLM很难将图像级描述中的实体映射回整个图像中的特定区域。例如,在图2中,“dishes"只是图像的一小部分,并且图像中有许多类似盘子的物体。因此,我们进一步引入区域级描述生成任务作为补偿,这为LLM提供了一个先验,使其能够将区域与相应的词映射起来。在此任务中,我们选择检测器中的正对象查询,这些查询在标签分配中与真实边界框匹配,并使用LLM分别生成它们对应的定位短语,如图4中的"年轻男子”、“母亲"和"dishes”。与图像级生成类似,LLM的输入也以对话形式格式化,但使用不同的提示来区分不同类型的输入,即"用短语描述该区域"。由于单个对象查询中的视觉特征有限,我们在LLM中添加了一些交叉注意力层,以便对象查询可以从检测器的特征图中收集必要信息。请注意,图像级生成中的文本标记和视觉标记不通过这些交叉注意力层,这些层是从头开始训练的。通过为对象查询输出相应的短语,LLM可以将实体精确映射到特定区域。
LLMDet的整体训练目标是定位损失和生成损失的组合:
L=Lalign+Lbox+Llmimage+Llmregion\mathcal{L}=\mathcal{L}_{align}+\mathcal{L}_{box}+\mathcal{L}_{lm}^{image}+\mathcal{L}_{lm}^{region}L=Lalign+Lbox+Llmimage+Llmregion
其中Llmregion\mathcal{L}_{lm}^{region}Llmregion是区域级描述生成损失。
5. 实验
5.1. 实现细节
在本工作中,我们选择MM_Grounding_DINO[65](以下简称MM-GDINO)作为基线模型,因为它完全开源并享有SOTA性能。我们简单地重新加载其预训练检查点,并使用我们的GroundingCap-1M数据集在定位损失和描述生成损失的监督下对模型进行微调。请注意,GroundingCap-1M中的大部分图像与MM-GDINO预训练数据集中的图像相同,例如GoldG[27]和V3Det[50]。由于MM-GDINO是完全预训练的,在训练期间MM-GDINO的视觉骨干被冻结。大型语言模型从LLaVA-OneVision-0.5b-ov[23]初始化。为了节省内存并提高训练效率,我们设置图像级生成的最大标记长度为1600,区域级生成的最大标记长度为40。每张图像用于描述生成的区域最大数量限制为16。对于图像级视觉输入,我们使用来自检测器编码器的p4和p5特征图。我们将p4调整为27×27,p5调整为20×20,并将它们连接为单个标记序列。我们使用自动混合精度和梯度检查点在MMDetection[3]中实现LLMDet,使用批量大小16训练150k次迭代(约两个epoch),这可以在八块NVIDIA L20 GPU上大约两天完成。
5.2. 零样本检测迁移能力
为了证明LLMDet卓越的开放词汇能力,我们选择了广泛的基准测试,包括LVIS[15]、ODinW13/35[24]、COCO-O[40]、RefCOCO[21]、RefCOCO+[59]、RefCOCOg[39]和gRefCOCO[33],并在它们上进行零样本测试。由于我们在训练期间使用了COCO[31]数据集,我们谨慎地从GroundingCap-1M中移除了RefCOCO/RefCOCO+/RefCOCOg验证和测试集中的图像,遵循MM-GDINO的做法。LVIS minival中的图像与COCO训练集不重叠,因此严格遵循零样本设置。在测试期间,LLM被丢弃,因此推理成本与我们的基线相同。
LVIS上的零样本性能。LVIS[15]是一个包含1203个类别的检测数据集。根据频率,类别可分为频繁、常见和稀有类别。遵循GLIP,总1203个类别被分成31个块,每个块包含40个类别。因此,检测器将为每个图像前向传播31次。请注意,更大的块大小将提高性能。如表2所示,使用新颖的训练目标和新数据集,LLMDet在LVIS minival上使用不同骨干网络时,分别比基线MM-GDINO提高了3.3%/3.8%/14.3% AP和3.1%/3.3%/17.0% APr。我们发现,使用Swin-L[37]作为骨干网络的MM-GDINO性能极低,这可能是由于不同的预训练数据,特别是缺少V3Det。但使用Swin-L作为骨干网络的LLMDet仍然优于其他SOTA方法,且使用的训练数据少得多,达到了50.6% AP,展示了出色的开放词汇能力。在LVIS val上也可以找到相同的趋势。我们注意到DetCLIP系列在不同类别上实现了更平衡的性能,这可能是由于精心收集和标注的数据集以及组织良好的名词概念语料库。我们相信LLMDet也可以应用于DetCLIP。
ODinW上的零样本性能。ODinW(野外目标检测)[24]是35个数据集的集合,涵盖各种领域和词汇,这是一个具有挑战性和全面的开放词汇检测基准。遵循先前的工作,我们报告了选定13个数据集(ODinW13)和所有35个数据集(ODinW35)的平均AP。LLMDet在ODinW35上获得了最高的AP,证明了其在广泛数据集上的卓越迁移能力。每个数据集的详细性能可以在附录中找到。
COCO-O上的零样本性能。COCO-O[40]是一个与COCO共享相同80个类别的数据集,但具有不同的领域,即草图、天气、卡通、绘画、纹身和手工制作,这些与自然图像显著不同。尽管COCO-O上的性能与预训练数据集高度相关,LLMDet仍然比MM-GDINO高出2.1% AP,表明LLMDet对领域迁移更具鲁棒性。每个领域的详细性能可以在附录中找到。
指代表达理解数据集上的零样本性能。指代表达理解(REC)是一项定位由短语引用的对象的任务,这需要全面的语言理解和细粒度的视觉-语言对齐。通过与LLM共同训练使用详细描述,LLMDet可以使用丰富的视觉-语言对齐对丰富的视觉细节进行建模。因此,LLMDet在各种REC数据集上优于基线MM-GDINO。
5.3. 消融研究
在本小节中,实验在Swin-T骨干网络上进行,并在LVIS minival上报告性能。可视化可以在附录中找到。
LLMDet主要组件的效果。在本工作中,我们收集了一个新数据集GroundingCap-1M,其中包含每张图像的定位标注和详细长描述。如表6所示,仅使用定位标注进行微调可以将性能从41.4% AP提升到43.8% AP。我们还表明,仅使用区域级生成无法提高性能,因为LLMDet中的区域级描述只是区域的类别名称或定位短语,没有提供额外信息。仅使用图像级生成可以略微提高性能。如第4节所述,LLM可能很难将实体从整个图像映射回特定对象。因此,结合图像级和区域级生成可以充分释放LLM监督信号的好处。从详细描述中学到的丰富视觉-语言表示显著提高了3.9% APr(第2行与第5行对比),表明细粒度视觉表示有助于识别稀有类别。
不同大型语言模型的效果。默认情况下,我们使用LLaVA-OneVision-0.5b-ov[23]中的LLM,它是从Qwen2-0.5b-instruct[55]微调而来的。由于LLaVA-OneVision-0.5b-ov中的LLM使用大量多模态数据预训练,但具有不同的视觉编码器,预训练仍然可以提高性能,尤其是对于稀有类别(+2.2% APr),如表7所示。但我们发现,增加LLM的大小只会略微提高性能,可能更大的语言模型主要在推理能力上有所改进,这对检测器的视觉表示没有帮助。
生成描述质量的效果。如表8所示。我们首先将由Qwen2-VL-72b生成的描述替换为LLaVA-Onevision-7B生成的描述,包括V3Det、GoldG和部分LCS中的描述。性能显著下降0.9% AP和5.1% APr。我们进一步将我们的生成描述替换为COCO描述、LLaVA的LCS描述和GoldG中的短定位文本。性能进一步下降0.4% AP。为了直接比较生成描述的详细度和幻觉程度,我们从数据集的每个部分(检测、定位和图像-文本对)随机抽样100个描述,每个实验总共300个描述。我们使用GPT-4o[18]作为评判者,为每个描述-图像对给出综合评分。使用的提示在附录中展示。GroundingCap-1M中的描述具有最高的详细度评分和中等的幻觉,验证了我们数据集的优越质量。由于人工标注的描述幻觉较少(0.90 vs 1.34,LLaVA描述仍然有幻觉),实验3中的APr甚至高于实验2中的APr。
预训练数据的效果。在本工作中,我们收集了GroundingCap-1M数据集。由于计算限制,该数据集仅包含1M数据,远少于其他开放词汇检测器使用的数据集。如表9的第二行所示,如果我们不使用GroundingCap-1M中的LCS数据集(现在是813k数据),性能显著降低至42.8% AP,表明更多预训练数据将进一步提高LLMDet的性能。此外,图像级描述应仅包含关于图像的事实细节,以便我们可以使用后处理程序删除包含推测性词语的子句。如果我们不删除它们,性能下降至44.2% AP和35.0% APr,表明幻觉可能显著影响稀有类别性能。
LLM中交叉注意力层的效果。在LLMDet中,区域级生成中的视觉标记通过交叉注意力层,而图像级生成中的文本标记和视觉标记不通过它们。我们在表9的第三和第四行中消融了这一设计。区域级生成中的视觉标记是单个对象查询,包含很少的视觉信息。如果对象查询不通过交叉注意力从检测器编码器特征图中获取必要信息,性能将下降至44.0% AP。我们进一步发现,在图像级生成中使用交叉注意力没有帮助,因为我们在图像级生成中使用了整个特征图。
在端到端微调前预训练投影器的效果。LLMDet通过使用高质量描述与LLM共同训练,追求细粒度视觉-语言对齐,从而提高稀有类别性能。由于LLM和检测器是分别预训练的,预训练投影器使它们的特征空间对齐,同时保留预训练知识。不预训练投影器会影响对齐并降低稀有类别AP(-3.5% APr),如表9的最后一行所示。由于频繁类别有丰富的标注,负面影响可以得到缓解。
6. 结论
在本工作中,我们探索了一种新的训练目标,以提升现有开放词汇检测器的性能。通过利用大型语言模型生成图像级详细描述和区域级粗略定位短语,检测器从详细描述中获得更多信息和对图像的更全面理解,并构建丰富的视觉-语言表示。最终的检测器LLMDet在广泛的基准测试中实现了最先进的性能。我们还证明,改进后的LLMDet反过来可以构建一个强大的大型多模态模型,实现互利共赢。我们希望我们的工作能为使用顶级大型语言模型增强视觉模型提供见解。
附录
A. LLMDet构建更强大的大型视觉-语言模型
在本小节中,我们证明LLMDet可以作为通用视觉基础模型,并反过来获得一个强大的大型多模态模型。最近的大型多模态模型(LMM)基于预训练的大型语言模型和预训练的视觉基础模型。不同的视觉基础模型将显著影响LMM的性能[67]。由于LLMDet在长详细图像级描述的监督下得到增强,并与LLM预先对齐,LLMDet具有构建更强大LMM的巨大潜力。遵循最近的进展[46, 47, 67],我们使用视觉专家混合(即SigLIP[61]视觉编码器和我们的LLMDet)构建LMM。如图A-1所示,来自两个视觉编码器的视觉特征沿通道维度连接,然后使用投影器将特征映射到LLM的输入空间。我们从LLaVA-OneVision-0.5b-ov[23]开始,并按照图A-1所示将我们的LLMDet插入其中。我们首先预训练一个新的投影器,然后使用LLaVA 1.5[35]指令微调数据集微调LLM,该数据集仅是LLaVA-Onevision中使用数据集的一小部分。
我们选择了三个代表性基准测试来评估LMM的多模态性能:综合理解基准MME[11]、幻觉基准POPE[28]和学术VQA基准GQA[17]。如表A-1所示,将MM-GDINO与LLaVA-OneVision-0.5b-ov结合可以提高GQA和POPE上的性能。由于检测器擅长定位图像中的对象,精确定位使LLM了解图像中存在的对象,这有助于LLM克服幻觉并对图像中的对象执行简单的QA。多模态感知和理解能力可以通过更强大的LLMDet进一步增强,LLMDet也与LLaVA-OneVision-0.5b-ov中的LLM预先对齐[46]。最终的LMM在MME基准测试上实现了最高性能,验证了检测器和LMM之间的互利关系。
B. 局限性
尽管我们提供了详细描述来训练LLM,但我们发现与检测器共同训练的LLM倾向于为整个图像输出相对较短的描述,即使给定提示要求详细描述图像。我们认为原因是我们的区域级数据远多于图像级数据(一张图像有多个区域)。
此外,我们的区域级描述过于简单,因为它们只是区域的定位短语。我们相信为区域收集一些高信息量数据,如DetCLIPv3,可以进一步提高性能。
更多推荐
所有评论(0)