论文
:https://arxiv.org/abs/2403.10191
代码
:https://github.com/FoundationVision/GenerateU
感想
目标检测任务已经逐渐从闭集场景专项开集场景,在LLM加持下,速读越来越快。
该方法仍然依赖于预先定义的类别,这意味着它无法完全摆脱先验知识。尽管在论文中提到不需要确切对象类别知识。
整体脑图
摘要
本文介绍了一种新的目标检测方法——生成式开放性物体检测(Generative Open-Ended Object Detection),旨在解决在推理阶段没有确切对象类别知识的情况下进行物体检测的问题。该方法将物体检测视为一个生成问题,并提出了名为GenerateU的简单框架,可以检测密集物体并以自由形式生成它们的名称。具体来说,该框架使用Deformable DETR作为区域提议器,并使用语言模型将视觉区域翻译为对象名称。实验结果表明,GenerateU具有强大的零样本检测性能,在LVIS数据集上与GLIP等开放词汇物体检测方法相比表现相当。
论文速读
论文方法
方法描述
该论文提出了一种名为GenerateU的开放世界目标检测模型,其主要由两个组件组成:开放世界目标检测器和语言模型。开放世界目标检测器使用了Deformable DETR作为基础模型,并在训练过程中不依赖于对象类别信息,而是采用了开放世界检测方式(即类无关的目标检测器),将匹配的查询分类为前景或背景。同时,该模型还引入了一个伪标签方法来丰富标签多样性。
方法改进
与传统的基于图像和文本配对数据集的多模态预训练模型不同(如图1),该模型直接将开放世界目标检测器与语言模型链接起来,并激活两者可训练的模块。具体来说,该模型使用了一个编码器-解码器结构的语言模型(如图2),其中视觉表示作为输入传递给编码器,而相关的文本则作为解码器的生成目标。此外,该模型还引入了一个区域-词对齐损失函数,以帮助学习区分区域特征。
解决的问题
该论文提出的GenerateU模型旨在解决开放世界目标检测中的问题,即将已知物体识别出并提供它们相应的类别名称,同时还能够检测到未知物体并对其进行命名。通过采用开放世界检测方式和区域-词对齐损失函数等技术手段,该模型可以提高开放世界目标检测的准确性和鲁棒性。此外,该模型还利用伪标签方法来增加标签多样性,从而进一步提高了模型的性能。
论文实验
本文主要介绍了针对开放领域的目标检测任务的模型GenerateU,并对其进行了多个对比实验以验证其性能和效果。
首先,文章比较了使用LVIS作为预训练数据的方法与只使用VG作为训练数据的方法在零样本下的表现。结果表明,即使只使用VG作为训练数据,GenerateU也能表现出良好的性能,这说明预先定义好的类别名称可能并不必要,尤其是当模型已经学习了大量的视觉概念时。此外,引入额外的图像文本对数据集可以进一步提高模型的表现。
其次,文章将GenerateU与其他方法进行了比较,包括GLIP等完全监督的方法。结果显示,GenerateU在零样本下与GLIP相比具有相当的性能,但不需要访问类别名称来进行推理。
此外,文章还进行了其他一些实验来评估模型的性能和效果。例如,通过使用不同的文本编码器(如CLIP和BERT)来计算相似度分数,以及使用METEOR评估生成的文本质量。另外,作者还尝试了不同大小的backbone和beam search的不同设置,并评估了region-word alignment loss的效果。
最后,文章提供了定性的可视化结果,展示了GenerateU比ground truth更广泛地识别物体的能力。
总的来说,本文通过对GenerateU的多个对比实验,证明了其在开放领域目标检测任务中的优越性能和效果。