图片

标题:Learning without Forgetting for Vision-Language Models

论文地址:https://arxiv.org/pdf/2305.19270v1

导读:本次分享论文来自南京大学和新加坡南洋理工,作者Da-Wei Zhou等。论文提出PROOF方法,解决视觉语言模型在类增量学习中的灾难性遗忘问题,利用投影融合技术,结合多模态信息提升模型性能。

前置知识

类增量学习(Class-Incremental Learning, CIL)是持续学习(Continual Learning)的一个重要分支,旨在解决模型在动态数据流中逐步学习新类别时,如何避免遗忘旧知识的核心问题。

核心目标:一是模型需按顺序学习多个任务(每个任务包含新类别),最终构建一个能识别所有历史类别和新增类别的统一分类器。二是学习新类别时,需保持对旧类别的识别能力,避免灾难性遗忘(Catastrophic Forgetting)。

存在的关键挑战一是灾难性遗忘,即神经网络在学习新任务时,参数更新可能破坏旧任务的特征表示,导致旧类别性能显著下降。二是类别不平衡的问题,新类别数据量可能不足,且模型对旧类别样本逐渐“陌生”。三是特征漂移,模型在适应新任务时,特征空间可能偏离旧任务的最优表示。

应用场景:如监控视频中的新目标识别、电商平台的商品分类更新、边缘设备需持续学习新任务但无法存储全部历史数据、模型需在未知新类别出现时逐步扩展能力。    

研究动机

在现实世界中,数据常以流格式出现,包含新类别,类增量学习(CIL)旨在让模型不断吸收新知识且不遗忘旧知识。但传统CIL方法仅关注视觉信息,忽略文本信息。视觉语言模型(VLM)虽能借助文本信息学习通用特征表示,但在CIL场景下,顺序训练会导致灾难性遗忘,且难以充分利用多模态信息。

创新点

提出PROjectiOn Fusion(PROOF)方法,使VLM在学习新类时避免遗忘旧知识。通过冻结预训练的图像/文本编码器,训练特定任务的投影层,在面对新任务时扩展新投影并固定旧投影,缓解遗忘。

设计融合模块,利用自注意力机制联合调整视觉和文本特征,更好地捕捉语义信息,提升模型表示能力。

方法

整体框架:    

图片

可扩展特征投影:在预训练的图像和文本编码器基础上,添加线性投影层,将图像和文本特征映射到投影特征空间,以适应下游任务。由于预训练模型输出具有通用性的特征,投影层可通过数据驱动的方式重组特征,例如在鸟类相关任务中,会为 “鸟喙” 和 “翅膀” 等特征分配更高权重。面对新任务时,不再仅依赖单一投影层,而是为每个新任务扩展特定的投影层。将不同阶段的投影特征进行映射和聚合,以此捕捉前后任务的不同重点。为防止遗忘旧概念,在学习新任务时,冻结先前任务的投影,让新初始化的投影学习新任务的剩余信息,这样在纳入新概念的同时保留了旧知识。

投影融合的上下文投影:提出通过投影融合对投影特征进行上下文优化。将视觉原型特征和文本特征作为上下文信息,增强跨模态信息融合,其中视觉原型特征通过计算每类的代表性特征得到,即

图片

利用自注意力机制实现交叉模态融合,调整查询实例和上下文信息的嵌入,使模型能根据上下文调整特征表示。引入可学习的上下文提示,增强模型的适应性,且上下文提示仅在自注意力过程中编码任务特定信息,不参与匹配。    

实验

基准比较:在9个基准数据集上,均优于其他方法,验证了学习投影对下游任务的有效性,展示了其抗遗忘能力,表明文本和视觉信息协同适应有助于增量学习。

图片

消融实验:不同骨干权重实验表明,PROOF在使用不同预训练权重时均表现最佳。对PROOF各组成部分的消融实验验证了可扩展投影、交叉模态融合和上下文提示的有效性,且模型性能对上下文提示长度变化具有鲁棒性。    

图片

零样本性能探索:提出新评估协议和指标,研究CLIP在CIL中的零样本性能退化问题。PROOF的变体PROOF†通过调整投影设计,在保持零样本性能和下游任务适应性之间取得平衡。

图片

扩展到其他视觉语言模型:将PROOF框架扩展到BEiT-3模型,在Flickr30K数据集上进行跨模态检索实验。PROOF在增量跨模态检索任务上性能最优,验证有效性。    

图片

          

总结

PROOF有效解决了VLM在类增量学习中的遗忘问题,通过学习可扩展投影和执行跨模态融合提升了模型性能,简单变体还能保留模型的零样本能力。未来可探索无示例场景下的模型扩展。

仅供学习交流参考。

感谢阅读!可微信搜索公众号【AI启智汇】获取更多AI干货分享。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐