大模型退烧指南:深度学习的轻量化迁移三连击,一篇看懂
分享一个深度学习领域很有价值的研究方向:复杂场景下的模型高效适配与多任务协同。众所周知,深度学习在实际应用中常面临图像退化(如雾、湍流)的干扰、多任务学习中的“灾难性遗忘”,以及复杂模型部署效率等问题。当下对这一方向的研究也因此更受关注,创新多围绕预训练模型的迁移利用、轻量动态的特征融合机制、统一的多任务优化框架等展开。
来gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯~
分享一个深度学习领域很有价值的研究方向:复杂场景下的模型高效适配与多任务协同。众所周知,深度学习在实际应用中常面临图像退化(如雾、湍流)的干扰、多任务学习中的“灾难性遗忘”,以及复杂模型部署效率等问题。当下对这一方向的研究也因此更受关注,创新多围绕预训练模型的迁移利用、轻量动态的特征融合机制、统一的多任务优化框架等展开。
本文精选了3篇前沿论文,拆解其思路、创新点,帮你一键复现、快速延伸。满满干货,点赞收藏不迷路~
JDATT: A Joint Distillation Framework for Atmospheric Turbulence Mitigation and Target Detection
方法:文章以 MAMAT 为复原教师、YOLOv11-L 为检测教师,冻结其权重,联合训练三个轻量化学生网络;训练损失由 Charbonnier 重建损失、检测的 GIoU 与 BCE 损失以及 CWD、MGD、KL 蒸馏损失共同构成,通过端到端反向传播让复原支路生成对检测更友好的特征,检测支路则通过 KL 信号指导复原支路保留关键判别信息,最终在合成与真实湍流数据集上验证模型在显著压缩体积的同时仍保持领先性能。

创新点:
-
首次把湍流抑制与目标检测放进同一个蒸馏管道,让复原和检测互相反哺,避免分阶段训练造成的性能损失。
-
设计混合蒸馏策略,用通道级、掩膜生成和 KL 散度三重损失,将大教师的知识完整注入轻量学生网络,实现高压缩比。
-
构建三种规模的学生模型,在参数砍到原来 11% 的情况下仍保持甚至超越原模型的 PSNR 与 mAP,真正满足边缘实时部署需求。

总结:这篇文章首次提出一个端到端的联合蒸馏框架 JDATT,在严重大气湍流干扰下同步完成图像复原与目标检测,直接破解了“模型大、算力吃紧、实时性差”的遥感监控死结。
Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning
方法:文章将冻结的 CLIP/CLAP 作为骨干,在浅层插入任务共享的通道-空间-时间三注意力适配器以捕获通用音视频关联;中层通过任务感知的动态提示池为每个样本即时合成跨模态提示并与特征拼接;深层再为每个任务和模态注入独立可学习的提示向量,联合对比损失端到端优化,使模型在 AVE、AVVP、AVQA、AVS 四个任务流中持续获得 SOTA 的抗遗忘与正向迁移性能。

创新点:
-
提出三阶段 PHP 框架,在浅层用跨任务跨模态适配器提炼通用表征,实现全局知识共享。
-
设计任务专属但模态共享的动态提示生成器,在深层通过可学习提示池为每个任务即时合成跨模态提示,兼顾抗遗忘与迁移。
-
引入任务-模态独立的深层提示,对视觉和音频分别保留细粒度特征,彻底抑制灾难性遗忘。

总结:这篇文章用“渐进式稳态-可塑提示”首次打通音频-视觉多任务增量学习,让模型像人类一样连续学习新任务却不遗忘旧本领。
纠结选题?导师放养?投稿被拒?对论文有任何问题的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】,获取顶会顶刊前沿资讯~
Can Large Pretrained Depth Estimation Models Help With Image Dehazing?
方法:文章先用预训练深度网络提取几何先验,再在 RGB 去雾网络每层插入 HGDF 模块,通过自注意力编码颜色特征、跨通道注意力注入深度线索、自适应门控抑制伪影,最后经轻量前馈网络输出复原图;实验覆盖室内外、雨雾混合等多场景,均取得新 SOTA。

创新点:
-
通过跨雾度统计实验揭示大规模深度特征在各级雾霾下保持几何一致性,为通用去雾奠定理论依据。
-
设计即插即用 RGB-D 融合模块,利用零初始化卷积和分层门控机制,可无改动嵌入任意主流去雾网络。
-
提出两阶段训练策略:先固化 RGB 主干,再激活深度分支微调,实现性能提升同时零额外数据依赖

总结:这篇文章首次系统论证“大规模预训练单目深度模型”可成为图像去雾的万能外挂,直接破解不同场景下精度与效率难两全的痛点。
来gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯~
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)