Metadata
  • 标题:: “Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks”
  • 作者::Yang Yang, Hongpeng Pan, Qing-Yuan Jiang, Yi Xu, Jinhui Tang
  • 引用键:: yangLearningRebalanceMultiModal2025
  • 日期::2025-06-01
  • 出处::“IEEE Transactions on Pattern Analysis and Machine Intelligence”
  • 标签:: #多模态学习 #颗粒度子网络 #模态平衡
  • 简介::创造了一种细颗粒度来更新子网络的方法,以此来缓解不同模态更新不平衡的问题
  • pdf::PDF
  • 文献来源: https://ieeexplore.ieee.org/document/10915567/
  • status:: “待复习”
  • 引文目录: 1.Yang Y, Pan H, Jiang Q-Y, et al (2025) Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks. IEEE Trans Pattern Anal Mach Intell 47:4553–4566. https://doi.org/10.1109/TPAMI.2025.3547417

📖 摘要

[!abstract]+
« Multi-modal learning aims to enhance performance by unifying models from various modalities but often faces the “modality imbalance” problem in real data, leading to a bias towards dominant modalities and neglecting others, thereby limiting its overall effectiveness. To address this challenge, the core idea is to balance the optimization of each modality to achieve a joint optimum. Existing approaches often employ a modal-level control mechanism for adjusting the update of each modal parameter. However, such a global-wise updating mechanism ignores the different importance of each parameter. Inspired by subnetwork optimization, we explore a uniform sampling-based optimization strategy and find it more effective than globalwise updating. According to the findings, we further propose a novel importance sampling-based, element-wise joint optimization method, called Adaptively Mask Subnetworks Considering Modal Significance (AMSS). Specifically, we incorporate mutual information rates to determine the modal significance and employ non-uniform adaptive sampling to select foreground subnetworks from each modality for parameter updates, thereby rebalancing multi-modal learning. Additionally, we demonstrate the reliability of the AMSS strategy through convergence analysis. Building upon theoretical insights, we further enhance the multi-modal mask subnetwork strategy using unbiased estimation, referred to as AMSS+. Extensive experiments reveal the superiority of our approach over comparison methods. »


📌 核心摘要 (Summary)

制定了衡量模态信息主导度的互信息率 u ^ ( k ) = I ( X ( k ) ; Y ) H ( X ( k ) ) \hat{u}^{(k)}=\frac{\mathbb{I}(\mathbf{X}^{(k)};\mathbf{Y})}{\mathbb{H}(\mathbf{X}^{(k)})} u^(k)=H(X(k))I(X(k);Y)根据这个来决定不同模态对应模型的更新程度,并且模型更新的参数取决于Fisher information

  • 注:1. 其中 I ( X ( k ) ; Y ) \mathbb{I}(\mathbf{X}^{(k)};\mathbf{Y}) I(X(k);Y)表示[[互信息]],测量 X ( k ) X^{(k)} X(k) Y Y Y 之间共享了多少信息,这可以看作是知道 Y Y Y 在多大程度上降低了我们对 X ( k ) X^{(k)} X(k) 的不确定性, H ( X ( k ) ) H(X^{(k)}) H(X(k))表示第 k 个模态的[[信息熵]]。2. [[Fisher information]]精确量化了​​观测数据中蕴含的关于未知参数的信息量

🎯 研究目标 (Research Objective)

作者的研究目标是什么?试图解决什么关键问题?

  • 目标:作者旨在提升多模态学习的整体效能。在现实数据中,多模态学习常常面临"模态不平衡"的挑战。这指的是在训练过程中,由于不同模态的数据特征或学习难度存在差异,模型会表现出对​​主导模态​​的偏好,而​​忽视非主导模态​​的学习。这种不平衡导致模型无法充分利用所有模态的信息,从而限制了其性能,有时甚至会使多模态模型的性能低于仅使用单一模态的模型。
  • 关键问题
    1. 现有平衡策略的粗粒度缺陷​​:以往的方法(如OGM-GE)通常采用​​模态级​​的梯度调制。例如,为整个主导模态的参数更新赋予一个较低的全局权重(梯度调制系数)。然而,这种"全局式"更新机制忽略了同一模态内​​不同参数对目标任务的重要性差异​​,将所有参数等同对待,这被作者认为是次优的。
    2. 寻求更精细的优化路径​​:受子网络优化研究的启发,作者探索了一种​​元索级​​的更新机制。初步实验发现,随机掩码一部分参数进行更新的策略,其效果优于全局调制。这证明了精细化参数更新的潜力。因此,关键问题是如何超越简单的随机采样,实现​​自适应、基于重要性的参数子网络选择​​,以更智能地重新平衡多模态学习。

⚙️ 方法 (Methodology)

  • 核心思想/框架: ​​根据模态的重要性,为每个模态自适应地选择不同大小的、富含信息的参数子网络进行梯度更新​​
  • 关键技术/算法(步骤):
    1. ​基于模态显著性的子网络规模确定​​:通过计算每个模态的预测与真实标签之间的​​互信息率​​,来动态评估一个模态在当前批次数据中的重要性(模态显著性)。非主导模态(重要性较低)会被分配一个​​较小的参数更新比例​​,意味着更少的参数被更新,以刺激其学习;而主导模态(重要性较高)则被分配一个​​较大的参数更新比例​​,意味着更多的参数被更新,以抑制其过快的优化速度。
      在这里插入图片描述

    2. ​基于任务指导的参数选择标准​​:在确定了每个模态需要更新的参数数量后,并非随机选择,而是根据​​费舍尔信息​​来衡量每个参数对目标任务的重要性。然后,采用​​非均匀自适应采样​​方法,优先选择重要性更高的参数构成子网络,确保每次更新都集中在信息量最大的参数上。
      在这里插入图片描述

       此外,作者还从理论层面分析了AMSS的收敛性,并在此基础上提出了其改进版本​**​AMSS+​**​。AMSS+引入了无偏估计技术来修正原始AMSS中可能存在的梯度估计偏差,从而进一步提升了算法的可靠性和性能。[[AMSS和AMSS+原理]]
      
  • 创新点(与前人方法的区别):
    1. 优化机制的革新:从“模态级”到“元素级”
      这是最根本的创新。此前解决模态不平衡的方法(如OGM-GE, AGM)主要采用​​模态级​​ 的梯度调制。

      • ​前人方法(模态级/全局式)​​:为一个模态的所有参数施加一个统一的梯度缩放系数。例如,降低主导模态的整体学习率。
        在这里插入图片描述

      • ​本文创新(元素级)​​:作者认为,同一模态内的不同参数其重要性也不同。因此,AMSS方法不再对整个模态进行“一刀切”的调整,而是​​在参数级别进行精细操作​​,只更新每个模态中一部分重要的参数(子网络),而掩码其他参数。这种​​元素级更新机制​​是首次被引入到多模态学习领域,实现了更精细的优化控制。

    2. 自适应子网络策略:从“固定/随机”到“动态/智能”

      即使同样进行子网络操作,AMSS也引入了更智能的自适应策略。

      • ​与前人子网络方法的区别​​:已有的子网络优化(如Dropout)多针对单模态模型,且通常采用​​随机​​或​​静态​​的掩码方式,并未考虑多模态间的平衡问题。本文的初步实验也表明,简单的​​均匀采样​​ 虽有效果,但非最优。

      • ​本文创新(自适应)​​:AMSS的核心创新在于其子网络的构建是​​自适应且基于数据驱动的​​。

      在这里插入图片描述

      • ​子网络大小动态决定​​:每个模态需要更新的参数比例 ρ(k)不是超参数,而是通过​​互信息率​​ 动态计算出的模态显著性来决定的。这使得非主导模态(重要性低)更新更少的参数以受保护,主导模态(重要性高)更新更多的参数以受抑制。

      • ​参数选择基于重要性​​:选择哪些参数进行更新并非随机,而是基于​​费舍尔信息​​ 进行​​非均匀自适应采样​​,优先选择对目标任务更重要的参数,从而提高了每次参数更新的效率。

    3. 理论深化与算法增强:从“经验性”到“理论支撑与无偏改进”

      本文不仅提出了新方法,还为其提供了坚实的理论分析并进行了改进。

      • ​理论收敛分析​​:作者对AMSS策略进行了​​收敛性分析​​,从理论上证明了该优化方法的可靠性,这为方法的有效性提供了超越实验结果的数学保障。

      • ​提出AMSS+(无偏估计)​​:基于理论分析中发现的有偏估计问题,作者进一步提出了​​AMSS+​​。该方法通过引入无偏估计技术来修正梯度,​​克服了原始AMSS在某些假设下的局限性​​,从而获得了更稳定、更优越的性能。这种从理论发现到算法改进的闭环,是区别于许多纯经验性工作的一个重要创新。

    4. 灵活性与通用性:从“特定架构”到“即插即用”
      与一些为特定模型设计、难以复用的复杂模块(如Greedy方法中的层次交互模块)不同,AMSS/AMSS+被设计为一种​​灵活的优化策略​​。它可以作为一种“即插即用”的模块,与各种不同的融合方法(早期融合、晚期融合等)和模型架构(CNN、Transformer等)相结合,具有很高的通用性。

📊 实验评估 (Evaluation)

  • 实验设置(数据集、评价指标、基线模型):
    1. 数据集:论文在五个多模态数据集上进行了全面评估
      • 音频-视频模态​​:Kinetics-Sound(视频动作识别,31个类别,19k视频片段)和CREMA-D(语音情感识别,6种情感,7.4k样本)
      • 文本-图像模态​​:Sarcasm Detection(讽刺检测,2个类别,24.6k文本-图像对)和Twitter-15(情感识别,3个类别,5.3k样本)
      • 多模态扩展​​:NVGesture(手势识别,25个类别,包含RGB、深度和光流三种模态)
  1. 评价指标:不同类别不同指标
    • ​音频-视频数据集​​:准确率(Acc)和平均精度均值(mAP)
    • ​文本-图像和NVGesture数据集​​:准确率(Acc)和宏观F1分数(Mac-F1)
  2. 基线模型:
    • ​模态重平衡方法​​:ORG-GB、MSES、OGM-GE、Greedy、DOMFN、MSLR、PMR、AGM
    • ​传统融合方法​​:特征拼接(Concat)、仿射变换(Affine)、通道融合(Channel)、多层LSTM融合(ML-LSTM)、预测求和(Sum)、预测加权(Weight)、ETMC
  • 主要结果(关键数据或图表结论):
    image.png
    image.png
    image.png关键数据表现​​:

    • 在Kinetics-Sound上,AMSS+相比第二优方法提升5.15%(Acc)和7.70%(相比Concat)
    • 在CREMA-D上,相应提升为2.96%和6.99%
    • 在NVGesture三模态任务中,AMSS+在从头训练设置下达到最佳性能(85.27% Acc)
      Transformer架构适配性​​:
    • 在复杂的MBT架构上,AMSS+在Kinetics-Sound预训练设置下达到71.43% Acc,显著优于其他方法
    • 传统重平衡方法(如OGM-GE、PMR)在复杂交互场景下甚至劣于基线
      在这里插入图片描述

    消融实验关键发现

    ​采样机制​​(表VI):

    • 非均匀自适应采样相比随机采样在Kinetics-Sound上提升2.14%(AMSS+)
    • 验证了基于Fisher信息的重要性采样有效性
      ​组件分析​​(表VII):
    • 骨干网络掩码相比分类器掩码贡献更大(提升约1.5-2.0%)
    • 组合使用所有组件达到最优效果
      在这里插入图片描述
  • 结果分析(优势/局限/可借鉴点):

    1. ​有效性突出​​:在所有数据集和架构上一致优于基线,特别是在模态不平衡严重的场景(如Kinetics-Sound)提升显著
    2. ​架构适应性​​:在CNN和Transformer架构上均表现优异,证明方法的通用性
    3. ​理论支撑强​​:AMSS+基于无偏估计的理论改进在实践中得到验证,性能稳定优于AMSS
    4. ​融合策略兼容性​​:可与不同层次融合方法(特征级、预测级)有效结合
      潜在局限
    5. ​计算开销​​:重要性采样和模态显著性计算增加额外计算成本
    6. ​超参数调优​​:τ需要仔细调整以适应不同数据集特性
    7. ​理论假设​​:收敛分析基于特定假设,在实际复杂场景中可能存在偏差

💎 结论 (Conclusion)

  • 强结论(有充分实验证据支持):
  • 弱结论/讨论(基于结果的分析与展望):

🤔 个人思考 (Personal Notes)

  • 创新点与价值: 为何能发表于顶刊?其核心贡献是什么

    1. 范式转变:从粗粒度到细粒度优化

    • ​传统方法局限​​:现有方法(如OGM-GE、AGM)采用模态级梯度调制,对所有参数同等对待

    • ​本文突破​​:提出基于参数重要性的差异化更新策略,实现更精细的优化控制

    在这里插入图片描述

    2. 理论框架创新

    • ​重要性采样理论应用​​:将非均匀采样理论引入多模态优化

    • ​收敛性证明​​:为子网络优化策略提供严格的理论保证(Theorem 1-2)

    • ​无偏估计改进​​:提出AMSS+解决估计偏差问题,体现理论深度

    3. 方法设计创新

    • ​模态显著性度量​​:基于互信息率的动态评估机制(公式3)

    • ​Fisher信息引导采样​​:将参数重要性量化与优化过程结合(公式6)

    • ​多架构适配​​:设计通道级(CNN)和头级(Transformer)掩码单元

    实验验证的全面性

    多维度评估体系

    • ​数据集覆盖​​:5个数据集,涵盖音频-视频、文本-图像、三模态场景

    • ​架构测试​​:CNN(ResNet)和Transformer(MBT)双架构验证

    • ​对比基线​​:与8种模态重平衡方法和7种传统融合方法对比

    显著性能提升

    表II显示AMSS+在Kinetics-Sound上相比次优方法提升5.15%,这种​​一致且显著的性能提升​​为方法有效性提供了强有力证据

  • 局限与启示: 方法或实验存在哪些不足?对你的研究有何启发?

    方法局限性

    1. 计算复杂度问题

    • ​额外计算开销​​:模态显著性计算和参数重要性评估增加训练成本
    • ​实时应用挑战​​:动态掩码策略在资源受限环境中可能受限

    2. 理论假设限制

    • ​理想化假设​​:收敛分析依赖于相对严格的假设条件
    • ​实际数据偏差​​:真实数据分布可能不完全符合理论假设

    3. 超参数敏感性

    • ​τ调优需求​​:需要针对不同数据集调整超参数(表VIII显示τ=0.2最优)
    • ​自适应机制缺失​​:缺乏动态调整掩码策略的机制

    4. 模态扩展性

    • ​多模态泛化​​:在超过3个模态的场景中验证不足
    • ​跨领域适用性​​:在专业领域(如医疗、遥感)的适用性待验证

    研究启示

    理论方向

    1. ​放松理论假设​​:探索更一般化条件下的收敛性分析
    2. ​动态理论框架​​:建立自适应掩码比例的理论基础
    3. ​跨模态理论​​:发展多模态协同优化的统一理论框架

    方法改进

    1. ​效率优化​​:设计轻量级显著性评估方法
    2. ​自适应机制​​:开发基于训练进度的动态掩码策略
    3. ​预训练适配​​:针对大规模预训练模型设计专用策略

    应用拓展

    1. ​新模态组合​​:探索传感器数据、生理信号等新模态
    2. ​领域适配​​:在医疗诊断、自动驾驶等关键领域应用验证
    3. ​边缘计算​​:开发适合边缘设备的简化版本
  • 写作/图表亮点: 可借鉴的句式、图表展示方式等。

    1. 对比表格设计(表II)
    • ​分层结构​​:按数据集分组,清晰展示不同场景性能
    • ​重点突出​​:加粗最优结果,下划线次优结果
    • ​信息完整​​:包含多个评估指标(Acc/mAP/Mac-F1)
    1. 可视化优化过程(图4)
      在这里插入图片描述

    ​借鉴点​​:

    • 双Y轴设计:同时展示训练损失和测试性能
    • 对比清晰:多种方法在同一图中对比
    • 分析指导:直观展示收敛性和泛化能力关系
    1. 机制对比图示(图1)
      ​借鉴点​​:
    • 并行布局:传统方法与新方法直观对比
    • 标注详细:关键参数和过程清晰标注
    • 概念可视化:抽象机制通过图形具体化
    1. 消融实验展示(表VI-VIII)
      ​借鉴点​​:
    • 结构化设计:分组件、分超参数系统展示
    • 数据充分:提供多角度验证结果
    • 分析深入:不仅展示结果,还提供原因分析

🔗 知识连接 (Knowledge Links)

  • 相关概念: [[多模态优化]], [[自适应掩码]]
  • 相关方法: [[AdamW优化器]], [[子网络训练]],[[SGD优化器]],[[DropConnect]]

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐