0 起源: 多目标模型融合

(这一节是自己的补充,课程没有)

  •  多目标模型融合,通过一个模型同时训练多个目标
    • 该方法的优点是各个任务之间能够共享信息,统一迭代方便,节省资源
    • 但缺点也比较明显,目标越多模型越复杂,各任务之间相互影响

  • 多任务学习的的框架广泛采用Shared-bottom的结构,不同任务间共用底部的隐层
    • 这种结构本质上可以减少过拟合的风险,但是效果上可能受到任务差异和数据分布带来的影响
    •  Shared-Bottom 网络(左图)通常位于底部,它通过浅层参数共享,互相补充学习。
      • 这种方式下任务相关性越高,模型的loss可以降低到更低。
      • 但是当任务没有好的相关性时,这种Hard parameter sharing会损害效果。
    • MOE(中图)由一组专家系统(Experts)组成的神经网络结构替换原来的Shared-Bottom部分
      • 每一个Expert都是一个前馈神经网络,再加上一个门控网络(Gate)
    • MMoE(右图)(Multi-gate Mixture-of-Experts)是在MOE的基础上,使用了多个门控网络, k个任务就对应k个门控网络。

1 模型合并 

θB-θ:任务B上额外获得的能力,直接加到θA上即可

但参数是加加减减的东西吗?

LLM时代好像是的

不同的任务向量几乎是正交的



Model Stock: All we need is just a few fine-tuned models

新模型同时有A和B能力的模型了,前提是A和B是从一个foundation mode里来的

反向相减,就能失去B的能力,也即unlearning

Editing Models with Task Arithmetic

假设有ABC,而且知道D相对于C就是B相对于A的关系

那么即使没有D的资料,也可以获得D的能力

比如我们有一个基本的语音辨识系统ASR,和一个一般人听不懂的、有文字资料的会议

一种想法是让语义合成系统TTS把这些文字念出来,然后对原来ASR进行微调

但合成的语音和真正的语音还是有一定差距,那有没有办法在没有真实语音信号的情况下,让ASR能够变成像在真实语音信号下微调一样呢?

其他domain的资料有合成好的和真实的语音

那么我们用类比的模型合成方法,就能得到一个模型,好像在正式的资料上train过一样

2 模型合并不一定总成功

但是merge不一定总成功——>merge完之后一个输出4一个输出7

要想成功,尽量让不同任务不要动到同样的参数

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐