关键词:Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导(Group Relative Attention Guidance, GRAG)、多模态注意力(Multi-Modal Attention, MM-Attention)、图像编辑(Image Editing)、视觉语言模型(Vision-Language Model, VLM)

论文基本信息

信息项

内容

论文标题

Group Relative Attention Guidance for Image Editing

作者

Xuanpu Zhang, Xuesong Niu*, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu

单位/团队

天津大学,快手Kolors团队

论文链接

arXiv:2510.24657v1

项目主页

GRAG-Image-Editing (即将开源)

发表时间

2025年10月

原、文、指路:图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优

一、前言 / 背景引入

随着Diffusion Transformer(DiT)模型的兴起,文生图与图像编辑能力实现了飞跃,特别是在多模态MM-Attention架构加持下,图文、图图混合的复杂编辑需求被更精准地满足。然而,现有编辑方法对“编辑强度”的控制不够灵活,用户往往难以兼顾指令响应度与原图一致性,只能借助提示工程、反复试错等手段。

本论文聚焦于DiT图像编辑中的内在机制,首次揭示并利用MM-Attention中的“群体偏置向量”现象,提出**Group Relative Attention Guidance (GRAG)**新方法,实现连续、可调、无须微调的“编辑强度”精准控制。无论训练型还是免训练型编辑框架,GRAG都可一键集成,并超越主流的Classifier-Free Guidance(CFG),带来更细腻、更符合人意图的编辑体验。

二、创新点与方法亮点

本论文围绕Diffusion-in-Transformer(DiT)图像编辑的可控性难题,提出了独具开创性的Group Relative Attention Guidance(GRAG)机制。以下分点详细梳理其核心创新,并配合图、表、公式深入解读:

1. 揭示MM-Attention层的“群体偏置向量”现象

  • 论文首次对DiT架构下的多模态注意力机制(MM-Attention)进行深入分析,发现每层Attention的Query和Key分布均高度集中于某一主导向量(偏置),即:其中  为主导偏置, 为每个token的内容偏移。

  • 这一主导偏置向量本质上控制了编辑行为的“基准动作”,而偏移部分才携带具体编辑内容。

Kontext模型Attention层特征分布可视化。可见文本token集中于低频率区间,图像token集中于高频率区间,均呈现强烈偏置。

2. 提出Group Relative Attention Guidance(GRAG)创新机制

  • 核心思想:直接在MM-Attention中建模“偏置+偏移”的结构,通过可调参数连续控制编辑强度。

  • 具体做法

    •  加强整体编辑方向, 加强内容响应。

    • 分组求均值,以源图像token为例,计算Key组的均值,每个token与均值的偏移。

    • 参数连续控制偏置与偏移占比

  • 工程极致简洁,仅需4行代码即可集成,且对各类DiT/Flux.1/Flowedit等架构无缝适配。

GRAG机制在MM-Attention流程中的作用示意。红色token响应增强,蓝色响应抑制,实现精准可控编辑。

伪代码实现

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta# 后续按原attention流程继续
  • PyTorch官方实现片段

s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)

原、文👉图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

3. 精细调节编辑强度,超越CFG的连续可控能力

  • 与主流Classifier-Free Guidance(CFG)对比,GRAG具备真正连续、柔顺的编辑强度调节能力。

  • 只需调整即可获得从“弱变强”的顺滑编辑过渡,而CFG难以实现如此线性可控的变化

同一输入下,CFG和GRAG不同编辑强度的可视化对比。GRAG实现了更平滑的渐变,且编辑区域细节更优。

4. 多类型模型广泛适配与轻量集成

  • GRAG不仅适配Kontext、Qwen-Edit、Step1X-Edit等训练型模型,还能用于Flowedit、Stableflow等“免训练”Diffusion编辑器,实现跨模型通用性

  • 工程集成极简,仅需在Attention主干插入数行代码,不影响原有训练/推理流程

5. 多维实验指标验证显著提升

训练型方法集成GRAG前后量化对比

Model

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

Kontext-Dev

0.3061

0.9213

8.9051

6.9051

6.0887

+GRAG

0.3873

0.8156

8.6788

7.4177

6.4081

Step1X-Edit

0.3228

0.9042

8.4714

7.8406

6.8292

+GRAG

0.3174

0.9137

8.6240

8.0406

7.0045

Qwen-Edit

0.3428

0.8506

8.5211

8.4806

7.2576

+GRAG

0.3042

0.9263

8.9440

8.3303

7.3245

  • LPIPS/SSIM:内容保真度

  • Cons:与原图一致性

  • PF:指令响应性

  • EditScore:综合编辑得分(越高越优)

6. 机制消融分析与灵敏度研究

  • 调节影响有限,可实现连续且无伪影的强度调节。两者联动虽可进一步加大编辑力度,但容易带来失真。

CFG与GRAG参数消融

Method

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

CFG = 5.00

0.3381

0.8548

8.3989

8.4640

7.1857

λ=1.05, δ=1.05

0.3042

0.9263

8.9440

8.3303

7.3245

λ=1.15, δ=1.15

0.2885

0.9448

9.1051

6.6091

5.9955

三、核心方法与公式详解

本节将系统梳理GRAG(Group Relative Attention Guidance)的数学建模、核心流程、关键公式与代码实现,并穿插图例与直观说明,助力技术读者真正吃透“如何实现可控Diffusion图像编辑”。

1. MM-DiT架构与Attention机制核心回顾

多模态Diffusion Transformer基础
  • 输入映射:将文本token  与图像token  投影到共享空间

    其中为对应的投影矩阵,为通道维度。

  • 联合Attention计算

    其中为token拼接。

  • 编辑流程分三路

    说明:上述为简化表达,省略项。

    • Text

    • Editing (目标区域)

    • Source (原始区域)

2. 发现与建模群体偏置向量(Bias Vector)

分解结构
  • 论文通过可视化和统计,发现Query/Key在注意力层有以下分解结构:

  • 偏置向量主导“编辑行为”,而部分编码具体“内容”。

Query-Edit各Attention Head上的均值与方差统计,显示明显偏置分布。

实际影响
  • 在Attention分数计算中,的存在会稀释的影响,从而削弱条件信号(如编辑指令)的控制力。

  • 如何通过调控提升编辑可控性,成为方法设计关键。

3. GRAG核心公式与流程

偏置调制公式
  • Group Relative Attention Guidance关键公式

    • 调节主导偏置权重

    • 调节内容偏移强度(建议主要调以获得连续柔顺的编辑效果)

群体偏置与偏移的计算
  • 为分组token数(如源图像tokens)

伪代码与官方实现

Algorithm 1(节选)

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta

PyTorch实现

# 4096~8192为image token indexs_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)
  • 重点:仅需4行,即可对Attention模块实现GRAG集成。

4. GRAG作用流程可视化与结构图

GRAG在MM-Attention的作用流程。红色为增强token,蓝色为抑制token,实现精准可控的编辑调节。

  • a. 选择关键token分组(如源图像token),计算偏置

  • b. 偏置+偏移可调混合,形成新的Key参与Attention

  • c. 实现对编辑区域与原图细节的“柔性”控制

5. 参数灵敏度与调控能力分析

  • ****:主控整体编辑风格,调整幅度过大易致失真

  • ****:核心调节编辑强度,实现从“无变动”到“强烈编辑”的顺滑过渡

CFG与GRAG参数调节实验

Method

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

CFG = 5.00

0.3381

0.8548

8.3989

8.4640

7.1857

λ=1.05, δ=1.05

0.3042

0.9263

8.9440

8.3303

7.3245

λ=1.15, δ=1.15

0.2885

0.9448

9.1051

6.6091

5.9955

  • 结论:调节带来连续可控、无明显伪影的编辑能力,是Diffusion图像编辑中细粒度调节的关键参数。

6. 全流程概览与适配性说明

  • GRAG只需在MM-Attention层插入4行代码,工程极其简洁。

  • 可直接用于训练型/免训练型Diffusion编辑方法,对主流开源框架无缝集成。

  • 最终效果:实现编辑内容/强度的灵活平衡,既能细腻响应用户指令,也能最大程度保留原图细节。

通过对MM-Attention偏置结构的挖掘与GRAG机制的设计,本文不仅实现了方法层的理论突破,更提供了极具工程实用性的解决方案,为Diffusion图像编辑领域带来全新可控性范式。

四、实验结果与可视化分析

GRAG方法经过系统定量与定性实验,覆盖主流训练型与免训练型Diffusion图像编辑模型,取得了极具说服力的性能提升和细粒度可控性突破。本节将按定性展示、量化对比、参数消融等维度,结合图表与代码,完整解析实验发现。

1. 训练型与免训练型方法上的可视化效果

(1)训练型方法:Kontext、Step1X-Edit、Qwen-Edit

GRAG集成于训练型编辑器的效果可视化。GRAG显著提升了编辑区域的可控性,且保留了原图细节。

  • 如图第一列,鸟的羽毛被精细调整,树干细节依旧清晰。

  • 最后一列Kontext原生方法几乎无编辑响应,GRAG后能精准实现指令编辑。

(2)免训练型方法:Flowedit、StableFlow、StableFlow+

GRAG在免训练方法上的可控编辑。编辑区域的变化更平滑、细致。

2. 与主流CFG方法的可控性对比

CFG与GRAG在不同强度下的编辑对比。GRAG能实现连续且线性的编辑效果,细节过渡自然;而CFG调整下结果跳变明显,难以实现平滑强度调节。

3. 量化实验对比(PIE数据集)

训练型方法GRAG集成前后对比

Model

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

Kontext-Dev

0.3061

0.9213

8.9051

6.9051

6.0887

+GRAG

0.3873

0.8156

8.6788

7.4177

6.4081

Step1X-Edit

0.3228

0.9042

8.4714

7.8406

6.8292

+GRAG

0.3174

0.9137

8.6240

8.0406

7.0045

Qwen-Edit

0.3428

0.8506

8.5211

8.4806

7.2576

+GRAG

0.3042

0.9263

8.9440

8.3303

7.3245

  • LPIPS/SSIM:内容保真度

  • Cons:与原图一致性

  • PF:指令响应性

  • EditScore:综合编辑得分(越高越优)

免训练型方法GRAG集成前后对比

Model

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

Flowedit

0.3758

0.8237

6.8794

5.0531

4.6635

+GRAG

0.3670

0.8312

7.2223

4.8954

4.6697

StableFlow

0.3219

0.9185

8.9309

2.2177

2.4573

+GRAG

0.3292

0.9098

8.8731

2.7429

3.0303

StableFlow+

0.3691

0.8229

7.3599

5.3926

5.0970

+GRAG

0.3595

0.8316

7.7997

4.8395

4.7251

4. 参数消融实验与可控性分析

CFG与GRAG参数调节消融

Method

LPIPS↓

SSIM↑

Cons↑

PF↑

EditScore↑

CFG = 5.00

0.3381

0.8548

8.3989

8.4640

7.1857

CFG = 3.00

0.3312

0.8659

8.6251

8.3954

7.2761

λ=1.05, δ=1.05

0.3042

0.9263

8.9440

8.3303

7.3245

λ=1.15, δ=1.15

0.2885

0.9448

9.1051

6.6091

5.9955

  • 结论:仅调整时编辑强度变化有限,调节可以获得最连续、平滑且无伪影的编辑渐变,是可控编辑的关键参数。

5. 代码与实现细节(可直接复现)

伪代码(节选自Algorithm 1)

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta# 后续参与标准Attention

PyTorch代码实现(附录A)

s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)

五、总结与未来展望

本部分将结合论文核心内容,对GRAG方法的贡献、工程与理论意义、存在的局限,以及未来发展趋势进行深入梳理。

1. 论文核心贡献总结

  • 首次揭示MM-Attention偏置结构 论文系统分析了Diffusion-in-Transformer(DiT)架构下多模态注意力机制的内部特征分布,发现并理论化了每层Query/Key的“群体偏置向量”现象,为理解与调控大模型编辑行为提供了全新视角。

  • 提出极简、通用的GRAG可控编辑机制 Group Relative Attention Guidance(GRAG)通过仅4行代码、无须微调即可集成于各类MM-Attention架构,实现了编辑强度的连续、可调、细粒度控制,极大提升了用户自定义编辑体验,并超越传统CFG等主流方法。

  • 多模态编辑性能与可用性全面提升 实验证明GRAG在训练型与免训练型主流编辑框架下均能带来更优异的编辑质量、响应度与一致性,编辑强度调节更平滑,工程集成门槛极低,具有广泛实际落地价值。

原、文👉图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

2. 方法局限与待突破点

  • 免训练场景稳定性尚有提升空间 当前GRAG在部分免训练型Diffusion编辑器(如StableFlow等)中,表现出一定的不稳定性。主要原因是GRAG更适合调控MM-Attention的cross-attention结构,而部分免训练架构的源图像特征注入方式不同,后续可进一步针对不同Attention路径优化适配策略。

  • 部分极端参数设置下会带来视觉伪影 虽然参数可实现编辑强度柔顺连续调节,但若、设定过高,可能会在特定样本上导致局部失真或编辑失控。因此,合理的参数区间选择与自适应策略是未来优化方向。

3. 未来展望与研究方向

  • 面向更复杂编辑任务的通用可控机制 未来可探索GRAG在多模态、多场景(如视频编辑、跨模态风格迁移、图文融合创作等)任务中的泛化能力,推动可控编辑范式成为大模型架构的“标配能力”。

  • 与其他条件调控机制的深度融合 可尝试将GRAG与LoRA、指令微调(Instruction Tuning)、检索增强(RAG)等方法结合,实现更强大的端到端多模态可控编辑系统。

  • 理论机制与可解释性深入拓展 进一步分析Attention偏置与内容可控之间的数学联系,丰富编辑强度、内容多样性、用户主观意图之间的映射关系,为可解释性与信任度提升打下理论基础。

  • 提升工程实用性与生态完善 随着GRAG代码开源,后续将持续完善配套示例、社区文档和一键集成脚本,助力产业界、开源社群快速集成和落地创新。

GRAG的提出不仅是Diffusion大模型图像编辑可控性领域的重要突破,更为AI创意内容生产、用户个性化定制、产业智能化升级等应用场景提供了全新技术底座。期待学界与产业界共同推动Diffusion大模型可控编辑能力的普及与发展。

六、工程复现与代码实践指南(即将开源)

声明:截至发稿时,GRAG官方项目主页(GitHub: little-misfit/GRAG-Image-Editing)尚未正式开源,下述内容仅为简要功能介绍,具体代码和部署细节请关注项目主页后续更新。

1. 快速集成特性

  • 极致轻量:GRAG仅需4行代码即可插入主流Diffusion-in-Transformer(DiT)或MM-Attention模块,兼容如Kontext、Step1X-Edit、Qwen-Edit、Flowedit、StableFlow等开源/自研Diffusion编辑框架。

  • 无须微调:工程落地无需模型结构重训练,可直接在原有推理流程中动态切换GRAG开关与参数,便于实验与产业快速验证。

2. 典型伪代码片段

# 假设img_key为image tokens,s_idx/e_idx为编辑token范围s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)# 后续进入标准Attention流程
  • 参数解释:bias_scale控制偏置影响,delta_scale调节编辑内容强度,灵活实现连续、可控编辑。

原、文👉图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

3. 推荐工程配置与集成说明

  • 推荐环境:Python 3.9+、PyTorch >=1.12、常见Diffusers/Transformers库

  • 集成方式:直接在MM-Attention主干插入上述片段,或按官方README示例添加GRAG模块参数配置。

  • 未来开源后,预计将包含详细的文档说明、集成Demo、参数调优脚本及丰富案例,可一键复现论文实验与可控编辑效果。

4. 注意事项与展望

  • 当前尚未正式开源,如有需求请关注项目主页或联系作者团队获取工程咨询。

  • 开源后将持续迭代,包括更多Diffusion大模型适配支持、视频/多模态拓展、社区教程等。

结语:GRAG以极简工程实现和卓越可控能力,推动可控Diffusion图像编辑向更高标准演进。期待开源正式发布后,与技术社区共同创新更多场景应用!

七、附录/扩展资源

  • 论文原文:https://arxiv.org/html/2510.24657v1

  • 项目主页:GRAG-Image-Editing:https://github.com/little-misfit/GRAG-Image-Editing

  • 主流基线框架:Kontext、Step1X-Edit、Qwen-Edit、StableFlow等

  • 其他参考

    • Diffusers库:(https://github.com/huggingface/diffusers)

    • Flux.1-dev模型:(https://huggingface.co/black-forest-labs/FLUX.1-dev)

原、文👉图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

往期推荐 

强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!

OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!

ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!

NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

ICLR 2025|「大语言模型训练」最新论文合集:13 篇顶会在手,发文灵感不愁!

推荐系统 “效率革命”!字节OneTrans:统一 Transformer 融序列建模 + 特征交互,训练推理双提速

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐