图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优

Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导（Group Relative Attention Guidance, GRAG）、多模态注意力（Multi-Modal Attention, MM-Attention）、图像编辑（Image Editing）、视觉语言模型（Vision-Language M

LLM炼丹炉

1022人浏览 · 2025-11-19 14:01:21

LLM炼丹炉 · 2025-11-19 14:01:21 发布

关键词：Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导（Group Relative Attention Guidance, GRAG）、多模态注意力（Multi-Modal Attention, MM-Attention）、图像编辑（Image Editing）、视觉语言模型（Vision-Language Model, VLM）

论文基本信息

信息项	内容
论文标题	Group Relative Attention Guidance for Image Editing
作者	Xuanpu Zhang, Xuesong Niu*, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
单位/团队	天津大学，快手Kolors团队
论文链接	arXiv:2510.24657v1
项目主页	GRAG-Image-Editing （即将开源）
发表时间	2025年10月

原、文、指路：图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优

一、前言 / 背景引入

随着Diffusion Transformer（DiT）模型的兴起，文生图与图像编辑能力实现了飞跃，特别是在多模态MM-Attention架构加持下，图文、图图混合的复杂编辑需求被更精准地满足。然而，现有编辑方法对“编辑强度”的控制不够灵活，用户往往难以兼顾指令响应度与原图一致性，只能借助提示工程、反复试错等手段。

本论文聚焦于DiT图像编辑中的内在机制，首次揭示并利用MM-Attention中的“群体偏置向量”现象，提出**Group Relative Attention Guidance (GRAG)**新方法，实现连续、可调、无须微调的“编辑强度”精准控制。无论训练型还是免训练型编辑框架，GRAG都可一键集成，并超越主流的Classifier-Free Guidance（CFG），带来更细腻、更符合人意图的编辑体验。

二、创新点与方法亮点

本论文围绕Diffusion-in-Transformer（DiT）图像编辑的可控性难题，提出了独具开创性的Group Relative Attention Guidance（GRAG）机制。以下分点详细梳理其核心创新，并配合图、表、公式深入解读：

1. 揭示MM-Attention层的“群体偏置向量”现象

论文首次对DiT架构下的多模态注意力机制（MM-Attention）进行深入分析，发现每层Attention的Query和Key分布均高度集中于某一主导向量（偏置），即：其中为主导偏置，为每个token的内容偏移。
这一主导偏置向量本质上控制了编辑行为的“基准动作”，而偏移部分才携带具体编辑内容。

★

Kontext模型Attention层特征分布可视化。可见文本token集中于低频率区间，图像token集中于高频率区间，均呈现强烈偏置。

2. 提出Group Relative Attention Guidance（GRAG）创新机制

核心思想：直接在MM-Attention中建模“偏置+偏移”的结构，通过可调参数连续控制编辑强度。
具体做法：
- 加强整体编辑方向，加强内容响应。
- 分组求均值，以源图像token为例，计算Key组的均值，每个token与均值的偏移。
- 参数连续控制偏置与偏移占比：
工程极致简洁，仅需4行代码即可集成，且对各类DiT/Flux.1/Flowedit等架构无缝适配。

★

GRAG机制在MM-Attention流程中的作用示意。红色token响应增强，蓝色响应抑制，实现精准可控编辑。

伪代码实现

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta# 后续按原attention流程继续

PyTorch官方实现片段：

s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)

原、文👉图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

3. 精细调节编辑强度，超越CFG的连续可控能力

与主流Classifier-Free Guidance（CFG）对比，GRAG具备真正连续、柔顺的编辑强度调节能力。
只需调整即可获得从“弱变强”的顺滑编辑过渡，而CFG难以实现如此线性可控的变化。

同一输入下，CFG和GRAG不同编辑强度的可视化对比。GRAG实现了更平滑的渐变，且编辑区域细节更优。

4. 多类型模型广泛适配与轻量集成

GRAG不仅适配Kontext、Qwen-Edit、Step1X-Edit等训练型模型，还能用于Flowedit、Stableflow等“免训练”Diffusion编辑器，实现跨模型通用性。
工程集成极简，仅需在Attention主干插入数行代码，不影响原有训练/推理流程。

5. 多维实验指标验证显著提升

训练型方法集成GRAG前后量化对比

Model	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
Kontext-Dev	0.3061	0.9213	8.9051	6.9051	6.0887
+GRAG	0.3873	0.8156	8.6788	7.4177	6.4081
Step1X-Edit	0.3228	0.9042	8.4714	7.8406	6.8292
+GRAG	0.3174	0.9137	8.6240	8.0406	7.0045
Qwen-Edit	0.3428	0.8506	8.5211	8.4806	7.2576
+GRAG	0.3042	0.9263	8.9440	8.3303	7.3245

★

LPIPS/SSIM：内容保真度

Cons：与原图一致性

PF：指令响应性

EditScore：综合编辑得分（越高越优）

6. 机制消融分析与灵敏度研究

调节影响有限，可实现连续且无伪影的强度调节。两者联动虽可进一步加大编辑力度，但容易带来失真。

CFG与GRAG参数消融

Method	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
CFG = 5.00	0.3381	0.8548	8.3989	8.4640	7.1857
λ=1.05, δ=1.05	0.3042	0.9263	8.9440	8.3303	7.3245
λ=1.15, δ=1.15	0.2885	0.9448	9.1051	6.6091	5.9955

三、核心方法与公式详解

本节将系统梳理GRAG（Group Relative Attention Guidance）的数学建模、核心流程、关键公式与代码实现，并穿插图例与直观说明，助力技术读者真正吃透“如何实现可控Diffusion图像编辑”。

1. MM-DiT架构与Attention机制核心回顾

多模态Diffusion Transformer基础

输入映射：将文本token 与图像token 投影到共享空间

其中为对应的投影矩阵，为通道维度。
联合Attention计算：

其中为token拼接。
编辑流程分三路：

★
说明：上述为简化表达，省略项。
- Text
- Editing (目标区域)
- Source (原始区域)

2. 发现与建模群体偏置向量（Bias Vector）

分解结构

论文通过可视化和统计，发现Query/Key在注意力层有以下分解结构：
偏置向量主导“编辑行为”，而部分编码具体“内容”。

★

Query-Edit各Attention Head上的均值与方差统计，显示明显偏置分布。

实际影响

在Attention分数计算中，的存在会稀释的影响，从而削弱条件信号（如编辑指令）的控制力。
如何通过调控提升编辑可控性，成为方法设计关键。

3. GRAG核心公式与流程

偏置调制公式

Group Relative Attention Guidance关键公式：
- 调节主导偏置权重
- 调节内容偏移强度（建议主要调以获得连续柔顺的编辑效果）

群体偏置与偏移的计算

为分组token数（如源图像tokens）

伪代码与官方实现

★
Algorithm 1（节选）

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta

★
PyTorch实现

# 4096~8192为image token indexs_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)

重点：仅需4行，即可对Attention模块实现GRAG集成。

4. GRAG作用流程可视化与结构图

★

GRAG在MM-Attention的作用流程。红色为增强token，蓝色为抑制token，实现精准可控的编辑调节。

a. 选择关键token分组（如源图像token），计算偏置
b. 偏置+偏移可调混合，形成新的Key参与Attention
c. 实现对编辑区域与原图细节的“柔性”控制

5. 参数灵敏度与调控能力分析

****：主控整体编辑风格，调整幅度过大易致失真
****：核心调节编辑强度，实现从“无变动”到“强烈编辑”的顺滑过渡

CFG与GRAG参数调节实验

Method	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
CFG = 5.00	0.3381	0.8548	8.3989	8.4640	7.1857
λ=1.05, δ=1.05	0.3042	0.9263	8.9440	8.3303	7.3245
λ=1.15, δ=1.15	0.2885	0.9448	9.1051	6.6091	5.9955

结论：调节带来连续可控、无明显伪影的编辑能力，是Diffusion图像编辑中细粒度调节的关键参数。

6. 全流程概览与适配性说明

GRAG只需在MM-Attention层插入4行代码，工程极其简洁。
可直接用于训练型/免训练型Diffusion编辑方法，对主流开源框架无缝集成。
最终效果：实现编辑内容/强度的灵活平衡，既能细腻响应用户指令，也能最大程度保留原图细节。

★
通过对MM-Attention偏置结构的挖掘与GRAG机制的设计，本文不仅实现了方法层的理论突破，更提供了极具工程实用性的解决方案，为Diffusion图像编辑领域带来全新可控性范式。

四、实验结果与可视化分析

GRAG方法经过系统定量与定性实验，覆盖主流训练型与免训练型Diffusion图像编辑模型，取得了极具说服力的性能提升和细粒度可控性突破。本节将按定性展示、量化对比、参数消融等维度，结合图表与代码，完整解析实验发现。

1. 训练型与免训练型方法上的可视化效果

（1）训练型方法：Kontext、Step1X-Edit、Qwen-Edit

GRAG集成于训练型编辑器的效果可视化。GRAG显著提升了编辑区域的可控性，且保留了原图细节。

如图第一列，鸟的羽毛被精细调整，树干细节依旧清晰。

最后一列Kontext原生方法几乎无编辑响应，GRAG后能精准实现指令编辑。

（2）免训练型方法：Flowedit、StableFlow、StableFlow+

★

GRAG在免训练方法上的可控编辑。编辑区域的变化更平滑、细致。

2. 与主流CFG方法的可控性对比

CFG与GRAG在不同强度下的编辑对比。GRAG能实现连续且线性的编辑效果，细节过渡自然；而CFG调整下结果跳变明显，难以实现平滑强度调节。

3. 量化实验对比（PIE数据集）

训练型方法GRAG集成前后对比

Model	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
Kontext-Dev	0.3061	0.9213	8.9051	6.9051	6.0887
+GRAG	0.3873	0.8156	8.6788	7.4177	6.4081
Step1X-Edit	0.3228	0.9042	8.4714	7.8406	6.8292
+GRAG	0.3174	0.9137	8.6240	8.0406	7.0045
Qwen-Edit	0.3428	0.8506	8.5211	8.4806	7.2576
+GRAG	0.3042	0.9263	8.9440	8.3303	7.3245

★

LPIPS/SSIM：内容保真度

Cons：与原图一致性

PF：指令响应性

EditScore：综合编辑得分（越高越优）

免训练型方法GRAG集成前后对比

Model	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
Flowedit	0.3758	0.8237	6.8794	5.0531	4.6635
+GRAG	0.3670	0.8312	7.2223	4.8954	4.6697
StableFlow	0.3219	0.9185	8.9309	2.2177	2.4573
+GRAG	0.3292	0.9098	8.8731	2.7429	3.0303
StableFlow+	0.3691	0.8229	7.3599	5.3926	5.0970
+GRAG	0.3595	0.8316	7.7997	4.8395	4.7251

4. 参数消融实验与可控性分析

CFG与GRAG参数调节消融

Method	LPIPS↓	SSIM↑	Cons↑	PF↑	EditScore↑
CFG = 5.00	0.3381	0.8548	8.3989	8.4640	7.1857
CFG = 3.00	0.3312	0.8659	8.6251	8.3954	7.2761
λ=1.05, δ=1.05	0.3042	0.9263	8.9440	8.3303	7.3245
λ=1.15, δ=1.15	0.2885	0.9448	9.1051	6.6091	5.9955

结论：仅调整时编辑强度变化有限，调节可以获得最连续、平滑且无伪影的编辑渐变，是可控编辑的关键参数。

5. 代码与实现细节（可直接复现）

★
伪代码（节选自Algorithm 1）

Kbias = mean(Ks, dim=1)K_delta = Ks - KbiasKs = lambda * Kbias + delta * K_delta# 后续参与标准Attention

★
PyTorch代码实现（附录A）

s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)

五、总结与未来展望

本部分将结合论文核心内容，对GRAG方法的贡献、工程与理论意义、存在的局限，以及未来发展趋势进行深入梳理。

1. 论文核心贡献总结

首次揭示MM-Attention偏置结构 论文系统分析了Diffusion-in-Transformer（DiT）架构下多模态注意力机制的内部特征分布，发现并理论化了每层Query/Key的“群体偏置向量”现象，为理解与调控大模型编辑行为提供了全新视角。
提出极简、通用的GRAG可控编辑机制 Group Relative Attention Guidance（GRAG）通过仅4行代码、无须微调即可集成于各类MM-Attention架构，实现了编辑强度的连续、可调、细粒度控制，极大提升了用户自定义编辑体验，并超越传统CFG等主流方法。
多模态编辑性能与可用性全面提升 实验证明GRAG在训练型与免训练型主流编辑框架下均能带来更优异的编辑质量、响应度与一致性，编辑强度调节更平滑，工程集成门槛极低，具有广泛实际落地价值。

原、文👉图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优https://mp.weixin.qq.com/s/C9T7_H4rEjg7UwJh571Q_g

2. 方法局限与待突破点

免训练场景稳定性尚有提升空间 当前GRAG在部分免训练型Diffusion编辑器（如StableFlow等）中，表现出一定的不稳定性。主要原因是GRAG更适合调控MM-Attention的cross-attention结构，而部分免训练架构的源图像特征注入方式不同，后续可进一步针对不同Attention路径优化适配策略。
部分极端参数设置下会带来视觉伪影 虽然参数可实现编辑强度柔顺连续调节，但若、设定过高，可能会在特定样本上导致局部失真或编辑失控。因此，合理的参数区间选择与自适应策略是未来优化方向。

3. 未来展望与研究方向

面向更复杂编辑任务的通用可控机制 未来可探索GRAG在多模态、多场景（如视频编辑、跨模态风格迁移、图文融合创作等）任务中的泛化能力，推动可控编辑范式成为大模型架构的“标配能力”。
与其他条件调控机制的深度融合 可尝试将GRAG与LoRA、指令微调（Instruction Tuning）、检索增强（RAG）等方法结合，实现更强大的端到端多模态可控编辑系统。
理论机制与可解释性深入拓展 进一步分析Attention偏置与内容可控之间的数学联系，丰富编辑强度、内容多样性、用户主观意图之间的映射关系，为可解释性与信任度提升打下理论基础。
提升工程实用性与生态完善 随着GRAG代码开源，后续将持续完善配套示例、社区文档和一键集成脚本，助力产业界、开源社群快速集成和落地创新。

★
GRAG的提出不仅是Diffusion大模型图像编辑可控性领域的重要突破，更为AI创意内容生产、用户个性化定制、产业智能化升级等应用场景提供了全新技术底座。期待学界与产业界共同推动Diffusion大模型可控编辑能力的普及与发展。

六、工程复现与代码实践指南（即将开源）

★
声明：截至发稿时，GRAG官方项目主页（GitHub: little-misfit/GRAG-Image-Editing）尚未正式开源，下述内容仅为简要功能介绍，具体代码和部署细节请关注项目主页后续更新。

1. 快速集成特性

极致轻量：GRAG仅需4行代码即可插入主流Diffusion-in-Transformer（DiT）或MM-Attention模块，兼容如Kontext、Step1X-Edit、Qwen-Edit、Flowedit、StableFlow等开源/自研Diffusion编辑框架。
无须微调：工程落地无需模型结构重训练，可直接在原有推理流程中动态切换GRAG开关与参数，便于实验与产业快速验证。

2. 典型伪代码片段

# 假设img_key为image tokens，s_idx/e_idx为编辑token范围s_idx, e_idx, bias_scale, delta_scale = 4096, 8192, 1.0, 1.05group_bias = img_key[:, s_idx:e_idx, :, :].mean(dim=1)img_key[:, s_idx:e_idx, :, :] = bias_scale * group_bias + delta_scale * (img_key[:, s_idx:e_idx, :, :] - group_bias)# 后续进入标准Attention流程

参数解释：bias_scale控制偏置影响，delta_scale调节编辑内容强度，灵活实现连续、可控编辑。

3. 推荐工程配置与集成说明

推荐环境：Python 3.9+、PyTorch >=1.12、常见Diffusers/Transformers库
集成方式：直接在MM-Attention主干插入上述片段，或按官方README示例添加GRAG模块参数配置。
未来开源后，预计将包含详细的文档说明、集成Demo、参数调优脚本及丰富案例，可一键复现论文实验与可控编辑效果。

4. 注意事项与展望

当前尚未正式开源，如有需求请关注项目主页或联系作者团队获取工程咨询。
开源后将持续迭代，包括更多Diffusion大模型适配支持、视频/多模态拓展、社区教程等。

★
结语：GRAG以极简工程实现和卓越可控能力，推动可控Diffusion图像编辑向更高标准演进。期待开源正式发布后，与技术社区共同创新更多场景应用！

七、附录/扩展资源

论文原文：https://arxiv.org/html/2510.24657v1
项目主页：GRAG-Image-Editing：https://github.com/little-misfit/GRAG-Image-Editing
主流基线框架：Kontext、Step1X-Edit、Qwen-Edit、StableFlow等
其他参考：
- Diffusers库：(https://github.com/huggingface/diffusers)
- Flux.1-dev模型：(https://huggingface.co/black-forest-labs/FLUX.1-dev)

往期推荐

强烈推荐！多模态融合顶会新成果！CVPR/AAAI 高分成果，这波思路必须学！

OCR “去幻觉” 新纪元！通义点金 OCR-R1 搞定模糊盖章+跨页表格，攻克 OCR 三大痛点！

NeurIPS'2025高分入选！扩散模型+Transformer，效率与质量双线飙升！

杀疯了！2025 最新Agent Memory顶会论文，拿捏发文密码！

ICCV 2025｜FrDiff：频域魔法+扩散模型暴力去雾，无监督性能刷爆榜单！

NeurIPS 2025 | 港科大&上交大HoloV：多模态大模型“瘦身”新突破，剪枝88.9%视觉Token，性能几乎无损

太牛了！北大：Unified-GRPO让理解生成正反馈，超 GPT-4o-Image

ICLR 2025｜「大语言模型训练」最新论文合集：13 篇顶会在手，发文灵感不愁！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大