绝美无痕，比你还会P图的Agent！仅通过自然语言指令，灵活使用数百工具，超越GPT-4o达60%

照片精修是专业摄影的核心环节，但传统工具如Lightroom操作复杂，而AI方案（如GPT-4o）常因。：确保模型精确选择工具（如"曝光补偿"而非"对比度"）并设置合理参数值（如曝光+0.5而非+2.0）。：人像（40.8%）、风光（33.3%）、街景（5.7%）、静物（20.2%），通过"AI代理+专业软件"融合实现"人类创意+机器执行"的协作范式。根本原因：缺乏实时视觉反馈的"顿悟时刻"（对比

zenRRan

1369人浏览 · 2025-06-26 20:31:35

zenRRan · 2025-06-26 20:31:35 发布

照片精修是专业摄影的核心环节，但传统工具如Lightroom操作复杂，而AI方案（如GPT-4o）常因过度重生成像素导致细节失真，且缺乏局部精细控制能力。

论文：JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
链接：https://arxiv.org/pdf/2506.17612

JarvisArt提出一种多模态大模型驱动的智能Agent，通过理解自然语言指令，协调200+个Lightroom工具，实现媲美专业修图师的非破坏性编辑。其突破性在于：

精准意图解析：支持文本/框选/笔刷多模态输入
透明工作流：生成可解释的编辑决策链
任意分辨率支持：突破生成模型的分辨率限制

实验显示，其内容保真度超越GPT-4o达60%，为AI艺术创作开辟新路径。

研究动机与现有方法局限

行业痛点：

专业工具门槛高：Lightroom需手动调整数百参数，学习成本陡峭
AI方案三大缺陷：

内容失真：扩散模型重生成所有像素，破坏原图细节（如人脸特征）
局部控制缺失：无法实现"提亮皮肤但保持背景"的精细操作
分辨率限制：生成式模型无法处理超高分辨率图像

现有技术对比：

方法类型	代表模型	核心局限
优化算法	3DLUT/RSFNet	依赖预训练代理，泛化性差
强化学习	RL-based	缺乏艺术审美判断
扩散模型	MagicBrush	静态提示，多轮推理能力弱
多模态模型	GPT-4o/Gemini	局部控制弱，像素级保真度低

JarvisArt的定位：兼具自动化与可控性，通过"AI代理+专业软件"融合实现"人类创意+机器执行"的协作范式。

JarvisArt系统设计

工作流程

用户输入 → 多模态理解 → 艺术推理 → 工具协调 → Lightroom执行

支持从场景级调整（整体色调）到区域级优化（人脸提亮）的多粒度编辑

关键技术

链式思维监督微调（CoT SFT）：
使用50K链式思维样本训练模型分步推理能力：

"理解用户意图 → 分析美学缺陷 → 选择工具 → 设置参数"

例如：
"用户需提升夜景霓虹灯对比度：先调白平衡至3200K冷调，再用线性蒙版提亮灯牌，最后增加锐化..."
GRPO-R强化学习：

两阶段训练框架，SFT奠基基础，GRPO-R优化决策

核心创新：三维奖励函数驱动模型进化：

格式奖励（Rf）：强制结构化输出（思考过程/工具调用分离）
操作精度奖励（Rroa）：量化工具选择与参数匹配度
感知质量奖励（Rpq）：评估修图后视觉保真度

A2L协议

实现与Lightroom无缝集成的双向通信协议

五大阶段：握手 → 文件验证 → 沙箱执行 → 异步处理 → 结果返回
核心价值：将ROC文件转为Lightroom可执行的Lua脚本，支持非破坏性编辑流程闭环。

MMArt数据集构建

三层数据生成流水线：

从原始图像→编辑配置→用户指令→推理链的生成流程

图像对与配置生成：

使用Grounding DINO定位兴趣区域（置信度>0.8）
Qwen2.5-VL模拟专家推荐预设（如"人像-胶片模拟"）
人工筛选最佳效果，记录Lightroom操作配置（ROC文件）

用户指令合成：
- 区分普通用户（"让天空更蓝"）和专业用户（"降低高光-0.3，HSL增加蓝色饱和度"）
- 覆盖全局调整与局部优化需求
推理链标注：
- 首先生成详细技术步骤（如"用径向蒙版提亮眼部"）
- 经Qwen2.5-VL精炼为人类可读的决策逻辑
数据集特性：
- 55K样本（5K标准指令+50K CoT增强）
- 四类场景：人像（40.8%）、风光（33.3%）、街景（5.7%）、静物（20.2%）
- 唯一支持：任意分辨率图像+Lightroom操作记录+链式思维标注
对比：MMArt在真实性、分辨率支持、标注丰富度上显著优于MagicBrush等数据集

核心创新：GRPO-R强化学习

三维奖励函数设计

（1）操作精度奖励（Rroa）
评估预测工具与目标的匹配度：

关键作用：确保模型精确选择工具（如"曝光补偿"而非"对比度"）并设置合理参数值（如曝光+0.5而非+2.0）。

（2）感知质量奖励（Rpq）
解决"不同参数可能视觉相似"问题：
- CD() ：CIELAB色彩分布相似度（权重γ=0.4）
- L() ：像素级L1/L2距离
核心思想：平衡全局色调一致性与局部细节保真度。

实验验证

定量对比（MMArt-Bench）

数据：JarvisArt在L1/L2等像素指标显著领先，指令跟随性媲美GPT-4o
- 内容保真度：
- - 场景级L1：12.44 (vs. GPT-4o的22.84，提升45.6%)
  - 区域级L1：7.63 (vs. GPT-4o的15.71，提升51.4%)
- 指令跟随性：
- - 整体得分O：8.52 (vs. GPT-4o的9.18，差距<8%)
用户偏好研究

80名参与者对美学质量/内容一致性的评分
- JarvisArt获最高偏好率：
- - 美学质量：38.7% (vs. GPT-4o的29.1%)
  - 内容一致：42.5% (vs. GPT-4o的24.3%)
系统易用性验证

问卷：30名用户对比JarvisArt与Lightroom
- 易学性：93.3%用户可在无指导下独立操作
- 效率：86.7%认为工作流更流畅
- 关键优势：降低认知负荷，避免参数迷宫
泛化能力测试（MIT-FiveK）

数据：跨数据集性能保持领先
- L1：12.98 (vs. GPT-4o的21.49)
- 指令跟随得分O：8.48 (vs. GPT-4o的9.22)
典型失败案例
- 复杂光影场景：模型可能过度提亮阴影区域
- 抽象指令："营造梦幻感"需多次迭代调整
根本原因：缺乏实时视觉反馈的"顿悟时刻"（对比数学推理的逐步验证）

结论与未来方向

核心贡献：
1. 首创艺术家代理范式：实现人类创意与专业工具的无缝协作
2. 三维奖励强化学习：解决工具调用决策的稀疏奖励问题
3. A2L工业协议：为AI+专业软件集成设立标准
应用价值：
- 摄影爱好者：低成本获得专业级修图效果
- 设计行业：加速商业图片后期流程
- 技术启示：为AI代理操作复杂软件（如CAD/3D建模）提供蓝图
愿景：让AI成为人类创造力的"加速器"，而非替代者。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla