【论文阅读笔记】What does CLIP know about a red circle? Visual prompt engineering for VLMs

大规模视觉语言模型（例如 CLIP）学习了强大的图像文本表示，这些表示已在从零样本分类到文本到图像生成等众多应用中得到应用。尽管如此，它们通过提示解决新型判别任务的能力仍落后于大型语言模型（例如 GPT-3）。在这里，我们探索了视觉提示工程的想法，通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。具体来说，我们发现了 CLIP 的一项新兴能力，只需在对象周围画一个红色圆圈，我们就可

2301_77141825

764人浏览 · 2025-02-13 19:46:16

2301_77141825 · 2025-02-13 19:46:16 发布

动机

视觉语言模型通过提示解决判别任务的能力落后于大型语言模型，因此本文探索了一种视觉提示工程的思想，通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务

创新点

提出了一种视觉提示工程的方法，并探讨了大型语言-视觉模型存在的一些潜在的伦理问题。

摘要

大规模视觉语言模型（例如 CLIP）学习了强大的图像文本表示，这些表示已在从零样本分类到文本到图像生成等众多应用中得到应用。尽管如此，它们通过提示解决新型判别任务的能力仍落后于大型语言模型（例如 GPT-3）。在这里，我们探索了视觉提示工程的想法，通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。具体来说，我们发现了 CLIP 的一项新兴能力，只需在对象周围画一个红色圆圈，我们就可以将模型的注意力引导到该区域，同时还可以保留全局信息。我们通过在零样本指称表达式理解中实现最先进的水平和在关键点定位任务中的出色表现，展示了这种简单方法的强大功能。最后，我们提请大家注意大型语言视觉模型的一些潜在道德问题。

1.引言

第一段：介绍大语言模型的强大功能（零样本领域）

第二段：介绍大规模视觉-语言模型（如clip）具备的能力

第三段：介绍对VLMs模型进行提示，文本提示工程和视觉提示工程，其中，视觉提示工程能够表达更多位置等空间属性

第四段：因此，本文提出了一种视觉提示工程，介绍本文的两个目的（第一个目标是贡献一个更实用的工具，以零样本方式从 VLM 中提取有用的信息；第二个目标是描述VLM 及其训练数据的有趣且意外属性，包括识别一些可能引发道德问题的行为）

第五段：介绍本文最令人惊讶的一项发现：一种特定类型的视觉提示的有效性（在图像上方绘制一个纯红色圆圈）注意：用圆圈提示也适用于更细粒度的定位，标记特定的对象部分或关键点，而不仅仅是整个对象

第六段：对比标记与裁剪两种方法的有效性

第七段：我们通过实证研究证明，在众多可能的标记（圆圈、方框、箭头等的变体）中，用红色圆圈标记是最佳选择。（VLM 可以理解红色圆圈，可能是因为它们在训练语料库（即互联网）中出现的频率足够高——如果想要使用它，要考虑这一点，即是否会有效）

第八段：我们测试了不同尺寸/容量的模型，并表明只有较大的模型才能可靠地表现出这种行为

第九段：红色圆圈在训练数据中可能具有负面含义，因此视觉提示工程也会引发不良行为

2.相关工作

主要介绍了大语言模型与大规模视觉-语言与训练模型、REC任务、提示VLMs、无监督REC任务、使用大型预训练模型进行视觉推理

3.方法

本文通过三个任务来研究基于标记的视觉提示工程：命名关键点、定位关键点、REC任务

【没看懂的地方】首先，怎么生成视觉提示工程的？？？好像没看到有写；其次，为什么有的又包括了边界框，这不是零样本吗？？

【注意】传统的视觉提示的方法是围绕所需位置裁剪图像；而本文的方法是在图像上做标记，直观地指示需要的位置

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla