多模态大模型Detect Anything量化坐标设计思路

本文仅看Rex-Omni中关于坐标量化的思路。Rex-Omni 的核心思路是：将 “连续坐标回归” 转化为 MLLM 擅长的 “离散 token 预测任务”。因此，任务目标就是让 MLLM “能懂坐标”。

余俊晖

472人浏览 · 2025-12-06 16:16:03

余俊晖 · 2025-12-06 16:16:03 发布

本文仅看Rex-Omni中关于坐标量化的思路。

Detect Anything via Next Point Prediction,https://arxiv.org/abs/2510.12798

检测器在定位方面表现优异，但缺乏语言理解能力。多模态大模型（MLLMs）语言理解能力较强，但在定位方面存在困难。2）检测器与多模态大模型（MLLMs）在最优化难度上的差异

Rex-Omni 的核心思路是：将 “连续坐标回归” 转化为 MLLM 擅长的 “离散 token 预测任务”。因此，任务目标就是让 MLLM “能懂坐标”。

直接坐标预测策略

使用由特殊 token 表示的量化相对坐标格式，以实现高效且稳健的空间编码

具体做法：

坐标量化：将图像坐标系的连续坐标（通常图像尺寸归一化后为0_{1）离散化为**0}999的整数范围**。例如，某目标框左上角x坐标为0.321，量化后为321；右下角y坐标为0.876，量化后为876。
- 量化粒度（1000级）的选择：平衡“精度”与“学习难度”——粒度太粗会导致框不准，太细会增加token数量（降低效率），1000级在实验中被验证为最优。
特殊token表示坐标：为每个量化后的坐标值（0~999）分配一个专属的特殊token（而非用普通文本token拼接，如“3”“2”“1”表示321）。例如：
- 量化坐标“321”对应特殊token <321>；
- 目标框的4个坐标（x1,y1,x2,y2）=（10,20,40,100）被表示为<x1> <y1> <x2> <y2>=（<10><20><40><100>）的token序列。
任务转化为“下一个token预测”：将目标检测任务融入MLLM的核心范式——“序列生成”。例如，输入“检测图像中的猫”，模型需生成“猫 <123> <456> <789> <901>”的序列，其中后4个特殊token即对应猫的目标框。如果是定位文字轮廓（需要多边形），就输出更多符号，比如<10><5><20><5><20><15><10><15>；如果是标点（比如杯子把手），就输出 2 个符号<80><60>。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla