MiMo-VL 技术报告
小米开源视觉语言模型MiMo-VL-7B取得突破性进展 小米团队近日开源了MiMo-VL-7B系列视觉语言模型,包含SFT和RL两个版本,在多项基准测试中表现优异。该模型通过四阶段预训练(2.4万亿token)和混合策略强化学习(MORL)方法训练而成,在40项评估任务中有35项超越Qwen2.5-VL-7B。特别在GUI定位任务中,MiMo-VL-7B-RL以56.1的成绩创下OSWorld-G
LLM-Core 小米
摘要
我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这是两个功能强大的视觉语言模型,在通用视觉理解和多模态推理方面均达到最先进的性能。MiMo-VL-7B-RL 在40个评估任务中有35个优于 Qwen2.5-VL-7B,并在 OlympiadBench 上得分为59.4,超过了参数量高达780亿的模型。对于GUI定位应用,它在OSWorld-G上以56.1的成绩树立了新标准,甚至超越了如UI-TARS等专用模型。我们的训练结合了四阶段预训练(2.4万亿token)和混合策略强化学习(MORL),整合了多样化的奖励信号。我们发现将高质量的长链式思维推理数据纳入预训练阶段的重要性,以及尽管存在同时多领域优化的挑战,混合强化学习仍具优势。此外,我们提供了一个涵盖50多个任务的全面评估套件,以促进可重复性并推动该领域的发展。模型检查点和完整评估套件请访问https://github.com/XiaomiMiMo/MiMo-VL。

图 1 MiMo-VL-7B 的基准性能
目录
1 引言 … 4
2 预训练 … 5
2.1 架构 … 5
2.2 预训练数据 … 6
2.2.1 图像描述数据 … 6
2.2.2 混排数据 … 7
2.2.3 OCR和定位数据 … 7
2.2.4 视频数据 … 7
2.2.5 图形用户界面数据 … 8
2.2.6 合成推理数据 … 8
2.3 预训练阶段 … 8
3 后续训练 … 9
3.1 可验证奖励下的强化学习 … 9
3.2 基于人类反馈的强化学习 … 10
3.3 混合策略强化学习 … 11
4 评估 … 12
4.1 评估设置 … 12
4.2 一般能力 … 12
4.3 推理任务 … 12
4.4 GUI任务 … 14
4.5 Elo评分 … 16
5 讨论 … 16
5.1 预训练中提升推理能力 … 16
5.2 策略强化学习与普通GRPO … 17
5.3 RL任务之间的干扰 … 17
6 案例研究 … 17
7 结论 … 20
A 贡献与致谢 … 26
B MiMo-VL-7B 的模型配置 … 27
C 评估基准 … 27
D GUI动作空间 … 28
E 更多定性示例 … 28
引言
视觉语言模型(VLMs)已成为多模态AI系统的基础骨干,使自主代理能够感知视觉世界、推理多模态内容(Yue et al., 2024b),并与数字(Xie et al., 2024; OpenAI, 2025)和物理环境(Zitkovich et al., 2023; Black et al., 2024)互动。这些能力的重要性促使人们从多个维度进行了广泛的探索,包括新颖的架构设计(Alayrac et al., 2022; Team, 2024; Ye et al., 2025)和创新的训练方法及优化的数据配方(Karamcheti et al., 2024; Dai et al., 2024),从而推动了该领域的快速发展(Liu et al., 2023; Tong et al., 2024; Bai et al., 2025a)。
在本报告中,我们分享了构建紧凑但强大VLM——MiMo-VL-7B的努力。MiMo-VL-7B包含三个组件:(1)保留细粒度视觉细节的原生分辨率视觉变换器(ViT)编码器;(2)用于高效跨模态对齐的多层感知机(MLP)投影器;(3)专为复杂推理任务优化的MiMo-7B(Xiaomi, 2025)语言模型。
MiMo-VL-7B的开发涉及两个连续的训练过程:(1)四阶段预训练阶段,包括投影器热身、视觉语言对齐、通用多模态预训练和长上下文监督微调(SFT)。在整个阶段中,我们通过战略性地结合开源集合与合成数据生成技术来策划高质量数据集,消耗了2.4万亿token,并根据不同阶段调整数据集分布以促进训练。这一阶段产生了MiMo-VL-7B-SFT模型。(2)随后的后续训练阶段,我们引入了混合策略强化学习(MORL),这是一种新型框架,无缝整合了多种奖励信号,涵盖感知准确性、视觉定位精度、逻辑推理能力和人类偏好。我们采用GRPO(Shao et al., 2024)的理念,并在此阶段仅执行策略梯度更新以增强训练稳定性。这一阶段产生了MiMo-VL-7B-RL模型。
在此过程中,我们发现:
(1)从预训练阶段就纳入高质量、广覆盖的推理数据对于提高模型性能至关重要。在“思考”模型的时代,大量多模态预训练数据正经历重大重新评估。传统的问答(QA)数据由于其直接且简短的答案,往往限制模型进行表面模式匹配并导致过拟合。相比之下,具有长链式思维(CoT)的合成推理数据能够学习复杂的逻辑关系和可泛化的推理模式,提供了更丰富的监督信号,显著提高了性能和训练效率。为了利用这一优势,我们通过识别多样化查询、使用大型推理模型再生具有长链式思维的回答,并应用拒绝采样确保质量来策划高质量推理数据。此外,我们不是将其作为补充微调数据处理,而是将大量此类合成推理数据直接纳入后期预训练阶段,在扩展训练下继续获得持续性能改进而不会饱和。
(2)混合策略强化学习进一步提升了模型性能,而实现稳定的同时改进仍然具有挑战性。我们在各种能力上应用强化学习,包括推理、感知、定位和人类偏好对齐,涵盖文本、图像和视频等模态。虽然这种混合训练方法进一步释放了模型潜力,但不同数据域之间仍存在干扰。响应长度增长趋势和任务难度水平的差异阻碍了所有能力上的稳定同时改进。
MiMo-VL-7B-RL在全范围多模态能力上表现出色。(1)在基础视觉感知任务上,它在同类规模的开源VLM中表现最佳,在MMMU(Yue et al., 2024b)上得分66.7,并在40个评估任务中的35个上超过Qwen2.5-VL-7B(Bai et al., 2025a)。(2)在复杂多模态推理方面,MiMo-VL-7B-RL表现出色,在OlympiadBench(He et al., 2024)上得分为59.4,并超过高达720亿参数的模型。(3)在面向代理应用的GUI定位方面,我们的模型在OSWorld-G(Xie et al., 2025)上得分为54.7,甚至超过了如UI-TARS(Qin et al., 2025b)等专用模型。(4)在用户体验和偏好方面,MiMo-VL-7B-RL在我司内部用户偏好评估中所有开源VLM中Elo评分最高,与Claude 3.7 Sonnet等专有模型竞争激烈。
这些结果验证了我们的方法:通过我们的MORL框架将强感知、复杂推理和精确定位能力相结合,MiMo-VL-7B-SFT和MiMo-VL-7B-RL建立了开源视觉语言模型的新标准。为了促进透明性和可重复性,我们还贡献了一个涵盖50+任务的综合评估套件,包括完整的提示和协议,使社区能够在我们的工作基础上继续发展。
预训练
在本节中,我们将介绍MiMo-VL-7B的架构设计,接着是预训练阶段的数据整理过程和训练方案。
架构
MiMo-VL-7B由三部分组成:(1)用于编码图像和视频等视觉输入的视觉变换器(ViT);(2)将视觉编码映射到与大语言模型(LLM)对齐的潜在空间的投影器;(3)执行文本理解和推理的LLM本身。为了支持原生分辨率输入,我们采用了Qwen2.5-ViT(Bai et al., 2025a)作为我们的视觉编码器。我们使用MiMo-7B-Base(Xiaomi, 2025)初始化LLM主干以利用其强大的推理能力,并使用随机初始化的多层感知机(MLP)作为投影器。整体架构如图2所示,模型配置可在附录B中找到。
| 阶段 | 第一阶段 | 第二阶段 | 第三阶段 | 第四阶段 |
|---|---|---|---|---|
| 目的 | 投影器热身 | 视觉-语言对齐 | 多模态预训练 | 长上下文SFT |
| 数据集 | 图像-标题对 | +++ 混排数据 |
+++ 纯文本、OCR、定位、QA、视频、GUI、指令数据、推理数据 |
+++ 长纯文本、长文档、高分辨率图像、扩展视频、长推理数据 |
| 学习率 训练tokens 序列长度 可训练组件 | 1e−31 \mathrm{e}-31e−3 300 B 8 K 投影器 | 1e−4,1e−51 \mathrm{e}-4,1 \mathrm{e}-51e−4,1e−5 167 B 8 K ViT, 投影器 | 1e−51 \mathrm{e}-51e−5 1.4 T 8 K 所有 | 2.5e−52.5 \mathrm{e}-52.5e−5 550B 32 K 所有 |
表 1 MiMo-VL-7B 训练阶段概述。
图 2 MiMo-VL-7B 模型架构。
预训练数据
MiMo-VL-7B预训练数据集包含2.4万亿token的高质量、多样化多模态数据,涵盖图像、视频和文本。这个全面的数据集包括通用图像描述、混排数据、光学字符识别(OCR)数据、定位数据、视频内容、GUI交互、推理示例和纯文本序列。
为了确保每种数据模态的质量,我们实施了专门针对每种数据类型特征的数据整理流程。在整个训练过程中,我们系统地调整不同训练阶段中各种数据模态的比例,以优化训练效率和模型稳定性。此外,我们采用基于phash的图像去重技术,消除训练数据集与评估基准之间的潜在重叠,从而最小化数据污染。
我们在以下各节中详细介绍了每种数据类型的特定处理程序。
图像描述数据
我们的图像描述数据集建设是一个多阶段过程,旨在确保高质量和分布平衡。我们首先从网络来源聚合大量公开可用的描述数据。这个初始语料库然后经过严格的去重阶段,使用图像感知哈希(phash)结合文本过滤,以产生一个精炼的独特原始描述集。
随后,利用图像和它们的原始文本描述作为先验,我们使用一个专门的描述模型对整个原始描述数据集进行重新描述。重新描述后,我们根据语言一致性和重复模式对生成的描述进行过滤机制,以确保重新描述文本的质量。为了解决固有的数据不平衡问题,我们采用了MetaCLIP(Xu et al., 2023)的方法,该方法涉及构建新的双语(中文和英文)元数据。这一步骤对于细化描述分布至关重要,从而减少高频条目的过度表示并减少数据噪声。
这一细致过程的最终结果是一个平衡、高质量且多样化的描述数据集。重要的是,我们观察到,这个丰富的数据集显著增强了模型的泛化能力和定性性能,提供了现有专业基准评估中不总是完全反映的优势。
混排数据
我们从多种来源(包括网页、书籍和学术论文)汇编了一个广泛的混排图文数据集。对于来自书籍和论文的内容,我们使用先进的PDF解析工具包进行内容提取和清洗。过滤过程优先保留富含世界知识的数据类型,例如教科书、百科全书、手册、指南、专利和传记。在这个混排数据集中,文本段落根据包括知识密度和可读性在内的指标进行评估。对于视觉组件,我们实施过滤器以排除尺寸过小、异常纵横比、不安全内容以及视觉信息最少的图像(例如装饰性的章节标题和插图)。最后,图文对根据相关性、互补性和信息密度的平衡进行评分,确保保留高质量数据。这个精心策划的数据集显著增强了模型的知识库,从而为其后续推理能力奠定了坚实的基础。
OCR和定位数据
为了增强模型在OCR和对象定位方面的能力,我们从开源数据集中汇编了一个广泛的OCR和定位数据集用于预训练。
对于OCR数据,图像涵盖了文件、表格、一般场景、产品包装和数学公式的多样文本内容。为了增加学习难度,除了标准印刷文本外,我们特别包含了含有手写文本、字体变形文本和模糊/遮挡文本的图像,从而提高模型的识别性能和鲁棒性。对于这部分数据,文本区域用边界框标注,使模型能够同时预测这些位置。
对于定位数据,我们的图像包括单一和多个物体的场景。我们通过在定位提示中使用复杂的物体表达式来进一步提高模型理解复杂指代意图的能力。在所有涉及定位的场景中,我们使用绝对坐标进行表示。
视频数据
我们的视频数据集主要来自公开可用的在线视频,涵盖广泛的不同领域、类型和时长。基于这些视频,我们设计了一个视频再描述管道,产生密集、细粒度的事件级描述。每个描述都带有精确的开始和结束时间戳,使模型能够发展出具有时间意识的一般视频感知能力。从描述数据集中,我们进一步收集了一组具有事件持续时间平衡分布的数据用于时间定位预训练。我们还收集了视频分析数据,总结视频的全局语义,如叙事结构、风格元素和隐含意图。这些分析段落使模型能够掌握深入的视频理解和扩展的世界知识。为了增强模型的对话连贯性,我们收集了关于视频的各种和挑战性的问题,并合成了相应的回答。我们还纳入开源的视频描述和对话数据集,以进一步丰富我们的视频预训练数据。
图形用户界面数据
为了增强模型在导航图形用户界面(GUI)方面的能力,我们收集了涵盖所有平台(如移动设备、网页和桌面)的开源预训练数据。还设计了一个合成数据引擎来弥补开源数据的局限性并加强模型的具体能力。例如,我们构建了大量的中文GUI数据,使模型能够更好地处理中文GUI场景。
对于GUI定位,我们收集了元素定位和指令定位的数据。元素定位训练模型根据文本描述精确定位界面元素,建立静态用户界面的强大感知。指令定位要求模型根据用户指令在屏幕截图中识别目标对象,增强对GUI交互逻辑的理解。为此部分,我们还引入了一个预训练任务,即根据前后屏幕截图预测中间动作。实证证据表明,这种方法显著提高了模型对GUI界面的动态感知。
对于GUI操作,我们收集了大量长GUI操作轨迹。为了确保不同平台的一致性,我们将来自移动设备、网页和桌面环境的操作统一到标准化的动作空间中。此动作空间的详细规范见附录D。这种协调防止了动作冲突,同时保持了平台特定的功能。
合成推理数据
我们的合成推理数据生成方法始于对开源问题的全面整理。这一多样化的集合涵盖了感知问答、文档问答、视频问答和视觉推理任务,并辅以来自网络内容和文学作品的问题-答案对。
在对这些源问题进行初步筛选后,我们利用一个大型推理模型生成包含明确推理的答案。我们方法的核心是严格、多阶段的质量控制。除了验证答案的事实正确性外,我们还对推理过程本身应用严格的过滤标准,评估思路清晰度,消除冗余,并确保格式一致。
由此产生的高保真数据集在赋能我们的模型方面发挥了关键作用。它促进了MiMo-7B-Base(Xiaomi, 2025)内在推理能力的有效继承,使其顺利转移到多模态环境中。因此,我们的模型能够在各种领域展现出强大而多样的多模态推理能力。
预训练阶段
我们的模型经历了四个预训练阶段,如表1所示:
阶段1:我们冻结ViT和LLM组件,并使用图像-描述对预热随机初始化的投影器。这确保了投影器学会有效地将视觉概念映射到语言模型的表示空间,为后续训练阶段提供信息丰富的梯度信号,而不是从未良好对齐的投影器中获得的噪声更新。
阶段2:解冻ViT,并引入混排数据以进一步加强视觉-语言对齐。混排数据中包含的复杂和多样化图像增强了ViT的性能和鲁棒性。
阶段3:在此阶段,所有参数均可训练。我们引入更多样化的数据和任务,包括OCR、定位、视频和GUI数据,累计达1.4万亿token,以增强模型的一般多模态能力。为了确保中期评估监控的稳定性,我们加入少量QA、指令遵循和推理数据。此外,使用有限的纯文本数据以保持MiMo-7BBase的文本能力。
阶段4:此阶段致力于增强模型对长上下文输入的适应能力。训练序列长度从8K扩展到32K token。我们引入额外的数据类型,如长纯文本、高分辨率图像、长文档、扩展视频和长推理数据,以增强其长上下文处理能力。随着长上下文打包显著增加有效批次大小,学习率从1e-5调整到2.5e-5。相对于阶段3,此阶段明显增加了推理数据的比例,并引入了长形式的推理模式。
这四个阶段创建了一个强大的模型,MiMo-VL-7B-SFT。特别是强调阶段4,模型的推理能力得以充分实现,使其能够解决高度复杂的STEM问题。这种高级推理能力也有效地推广到了常见的感知任务。因此,我们的模型在各种下游基准测试中表现出极高的性能。
后续训练
在预训练建立的视觉感知能力和多模态推理的基础上,我们进行了后续训练以进一步增强MiMo-VL-7B。我们的方法采用了一种新颖的混合策略强化学习(MORL)框架,无缝集成了基于可验证奖励的强化学习(RLVR)(Shao et al., 2024; Lambert et al., 2025)与基于人类反馈的强化学习(RLHF)(Ouyang et al., 2022),以改善MiMo-VL-7B在挑战性推理任务和与人类偏好的对齐方面的表现。
基于可验证奖励的强化学习
RLVR仅依赖于基于规则的奖励函数,使模型能够自我持续改进。在MiMo-VL-7B的后续训练中,我们设计了多个可验证的推理和感知任务,其中最终解决方案可以通过预定义规则精确验证。
视觉推理 视觉推理能力是多模态模型理解和解决需要视觉感知和逻辑思维的复杂问题的基本能力。为了促进这种能力,我们从开源社区和专有K-12收藏中汇编了多样化的可验证STEM问题。一个LLM被提示过滤基于证明的问题,并将带有数值或符号答案的多项选择题改写成自由回答格式,以减轻潜在的奖励黑客行为。我们进一步通过全面的基于模型的难度评估来完善问题质量,排除那些高级VLM无法解决或太容易的问题,MiMo-VL-7B滚动通过率超过90%。此外,我们排除了即使没有图像输入也能解决的问题。经过数据清洗和类别平衡后,我们整理了一个包含8万个问题的视觉推理数据集。在评估时,我们使用基于规则的Math-Verify库来确定回答的正确性。1{ }^{1}1
文本推理 由于大多数视觉推理数据仅限于K-12级别的问题,RL训练模型的推理性能可能会受到限制。相比之下,纯文本推理数据集包含需要大学或竞赛级别智能的更具挑战性的问题。为了释放模型的全部推理潜力,我们纳入了小米(2025)的数学推理数据。奖励使用相同的基于规则的Math-Verify库计算,以确保在视觉和文本推理任务中的评估一致性。
图像定位 准确的空间定位对于模型理解图像中的物体关系和空间推理至关重要。我们在RLVR框架中包含通用和GUI定位任务,以增强MiMo-VL-7B的定位能力。对于边界框预测,奖励是根据预测框和真实框之间的广义交并比(GIoU)(Rezatofighi et al., 2019)计算的。对于点样式输出,奖励取决于预测点是否落在真实边界框内。
视觉计数 精确的计数能力对于定量视觉理解和视觉背景下的数学推理至关重要(Chen et al., 2025a)。我们通过RL训练增强视觉计数能力,其中奖励定义为模型计数预测与真实计数的准确性。
时态视频定位 除了静态图像理解和推理之外,我们将RLVR框架扩展到动态视频内容,以捕捉时间依赖性。我们纳入时态视频定位任务,要求模型定位与自然语言查询对应的视频片段(Wang et al., 2025)。模型输出[mm:ss, mm:ss]格式的时间戳以指示目标视频片段的起始和结束时间。奖励是根据预测和真实时间片段之间的交并比(IoU)计算的。
基于人类反馈的强化学习
为了使模型输出与人类偏好对齐并减轻不良行为,我们采用基于人类反馈的强化学习(RLHF)作为我们可验证奖励框架的补充方法。
查询收集 查询多样性对于RLHF的成功至关重要。我们的方法始于从开源指令调优数据集和内部人工编写来源中收集多模态和纯文本查询。所有收集到的查询,无论是文本还是多模态,随后都会经过专门的筛选过程。为进一步增强多样性,我们采用基于嵌入聚类查询和技术分析生成模式的方法。至关重要的是,我们在最终查询集中平衡中文和英文查询的比例,以及针对有用性和无害性的查询比例。对于每个选定的查询,MiMo-VL-7B和其他多个顶级VLM会生成响应。这些响应随后由一个先进的VLM进行配对排名,以构建用于奖励模型训练的最终数据集。值得注意的是,为了避免潜在的奖励黑客行为,同一查询集既用于奖励模型训练也用于RLHF过程。
奖励模型 我们开发了两种专门针对不同输入模态的奖励模型,使用Bradley-Terry奖励建模目标(Ouyang et al., 2022)进行训练。纯文本奖励模型从MiMo-7B(Xiaomi, 2025)初始化,以利用其强大的语言理解能力,而多模态奖励模型则基于MiMo-VL-7B,以有效处理包含视觉输入的查询。这种双模型方法确保了在纯文本和多模态评估场景中的最佳性能。
混合策略强化学习
在MiMo-VL-7B的后续训练阶段,我们实施混合策略强化学习(MORL)以同时优化RLVR和RLHF目标。如图3所示,我们在verl框架(Sheng et al., 2024)内集成基于规则和基于模型的奖励作为统一服务,并通过Seamless Rollout Engine(Xiaomi, 2025)增强。
策略RL配方 我们采用一种完全策略变体的GRPO(Shao et al., 2024)作为RL算法,该算法展示了稳健的训练稳定性和有效的探索能力(Chen et al., 2025b)。对于每个问题qqq,该算法从策略πθ\pi_{\theta}πθ中采样一组响应{o1,o2,…,oG}\left\{o_{1}, o_{2}, \ldots, o_{G}\right\}{o1,o2,…,oG},并通过最大化以下目标来更新策略:
HGRPO (θ)=Eq∼D,{oi}i=1G∼πθ(⋅∣q)[1∑i=1G∣oi∣∑i=1G∑j=1∣oi∣Ai,j] \mathcal{H}_{\text {GRPO }}(\theta)=\mathbb{E}_{q \sim D,\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta}(\cdot \mid q)}\left[\frac{1}{\sum_{i=1}^{G}\left|o_{i}\right|} \sum_{i=1}^{G} \sum_{j=1}^{\left|o_{i}\right|} A_{i, j}\right] HGRPO (θ)=Eq∼D,{oi}i=1G∼πθ(⋅∣q) ∑i=1G∣oi∣1i=1∑Gj=1∑∣oi∣Ai,j
其中 Ai,jA_{i, j}Ai,j 是优势,由同一组响应的奖励 {r1,r2,…,rG}\left\{r_{1}, r_{2}, \ldots, r_{G}\right\}{r1,r2,…,rG} 计算得出:
Ai,j=ri−mean({ri}i=1G)std({ri}i=1G) A_{i, j}=\frac{r_{i}-\operatorname{mean}\left(\left\{r_{i}\right\}_{i=1}^{G}\right)}{\operatorname{std}\left(\left\{r_{i}\right\}_{i=1}^{G}\right)} Ai,j=std({ri}i=1G)ri−mean({ri}i=1G)
与普通的 GRPO 相比,这种策略变体在响应展开后执行单步策略更新,消除了剪裁代理训练目标的需求。按照 Xiaomi (2025) 的方法,我们在 RL 训练方案中整合了若干改进措施,包括去除 RL 损失、动态采样、简单数据过滤和重新采样策略。
奖励即服务 MORL 过程整合了推理、感知、定位、多模态 RLHF 和纯文本 RLHF 等任务,每种任务都需要不同的奖励函数或专用奖励模型。为了提供统一接口并实现接近零延迟的奖励计算,我们引入了奖励即服务 (RaaS)。奖励路由器根据查询的任务类型动态选择适当的奖励函数。为了最小化延迟,奖励模型部署为独立的服务,确保可通过 HTTP 访问的可扩展奖励计算。所有奖励都归一化到范围 [0,1][0,1][0,1]。在我们的训练过程中,不添加其他奖励,例如格式奖励。
评估
我们评估了 MiMo-VL-7B 在 50 个任务上的表现,以全面评估其能力。附录 C 列出了我们评估中采用的所有基准。我们还使用内部评估集评估模型性能。
评估设置
对于图像理解基准,我们将输入图像的最大像素设置为 4096×28×284096 \times 28 \times 284096×28×28,最大生成 token 数设置为 32,768,使用贪婪搜索进行解码。对于视频基准,视频以 2 FPS 采样,最多 256 帧,总 token 限制为 16,384。对于文本评估基准,我们将生成的最大新 token 数设置为 32,768,温度设置为 0.6,top-p 设置为 0.95。我们基于 LMMs-Eval (Zhang et al., 2024a) 改进现有框架,以更好地适应长 CoT 推理模型。我们进一步优化特定任务的评估逻辑,以确保更好的评估一致性。为了促进开放研究,我们开源了使用的全部提示的评估框架。 2{ }^{2}2
一般能力
表 2 展示了评估 VLM 一般能力的基准结果。我们的 MiMo-VL-7B 模型在各种视觉语言和文本基准上始终表现出领先的性能,确立了开源模型中的新最先进水平,甚至超过了专有模型。
具体而言,我们的 MiMo-VL-7B 模型在开源模型中取得了最先进的结果。MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 分别在 MMMU_val 上取得 64.6% 和 66.7%,超过了如 Gemma 327B 等更大的模型。在文档和图表理解方面,MiMo-VL-7B-RL 在 CharXiv_RQ 上取得了 56.5% 的顶尖开源分数,显著超过了 Qwen2.5-VL(42.5%)14.0 分和 InternVL3(37.6%)18.9 分。(ii) 我们的模型展示了卓越的视频理解能力,同时保持了强大的文本性能。MiMo-VL-SFT 在 Video-MMMU 上取得了领先的 53.1%,MiMo-VL-RL 在 Charades-STA 上取得了令人印象深刻的 50.0% mIoU。(iii) 相比 MiMo-7B,我们的模型在纯文本基准上保持了良好的性能。(iv) 显著的是,我们的 MoRL 在具有挑战性的基准上带来了全面的改进,尤其是在 VibeEval 和 CountBench 上获得了最显著的提升。
推理任务
表 3 展示了多模态和文本推理基准的评估结果。在多模态推理中,SFT 和 RL 模型显著优于所有比较的开源基线。值得注意的是,MiMo-VL-7B-SFT 超过了包括 Qwen2.5-VL-72B 和 QVQ-72B-Preview 在内的更大模型。RL 模型在大多数推理基准上进一步提升了性能。例如,MiMo-VL-7B-RL 将 MathVision 的准确率从 57.9% 提升到 60.4%。MiMo-VL-7B 模型在纯文本基准上也表现出令人印象深刻的推理能力,甚至超过了 Qwen2.5-72B。这些结果表明,我们的多模态预训练和后续训练方案有效地赋予了模型卓越的视觉能力和强大的文本智能。
GUI任务
此外,我们证明了MiMo-VL-7B模型具备出色的GUI理解和定位能力。在表2中,MiMo-VL-7B-RL在所有其他通用VLM中表现最好。在图4中,我们进一步将MiMo-VL-7B-RL与类似规模的GUI专用模型(UI-TARS-1.0(Qin et al., 2025a)、Aguvis(Xu et al., 2024)、OS-Atlas(Wu et al., 2024))在GUI理解(WebSrc、VisualWebBench)和定位(Screenspot、Screenspotv2、Screenspot-Pro、OSWorld-G)基准上进行了比较。作为一个通用VLM,MiMo-VL在这些基准上达到了与GUI专用模型相当甚至更好的性能,特别是在更具挑战性的Screenspot-Pro和OSWorld-G基准上。
Elo评分
受ChatbotArena(Zheng et al., 2023)的启发,我们构建了一个包含真实用户提示的平衡双语(中文和英文)内部评估数据集。这种方法超越了传统基准评分,提供了关于实际场景中模型性能的见解。
按照(Chou et al., 2024)的方法,我们进行了MiMo-VL-7B与领先专有模型和7B至72B参数范围的开源VLM之间的配对比较。我们基于GPT-4o判断计算Elo评分,并采用风格控制的评估协议。我们的评估涵盖了一系列视觉-语言任务,包括多模态推理、图像理解和GUI交互场景,因此可以很好地代表用户偏好。
如图5所示,MiMo-VL-7B-RL在所有评估的开源VLM中Elo评分最高,在7B至72B参数范围的模型中排名第一。这表明我们的模型在评估集上的用户体验优越,其性能接近专有模型如Claude 3.7 Sonnet。此外,MORL为MiMo-VL-7B-SFT带来了22分以上的提升。这些结果突显了我们模型的竞争能力,并验证了我们训练方法的有效性。
讨论
提升预训练中的推理能力
图6显示了MiMo-VL-7B-SFT在第四阶段的表现,这是其最终的预训练阶段。在这个阶段,大量的合成长形式推理数据被纳入,模型性能显著提升,例如MMMU上+9,OSWorld-G上+14,OlympiadBench上+16。值得注意的是,模型性能持续提升而没有饱和。这些改进归因于模型推理深度的增加。例如,在MMMU上,模型的平均响应token数量从680增加到每题2.5K,表明在解决问题时更加详细和深入的推理。
策略RL与普通GRPO的对比
我们探讨了策略RL与普通GRPO在纯文本推理任务中的优势。如图7所示,策略算法在训练数据量和性能评分之间表现出一致的正相关。其学习曲线在观察的训练窗口内没有显示出饱和迹象,表明通过更多的计算资源和数据还有进一步提升的潜力。相反,普通GRPO算法最初表现出更高的样本效率,在训练早期实现了稳健的性能。然而,这种优势是短暂的。该算法的性能通常在约20,000个训练样本时达到饱和,之后进一步训练几乎没有改进。
RL任务间的干扰
尽管MORL训练几乎在所有评估任务上都提升了性能,但在不同任务领域实现稳定且同时的改进仍然是一个重大挑战。在训练过程中,我们观察到推理任务与视觉感知和定位任务(如视觉定位和计数)之间存在差异,使得难以匹配单个任务上单独RL的性能。
潜在原因在于响应长度的增长趋势相反:推理任务在RL过程中鼓励更长的CoT,而定位和计数任务导致较短的响应。任务难度的差异和奖励黑客的风险也可能导致这种干扰。我们正在积极研究这种现象的根本原因,并寻求解决方案,以在所有任务上实现持续稳定的增长。
案例研究
我们在图8和附录E中展示了定性结果。如图8顶部的例子所示,我们的模型展示了强大的情节理解能力,成功地将一个复杂的图表转换为结构良好的Markdown表格。此外,我们突出了模型在STEM任务中的卓越推理能力。在图10和图13所示的例子中,模型在一个响应中有效解决了多个STEM问题。此外,我们的模型展示了强大的代理能力。如图9所示,MiMo-VL-7B成功导航网站,将小米SU7加入心愿单,并定制了油漆和内饰选项。
结论
在本报告中,我们分享了构建MiMo-VL-7B模型的努力。利用策划的高质量预训练数据集和我们的MORL框架,MiMo-VL-7B-SFT和MiMo-VL-7B-RL在评估的基准测试中表现出最先进的性能。我们分享了开发过程中的关键观察:将推理数据纳入后期预训练阶段带来的持续性能提升,策略RL相较于普通GRPO的优势,以及在不同能力上应用MORL时遇到的任务干扰挑战。随着发布的模型检查点,我们开源了我们的综合评估套件,以促进多模态研究的透明性和可重复性。我们希望我们的工作能推动有能力的开源视觉语言模型的发展,并为社区提供宝贵的见解。
参考文献
J. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds, R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. L. Menick, S. Borgeaud, A. Brock, A. Nematzadeh, S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for few-shot learning. In NeurIPS, 2022.
S. Bai, K. Chen, X. Liu, J. Wang, W. Ge, S. Song, K. Dang, P. Wang, S. Wang, J. Tang, H. Zhong, Y. Zhu, M. Yang, Z. Li, J. Wan, P. Wang, W. Ding, Z. Fu, Y. Xu, J. Ye, X. Zhang, T. Xie, Z. Cheng, H. Zhang, Z. Yang, H. Xu, and J. Lin. Qwen2.5-vl technical report. arXiv preprint arXiv:2502.13923, 2025a.
S. Bai, K. Chen, X. Liu, J. Wang, W. Ge, S. Song, K. Dang, P. Wang, S. Wang, J. Tang, et al. Qwen2.5-vl technical report. arXiv preprint arXiv:2502.13923, 2025b.
K. Black, N. Brown, D. Driess, A. Esmail, M. Equi, C. Finn, N. Fusai, L. Groom, K. Hausman, B. Ichter, S. Jakubczak, T. Jones, L. Ke, S. Levine, A. Li-Bell, M. Mothukuri, S. Nair, K. Pertsch, L. X. Shi, J. Tanner, Q. Vuong, A. Walling, H. Wang, and U. Zhilinsky. π0: A vision-language-action flow model for general robot control. ArXiv, abs/2410.24164, 2024. URL https://api.semanticscholar.org/CorpusID:273811174.
L. Chen, L. Li, H. Zhao, Y. Song, and Vinci. R1-v: Reinforcing super generalization ability in vision-language models with less than $3. https://github.com/Deep-Agent/R1-V, 2025a. Accessed: 2025-02-02.
X. Chen, Z. Zhao, L. Chen, D. Zhang, J. Ji, A. Luo, Y. Xiong, and K. Yu. Websrc: a dataset for web-based structural reading comprehension. arXiv preprint arXiv:2101.09465, 2021.
Y. Chen, Z. Yang, Z. Liu, C. Lee, P. Xu, M. Shoeybi, B. Catanzaro, and W. Ping. Acereasonnemotron: Advancing math and code reasoning through reinforcement learning. arXiv preprint arXiv:2505.16400, 2025b.
K. Cheng, Q. Sun, Y. Chu, F. Xu, Y. Li, J. Zhang, and Z. Wu. Seeclick: Harnessing gui grounding for advanced visual gui agents. arXiv preprint arXiv:2401.10935, 2024.
C. Chou, L. Dunlap, K. Mashita, K. Mandal, T. Darrell, I. Stoica, J. Gonzalez, and W.-L. Chiang. Visionarena: 230k real world user-vlm conversations with preference labels. ArXiv, abs/2412.08687, 2024. URL https://api.semanticscholar.org/CorpusID: 274655992.
W. Dai, N. Lee, B. Wang, Z. Yang, Z. Liu, J. Barker, T. Rintamaki, M. Shoeybi, B. Catanzaro, and W. Ping. Nvlm: Open frontier-class multimodal llms. arXiv preprint, 2024.
M. Deitke, C. Clark, S. Lee, R. Tripathi, Y. Yang, J. S. Park, M. Salehi, N. Muennighoff, K. Lo, L. Soldaini, et al. Molmo and pixmo: Open weights and open data for state-of-the-art multimodal models. ArXiv preprint, abs/2409.17146, 2024.
X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al. Supergpqa: Scaling llm evaluation across 285 graduate disciplines. ArXiv preprint, abs/2502.14739, 2025. URL https://arxiv.org/abs/2502.14739.
D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, and M. Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In J. Burstein, C. Doran, and T. Solorio, editors, Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2368-2378, Minneapolis, Minnesota, 2019. Association for Computational Linguistics. doi: 10.18653/v1/N19-1246. URL https://aclanthology.org/N19-1246.
C. Fu, Y. Dai, Y. Luo, L. Li, S. Ren, R. Zhang, Z. Wang, C. Zhou, Y. Shen, M. Zhang, et al. Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075, 2024a.
X. Fu, Y. Hu, B. Li, Y. Feng, H. Wang, X. Lin, D. Roth, N. A. Smith, W.-C. Ma, and R. Krishna. Blink: Multimodal large language models can see but not perceive. In European Conference on Computer Vision, pages 148-166. Springer, 2024b.
J. Gao, C. Sun, Z. Yang, and R. Nevatia. Tall: Temporal activity localization via language query. In Proceedings of the IEEE international conference on computer vision, pages 5267-5275, 2017.
C. He, R. Luo, Y. Bai, S. Hu, Z. L. Thai, J. Shen, J. Hu, X. Han, Y. Huang, Y. Zhang, et al. Olympiadbench: A challenging benchmark for promoting agi with olympad-level bilingual multimodal scientific problems. arXiv preprint arXiv:2402.14008, 2024.
D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, and J. Steinhardt. Measuring mathematical problem solving with the math dataset. ArXiv preprint, abs/2103.03874, 2021. URL https://arxiv.org/abs/2103.03874.
P. Wu and S. Xie. V*: Guided visual search as a core mechanism in multimodal llms, 2023. URL https://arxiv.org/abs/2312.14135.
贡献与致谢
我们衷心感谢所有贡献者的宝贵支持和努力,包括小米LLM-Plus、Mify、MiChat和CloudML团队,以及本文未明确列出的其他人。每个角色中的作者按姓氏首字母倒序排列。
核心贡献者
岳子豪
林振儒
宋逸凡
王伟坤
任舒怀
顾树浩
李世诚
李沛典
赵亮
李磊
鲍凯南
田昊
张海林
王刚
朱大海
陈慈
何晨宏
叶博文
沈博威
贡献者
张子涵
姜子涵
郑志贤
宋志超
罗振波
余悦
王宇东
田元元
屠宇
颜毅寒
黄毅
王旭
徐欣哲
宋星臣
张兴
邓向伟
刘文雨
马文瀚
吕伟伟
庄维久
刘伟
邓思睿
刘硕
陈世茂
于士华
刘少辉
王善德
马瑞
王倩同
王鹏
陈诺
朱孟航
周康阳
周康
方开明
施俊
董金浩
肖杰宝
徐佳明
刘华求
许红申
渠恒
赵浩辰
吕杭龙
王国安
张铎
张东
张迪
马崇
刘畅
蔡灿
夏冰泉
MiMo-VL-7B 的模型配置
表 4 中详细列出了 MiMo-VL-7B 的架构和配置。
| 视觉编码器 | 语言模型 | |
|---|---|---|
| 层数 | 32 | 36 |
| 注意头数 | 16 | 32 |
| 隐藏大小 | 1280 | 4096 |
| 中间大小 | 3456 | 11008 |
| 位置嵌入 | 2D RoPE | MRoPE (Bai et al., 2025b) |
| 补丁大小 | 14 | - |
表 4 MiMo-VL-7B 的配置。我们采用 Qwen2.5-ViT (Bai et al., 2025a) 作为视觉编码器以支持原生分辨率输入,并采用 MiMo-7B-Base (Xiaomi, 2025) 作为语言模型主干以利用其强大的推理能力。与 Qwen2.5-VL-7B 的语言模型主干 (Bai et al., 2025a) 相比,我们的语言模型在层数 (36 vs. 28)、隐藏大小 (4096 vs. 3584) 和中间大小 (11008 vs. 18944) 方面有所不同。
评估基准
我们在 50 个多样化任务上评估了我们的模型,包括:
一般视觉理解 AI2D (Kembhavi et al., 2016),BLINK (Fu et al., 2024b)。CVBench (Tong et al., 2024),MMMU (Yue et al., 2024a),MMMU-Pro (Standard and Vision) (Yue et al., 2024c),Mantis (Jiang et al., 2024),MME-RealWorld (English and Chinese) (Zhang et al., 2024c),MMBench (English and Chinese) (Liu et al., 2024b),VibeEval (Padlewski et al., 2024),VLRewardBench (Li et al., 2024b),V* (Wu and Xie, 2023),以及 VLMs are Blind (Rahmanzadehgervi et al., 2025)。
一般定位和计数 RefCOCO (Yu et al., 2016; Nagaraja et al., 2016; Kazemzadeh et al., 2014),CountBench (Paiss et al., 2023),和 PixmoCount (Deitke et al., 2024)
文档和图表理解 ChartQA (Masry et al., 2022),InfographicVQA (Mathew et al., 2022),DocVQA (Mathew et al., 2021),OCRBench (Liu et al., 2024c),SEED-Bench-2-Plus (Li et al., 2024a),和 CharXiv (RQ/DQ) (Wang et al., 2024c)。
视频理解和定位 Video-MME (Fu et al., 2024a),Video-MMMU (Hu et al., 2025),EgoSchema (Mangalam et al., 2023),和 Charades-STA Gao et al. (2017)。
GUI理解和定位 WebSrc (Chen et al., 2021),VisualWebBench (Liu et al., 2024a),ScreenSpot (Cheng et al., 2024),ScreenSpot-V2 (Wu et al., 2024),ScreenSpot-Pro (Li et al., 2025),和 OSWorld-G (Xie et al., 2025)。
纯文本基准 GPQA (Rein et al., 2024),SuperGPQA (Du et al., 2025),DROP (Dua et al., 2019),MMLU-Pro (Wang et al., 2024b),和 IFEval (Zhou et al., 2023)。
多模态推理 OlympiadBench (He et al., 2024),MathVision (Wang et al., 2024a),MathVerse (Vision Only) (Zhang et al., 2024b),DynaMath (Zou et al., 2024),WeMath (Qiao et al., 2024),LogicVista (Xiao et al., 2024),和 MathVista (Lu et al., 2023)。
文本推理 MATH500 (Hendrycks et al., 2021),AIME 2024 (MAA, 2024),和 AIME 2025 (MAA, 2025)。
GUI动作空间
表5总结了GUI动作空间中每个动作的语法和定义。
| 点击 | 语法: {“action”:“click”,“start_point”:[x,y],“text”(选填):text} 定义: 在给定文本的元素上的(x, y)处点击。 |
|---|---|
| 滚动 | 语法: {“action”:“scroll”,“direction”:dir,“scroll_distance”(选填):dist} 定义: 按指定方向滚动指定距离。 注释: 向上/向下滚动 → 查看下方/上方更多信息。同样的逻辑适用于水平方向。 |
| 输入 | 语法: {“action”:“input”,“text”:text,“start_point”(选填):[x,y]} 定义: 在(x, y)处输入指定文本。 |
| 拖拽 | 语法: {“action”:“drag”,“start_point”:[x1,y1],“end_point”:[x2,y2]} 定义: 从起点拖拽到终点。 |
| 打开 | 语法: {“action”:“open”,“app”:app_name} 定义: 打开指定的应用程序 app_name。 |
| 按键 | 语法: {“action”:“press”,“keys”:[key1,key2,…]} 定义: 按指定的快捷键([key1, key2,…])。 |
| 完成 | 语法: {“action”:“finished”,“status”:status} 定义: 以给定状态标记任务完成。 |
| 长按 | 语法: {“action”:“longpress”,“start_point”:[x,y]} 定义: 在(x, y)处长按。 |
| 悬停 | 语法: {“action”:“hover”} 定义: 将鼠标悬停在某个位置上。 |
| 选择 | 语法: {“action”:“select”,“text”:text} 定义: 选择指定的文本。 |
| 等待 | 语法: {“action”:“wait”} 定义: 暂停片刻。 |
| 应用切换 | 语法: {“action”:“appswitch”,“app”:app_name} 定义: 切换到指定的应用程序 app_name。 |
表 5 动作空间详情。选填表示可选。
更多定性示例
输入图像:
指令:完成该试卷
MiMo-VL-7B: . . .
第1题:集合的交集 集合 A={0,1,2,8},B={−1,1,6,8}A=\{0,1,2,8\}, B=\{-1,1,6,8\}A={0,1,2,8},B={−1,1,6,8} ,交集为同时属于两个集合的元素,即 A∩B=A \cap B=A∩B= {1,8}\{1,8\}{1,8} 。
第2题:复数的实部 设 z=x+yi(x,yz=x+y i(x, yz=x+yi(x,y 为实数),由 i⋅z=1+2ii \cdot z=1+2 ii⋅z=1+2i ,即 i(x+yi)=−y+xi=1+2ii(x+y i)=-y+x i=1+2 ii(x+yi)=−y+xi=1+2i 。分离实部和虚部: −y=1-y=1−y=1 (实部), x=2x=2x=2 (虚部)。故 zzz 的实部为 2 。
第3题:茎叶图的平均数 茎叶图中,茎为十位,叶为个位。分数为 89,89,90,91,9189,89,90,91,9189,89,90,91,91 (共 5 个)。平均数为 89,89,90,91,9191=5919=90\frac{89,89,90,91,91}{91}=5 \frac{91}{9}=909189,89,90,91,91=5991=90 。
第4题:历代码的循环结果 初始化 I=1,S=1I=1, S=1I=1,S=1 。循环条件 I<6I<6I<6 :第 1 次循环: I=1+2=3,S=2×1=2I=1+2=3, S=2 \times 1=2I=1+2=3,S=2×1=2 :第 2 次循环: I=3+2=5,S=2×2=4I=3+2=5, S=2 \times 2=4I=3+2=5,S=2×2=4 :第 3 次循环: I=5+2=7I=5+2=7I=5+2=7 (不满足 I<6I<6I<6 ,退出循环)。最终 S=8S=8S=8 。
第5题:函数的定义域 函数 f(x)=log2x−1f(x)=\sqrt{\log _{2} x-1}f(x)=log2x−1 需满足:1. 二次根式内非负: log2x−1≥0\log _{2} x-1 \geq 0log2x−1≥0 ;2. 对数有定义: x>0x>0x>0 。由 log2x≥1\log _{2} x \geq 1log2x≥1 得 x≥21=2x \geq 2^{1}=2x≥21=2 ,故定义域为 [2,+∞)[2,+\infty)[2,+∞) 。
第6题:组合的概率 2 另 3 女中选 2 人,总选法 C22=10C_{2}^{2}=10C22=10 ;选中 2 女生的选法 C23=3C_{2}^{3}=3C23=3 。概率为 310\frac{3}{10}103 。
第7题:正弦函数的对称轴 函数 y=sin(2x+φ)y=\sin (2 x+\varphi)y=sin(2x+φ) 关于 x=π2x=\frac{\pi}{2}x=2π 对称,即 2⋅π2+φ=kπ+π2(k∈Z2 \cdot \frac{\pi}{2}+\varphi=k \pi+\frac{\pi}{2} ( k \in \mathbb{Z}2⋅2π+φ=kπ+2π(k∈Z )。取 k=0k=0k=0 ,得 φ=−π6\varphi=-\frac{\pi}{6}φ=−6π (满足 −π2<φ<π2-\frac{\pi}{2}<\varphi<\frac{\pi}{2}−2π<φ<2π )。
第8题:双曲线的离心率 双曲线 x2a2−x2b2=1\frac{x^{2}}{a^{2}}-\frac{x^{2}}{b^{2}}=1a2x2−b2x2=1 ,右焦点 F(c,0)(c=a2+b2)F(c, 0)\left(c=\sqrt{a^{2}+b^{2}}\right)F(c,0)(c=a2+b2) ,渐近线 bx−ay=0b x-a y=0bx−ay=0 。焦点到渐近线的距离为 ∣b∣a2+b2=b\frac{|\mathrm{b}|}{\sqrt{a^{2}+b^{2}}}=ba2+b2∣b∣=b ,由题设 b=32cb=\frac{\sqrt{3}}{2} cb=23c 。结合 c2=a2+b2c^{2}=a^{2}+b^{2}c2=a2+b2 ,得 a=c2a=\frac{c}{2}a=2c ,离心率 e=c6=2e=\frac{c}{6}=2e=6c=2 。
第9题:周期函数与复合函数 f(x+4)=f(x)f(x+4)=f(x)f(x+4)=f(x) 说明周期为 4:−f(15)=f(15−4×3)=f(3)=f(−1)(3=4:-f(15)=f(15-4 \times 3)=f(3)=f(-1)(3=4:−f(15)=f(15−4×3)=f(3)=f(−1)(3= −1+4);−x∈(−2,0]-1+4) ;-x \in(-2,0]−1+4);−x∈(−2,0] 时, f(−1)=∣−1+12∣=12;−f(12)=cos(π2;12)=cosπ4=32(12∈(0,2])f(-1)=\left|-1+\frac{1}{2}\right|=\frac{1}{2} ;-f\left(\frac{1}{2}\right)=\cos \left(\frac{\pi}{2} ; \frac{1}{2}\right)=\cos \frac{\pi}{4}=\frac{\sqrt{3}}{2}\left(\frac{1}{2} \in(0,2]\right)f(−1)=
−1+21
=21;−f(21)=cos(2π;21)=cos4π=23(21∈(0,2]) 。
第10题:多面体的体积 正方体棱长 2 ,面中心坐标为 (x1,0,0),(0,±1,0),(0,0,±1)(x 1,0,0),(0, \pm 1,0),(0,0, \pm 1)(x1,0,0),(0,±1,0),(0,0,±1) ,构成正八面体。正八面体体积为两个四棱锥之和,底面正方形边长 2\sqrt{2}2 ,高 1 ,体积为 2×12×2×1=432 \times \frac{1}{2} \times 2 \times 1=\frac{4}{3}2×21×2×1=34 。
第11题:函数的模值与零点 函数 f(x)=2x3−ax2+1f(x)=2 x^{3}-a x^{2}+1f(x)=2x3−ax2+1 在 (0,+∞)(0,+\infty)(0,+∞) 内有且只有一个零点,导数 f′(x)=6x2−2axf^{\prime}(x)=6 x^{2}-2 a xf′(x)=6x2−2ax ,临界点 x=0x=0x=0 和 x=a6x=\frac{a}{6}x=6a 。当 f(a6)=0f\left(\frac{a}{6}\right)=0f(6a)=0 时(极小值为 0 ,仅 1 个零点),解得 a=3a=3a=3 。 f(x)f(x)f(x) 在 [−1,1][-1,1][−1,1] 上, f(0)=f(0)=f(0)= 1 (最大值), f(−1)=−4f(-1)=-4f(−1)=−4 (最小值), 和为 1+(−4)=−31+(-4)=-31+(−4)=−3 。
第12题:向量垂直的条件 设 A(x,2x),AB=(5−x,−2x)A(x, 2 x), A B=(5-x,-2 x)A(x,2x),AB=(5−x,−2x) ,圆心 C(x+52,x)C\left(\frac{x+5}{2}, x\right)C(2x+5,x) ,另一交点 D(1,2)D(1,2)D(1,2) (由圆与直线交点唯一性得)。向量 CD→=(−x−32,2−x)\overrightarrow{C D}=\left(\frac{-x-3}{2}, 2-x\right)CD=(2−x−3,2−x) ,由 AB→⋅CD→=0\overrightarrow{A B} \cdot \overrightarrow{C D}=0AB⋅CD=0 ,解得 x=3x=3x=3 。
答案
- {1,8}2.23.904.85.[2,+∞)6.3107.−π68.29.2210.4311.−312.3\{1,8\} 2.23 .904 .85 .[2,+\infty) 6 . \frac{3}{10} 7 .-\frac{\pi}{6} 8.29 . \frac{\sqrt{2}}{2} 10 . \frac{4}{3} 11 .-312 .3{1,8}2.23.904.85.[2,+∞)6.1037.−6π8.29.2210.3411.−312.3
图 10 MiMo-VL-7B-RL 解答整张试卷中所有问题的示例。

指令:喝 10 罐该款可乐摄入多少克钠? MiMo-VL-7B-RL: . . 要计算喝 10 罐可口可乐零度时摄入的钠量,需按以下步骤分析:
-
步骤1:明确营养成分表信息从图片中"营养成分表"可知:每 100 毫升该饮料中,钠含量为 18 毫克。
-
- 步骤2:确定单罐饮料容量(行业常见规格)可口可乐零度的罐装规格通常为 330 毫升/罐(这是饮料行业的常见罐装容量,若实际容量不同需以产品标注为准,此处默认 330 ml )。
-
- 步骤3:计算单罐钠含量 单罐( 330 ml )中钠的含量 === 每 100 ml 钠含量 ×\times× 单罐容量 ÷\div÷ 100 即: 18 毫克 /100ml×330ml÷100=/ 100 \mathrm{ml} \times 330 \mathrm{ml} \div 100=/100ml×330ml÷100= 59.4 毫克
-
- 步骤4:计算 10 罐钠总量 10 罐钠总量 ===单罐钠含量 ×10\times 10×10 即:59.4 毫克 ×10=\times 10=×10= 594 毫克
-
因此,喝 10 罐该款可口可乐零度,约摄入 594 毫克钠。
指令:该发票缺失的税额应该是多少?MiMo-VL-7B-RL: . . 要计算该发票的税额,需结合税率和价税合计金额来推导: -
步骤1:明确关键信息 - 发票税率: 13%13 \%13% (发票中"税率"栏显示)- 价税合计金额(大写):壹拾壹万贰仟伍佰捌拾玖圆伍角贰分,对应小写为 112589.52 元
-
- 步骤2:税额的计算逻辑发票税额=价税合计金额 ×\times× ( 1 - 税率) ×\times× 税率(即:总价价税合计 === 不含税金额 + 税额 →\rightarrow→ 税额 === 价税合计 ×\times× 税率 ÷(1+\div(1+÷(1+ 税率 ))) )
-
设不含税金额为 XXX ,则: X+X×13%=X+X \times 13 \%=X+X×13%= 112589.52X×1.13=112589.52X=112589.52 X \times 1.13=112589.52 X=112589.52X×1.13=112589.52X= 112589.52÷1.13=99636.74112589.52 \div 1.13=99636.74112589.52÷1.13=99636.74 元【不含税金额】
-
税额 === 不含税金额 ×\times× 税率 =99636.74×13%==99636.74 \times 13 \%==99636.74×13%= 12952.78 元
图 11 MiMo-VL-7B-RL 使用推理解决复杂OCR问题的示例。

指令:How many muffin in the image?
MiMo-VL-7B-RL: . . To determine the number of muffins in the image, we analyze the 3×43 \times 43×4 grid ( 12 cells total) and count muffins row by row:
- Top row (row 1): Columns 1 and 3 are muffins →2\rightarrow 2→2 muffins. - Middle row (row 2): Columns 2 and 4 are muffins →2\rightarrow 2→2 muffins. - Bottom row (row 3): Columns 1 and 3 are muffins →2\rightarrow 2→2 muffins.
- Adding these, 2+2+2=62+2+2=62+2+2=6.
- There are 6 muffins in the image.

指令:How many cats in the image?
MiMo-VL-7B-RL: . . To determine the number of cats in the image, we can observe and count: - There is a black cat lying on the floor. - There is a white and brown cat sitting behind the black cat.
Thus, the number of cats in the image is 2 .
指令:How many dogs in the image?
MiMo-VL-7B-RL: . . To determine the number of dogs in the image, we analyze both the printed dogs on the blanket and the real dog in the foreground:
-
Printed dogs on the blanket: The blanket features a grid of dog faces. Counting these, we see 3 rows with 4 dogs each, so 3×4=123 \times 4=123×4=12 printed dogs.
-
- Real dog in the foreground: There is 1 real dog standing in front of the blanket. Adding these together, 12+1=1312+1=1312+1=13.
-
Thus, the total number of dogs in the image is 13.
图 12 MiMo-VL-7B-RL 解决细节感知问题的示例。
指令:answer all the questions.
MiMo-VL-7B-RL: . . -
Problem 7 To find xxx and yyy, we analyze the two right triangles formed by the height:
-
- **Right triangle KaTeX parse error: Expected '\right', got 'EOF' at end of input: …left(30^{\circ} angle )∗∗)^{* *})∗∗ : Hypotenuse =44=44=44. The height hhh (opposite 30∘30^{\circ}30∘ ) is 44⋅sin(30∘)=44⋅0.5=2244 \cdot \sin \left(30^{\circ}\right)=44 \cdot 0.5=2244⋅sin(30∘)=44⋅0.5=22. The base segment yyy (adjacent to 30∘30^{\circ}30∘ ) is 44⋅cos(30∘)=44⋅32=22344 \cdot \cos \left(30^{\circ}\right)=44 \cdot \frac{\sqrt{3}}{2}=22 \sqrt{3}44⋅cos(30∘)=44⋅23=223.
-
- **Right triangle KaTeX parse error: Expected '\right', got 'EOF' at end of input: …left(45^{\circ} angle )∗∗)^{* *})∗∗ : This is a 45-45-90 triangle, so legs are equal. The height h=22h=22h=22, so the other leg (left base segment) is also 22. Hypotenuse $x(45-45-90 ratio: leg ⋅2)\cdot \sqrt{2})⋅2) is 22222 \sqrt{2}222.
-
Problem 8 For a square with diagonal d=22d=22d=22, the side length sss relates to the diagonal by d=s2d=s \sqrt{2}d=s2. Solving for s:s=d2=222=112s: s=\frac{d}{\sqrt{2}}=\frac{22}{\sqrt{2}}=11 \sqrt{2}s:s=2d=222=112 (rationalizing the denominator).
-
- Problem 9 A pentagon circumscribed about a circle (tangential pentagon) has the property that the sum of the lengths of all sides equals 2×2 \times2× the sum of the tangent segments from each vertex. However, since the problem provides the side lengths QZ=10,YX=9Q Z=10, Y X=9QZ=10,YX=9, XW=13,UW=16,SU=17X W=13, U W=16, S U=17XW=13,UW=16,SU=17, and the pentagon is tangential, the perimeter is the sum of these sides (as they represent the sides of the pentagon).
-
Perimeter =10+9+13+16+17=65=10+9+13+16+17=65=10+9+13+16+17=65.
10.4. Problem 10SR‾10 \overline{S R}10SR is tangent to ⊙Q\odot Q⊙Q at RRR, so QR⊥SRQ R \perp S RQR⊥SR (tangent is perpendicular to radius). Thus, △QRS\triangle Q R S△QRS is a right triangle with QR=7Q R=7QR=7 (radius) and QS=25Q S=25QS=25 (hypotenuse). By the Pythagorean theorem: SR=QS2−QR2=252−72=625−49=576=24S R=\sqrt{Q S^{2}-Q R^{2}}=\sqrt{25^{2}-7^{2}}=\sqrt{625-49}=\sqrt{576}=24SR=QS2−QR2=252−72=625−49=576=24 -
Problem 11 A perpendicular from the circle’s center to a chord bisects the chord. The chord length is 16 , so half the chord is 162=8\frac{16}{2}=8216=8. The distance from the center to the chord is 6 , forming a right triangle with legs 6 and 8 , and hypotenuse xxx (radius). By the Pythagorean theorem: x=62+82=36+64=100=10x=\sqrt{6^{2}+8^{2}}=\sqrt{36+64}=\sqrt{100}=10x=62+82=36+64=100=10
11.6. Problem 12 Since R,S,TR, S, TR,S,T are collinear and SSS is between RRR and TTT, RS+ST=RTR S+S T=R TRS+ST=RT. Substitute RS=2w+1,ST=w−1R S=2 w+1, S T=w-1RS=2w+1,ST=w−1, and RT=18R T=18RT=18 :
(2w+1)+(w−1)=18 (2 w+1)+(w-1)=18 (2w+1)+(w−1)=18
Simplify: 3w=18⟹w=63 w=18 \Longrightarrow w=63w=18⟹w=6. Substitute w=6w=6w=6 into RS:RS=R S: R S=RS:RS= 2(6)+1=132(6)+1=132(6)+1=13
Final Answers 7. x=222,y=223x=22 \sqrt{2}, y=22 \sqrt{3}x=222,y=223 8. 11211 \sqrt{2}112 9. 65 10. 24 11. 10 12. w=6,RS‾=13w=6, \overline{R S}=13w=6,RS=13
图 13 MiMo-VL-7B-RL 解决多个几何问题的示例。
参考论文:https://arxiv.org/pdf/2506.03569
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)