端侧AI新突破：OPPO AndesVL多模态大模型开源，重新定义智能终端体验

在人工智能技术飞速发展的今天，多模态大模型已成为推动智能设备升级的核心动力。然而，当前端侧多模态大模型普遍面临着性能不足、能力有限、适配性差等问题，这些痛点严重制约了下一代AI手机的发展。为打破这一僵局，OPPO AI中心推出了开源的全链路适配端侧多模态大模型AndesVL，该模型不仅具备SOTA水平的通用多模态理解推理能力，还拥有突出的端侧专项优势，为端侧AI应用开辟了全新的可能性。## 技

戚逸玫Silas

617人浏览 · 2025-12-07 01:57:31

戚逸玫Silas · 2025-12-07 01:57:31 发布

端侧AI新突破：OPPO AndesVL多模态大模型开源，重新定义智能终端体验

【免费下载链接】Qwen3-VL-4B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct

技术背景：端侧多模态大模型的困境与突破

近年来，多模态大模型在云端应用中取得了显著成就，但在智能手机等终端设备上的应用仍存在诸多挑战。端侧应用对多模态大模型提出了高性能、强隐私、低延迟的严苛要求，而现有模型在这些方面表现欠佳。

面对这一行业难题，OPPO AI中心大模型算法团队经过不懈努力，成功研发出国内首个全链路适配的端侧多模态大模型——AndesVL。该系列模型不仅具备顶尖水平的多模态理解和推理能力，还实现了端侧化部署与业务场景应用的无缝对接，能够快速部署、加速推理并广泛应用于智能AI手机等端侧场景。

AndesVL系列模型包含0.6B至4B四个阶梯尺寸的套件，可满足不同资源环境下的配置与应用需求。除了通用的多模态识别、理解和推理能力外，AndesVL还具备强大的GUI能力和多语言能力，全面适配多样化、全球化的手机端侧应用。值得一提的是，AndesVL将全面开源，这一举措将为端侧多模态大模型的部署与应用树立标杆，有力促进产业内相关技术和应用的快速发展。

AndesVL的亮点主要体现在以下几个方面：通用能力强，在同参数规模的开源模型中综合达到SOTA水平；端侧能力专，针对手机端侧的多语言、GUI理解需求进行专项提升；适用范围广，提供4个阶梯尺寸的模型组合套装；端侧部署好，实现端侧效果和效率的完美均衡；端侧适配快，支持多场景灵活部署和独立迭代更新。

模型架构：兼顾性能与效率的创新设计

AndesVL是一款专为端侧部署开发的大模型，其架构设计充分考虑了模型能力与端侧资源、功耗限制之间的平衡。为适应不同资源限制下的端侧化运行场景，AndesVL系列模型在统一的架构模式下提供了参数范围从0.6B到4B的4个不同尺寸模型，每个模型都有Instruct和Thinking两个版本。这种设计不仅有利于模型的快速开发迭代和部署应用，还能满足不同场景的需求。

具体而言，AndesVL的模型结构由视觉编码器（ViT）、多层感知器（MLP）和大语言模型（LLM）三部分组成。在视觉编码器的选型上，1-4B版本采用AimV2-300M，该编码器在尺寸和架构设计上更适合端侧使用，相比更大、更复杂的编码器在功耗和部署适配性上具有明显优势。而0.6B模型则采用更小尺寸的SigLIP-2-base作为视觉编码器，以应对更为严格的资源限制。

为提升模型处理不同分辨率图像的能力，AndesVL在视觉编码器中加入了二维旋转位置嵌入（2D-RoPE），借助其外推能力，使模型能有效处理高低不同分辨率图像的输入。此外，视觉编码器基于Native Resolution ViT(NaViT)策略直接处理任意分辨率的输入，结合像素重排(pixel shuffle)无损压缩序列长度，大大提高了处理性能。

在大语言模型部分，AndesVL采用成熟的Qwen3系列语言模型，以支持Instruct和Thinking两种模式的模型实现，从而满足不同应用场景的需求。

训练方案：多阶段训练打造卓越模型能力

AndesVL的训练过程分为预训练和后训练两个主要阶段，每个阶段都有其独特的目标和方法，通过精心设计的训练方案，打造出具备卓越能力的端侧多模态大模型。

预训练阶段

预训练阶段包含视觉-语言对齐、视觉-语言联合预训练和多任务预训练三个步骤：

视觉-语言对齐：该阶段不仅进行视觉模态到语言模态的对齐，还重点训练以充分发挥新引入的二维旋转位置嵌入的潜能。训练分为两个阶段，先使用大量低分辨率数据进行预训练，再使用更高分辨率数据进行微调。为保持语言模型稳定性，该阶段主要使用图像描述、OCR数据和VQA等通用视觉语言对齐数据。
视觉-语言联合预训练：在此阶段，解冻LLM的参数，并以相对较低的学习率进行全参数预训练，同时将LLM的上下文窗口从2,048扩展到8,192。训练数据主要由图文交错的数据组成，并混入部分纯文本数据、VQA数据和第一阶段的对齐数据。为解决图像出现在序列末尾时导致无法有效学习的问题，训练时采取随机位置替换的方式。对于Thinking版模型，从此阶段起开始引入大量长推理数据，以激活多模态模型的长推理能力。
多任务预训练：该阶段使用标注数据进行有监督学习，专注于对答案部分的文本token计算损失。训练数据包括通用的视觉问答、图像描述、OCR数据和图文长推理数据，同时引入定位和GUI相关等特定任务数据。此阶段将ViT的图像块输入长度从4,096增加到16,384，LLM的序列长度扩展到32,768。

后训练阶段

后训练阶段主要应用监督微调(SFT)和强化学习对齐(RL)技术，进一步提升模型性能：

监督微调：使用精心设计的通用数据集，涵盖图像描述、图像问答、文本摘要、代码生成等多种任务目标。通过多阶段的数据过滤流程，最终构建了包含约1600万条数据的高质量微调数据集，增强模型的表征学习能力。
混合偏好优化：针对多模态场景中DPO方法面临的挑战，AndesVL采用了混合偏好优化（MPO）训练方法。通过设计数据构造pipeline生成大量MPO训练数据，并结合开源数据MMPR，显著提升了模型的整体能力。
GRPO训练：借鉴小模型可从大模型继承思维链推理能力的结论，AndesVL采用数据蒸馏的方式获取高质量的多模态长思维链数据。采用包含详细推理步骤和省略推理步骤的两类数据集，使模型可以在思考和不思考之间灵活切换。GRPO阶段采用多模态推理数据和纯文本推理数据的两阶段训练方案，并根据数据难度从易到难做课程学习，充分激发模型的推理能力。

端侧部署解决方案：算法优化与高效部署的完美融合

为应对端侧AI规模化落地的挑战，OPPO基于自研的AndesVL多模态模型，构建了一套从底层算法优化到上层部署架构的完整技术方案。该方案聚焦于算法优化与端侧部署两大方向，通过在模型压缩与架构设计上的协同创新，实现了推理效率、部署灵活性与迭代经济性的显著提升。

算法优化：稀疏化 + QAT，奠定高效部署基石

在算法层面，OPPO通过前沿的稀疏化压缩与量化感知训练技术，从源头削减模型的计算与存储开销，同时结合先进编解码算法，为端侧高效推理奠定坚实基础。

模型稀疏化压缩：OPPO与联发科联合优化模型端侧内存压缩技术，通过算法与硬件的协同设计，在极小的效果损失前提下，将模型权重稀疏度提升至75%以上，平均每参数比特数（BPW）成功降至1.8bit以下。结合联发科天玑9500芯片的硬件内存压缩技术，实现模型端侧内存占用降低30.9%，推理速度提升45%，在压缩率、推理速度与精度保持之间达成了高效平衡。
量化感知训练（QAT）：OPPO构建了覆盖基模型与场景LoRA的双重量化感知训练体系。基模型QAT框架支持权重与激活的细粒度混合精度配置，建立了从"静态QAT训练"到"端侧PTQ结果"的无缝映射机制，大幅提升了模型在真实硬件上的表现确定性与稳定性。QALFT框架通过在云端仿真端侧已经量化好的基模型的计算结果，实现对场景LoRA进行量化感知训练，让场景LoRA在训练阶段拟合端侧已经产生的量化误差，实现场景的新增和更新彼此独立，提升端侧部署效率与灵活性。
编码压缩与解码加速：为克服长文本输入与自回归生成带来的端侧推理延迟，OPPO针对LLM的推理流程进行了深度优化。编码压缩方面，研发了端侧专用编码加速方案OKV，通过对KV缓存进行智能稀疏化，在仅保留25%缓存的条件下，效果即可媲美全量缓存，同时成功在端侧支持了高达128K的上下文长度。解码加速方面，整合改进了EAGLE-2、HASS等前沿投机解码算法，结合OPPO的模型压缩算法，AndesVL的峰值解码加速比达到6.7倍，显著提升了端侧AI的响应速度。

端侧部署：1+N LoRA架构实现低成本、高灵活的规模化扩展

在部署架构层面，OPPO创新性地采用了"1+N LoRA"策略，以一个强大的多模态基模型结合多个轻量级、可插拔的场景专用LoRA模块，有效应对端侧设备资源受限与场景多样化的双重挑战。

该架构允许在运行时动态加载不同的LoRA来执行相应任务，不仅显著降低了新增功能所需的存储空间与更新成本，更使得OPPO能够基于同一基模型，快速发布并迭代多款运行于AI设备上的端侧应用，实现了高效、经济的规模化部署与敏捷迭代。

评测结果：全方位展现卓越性能

为全面评估AndesVL的性能，OPPO在多个学术基准测试和实际应用场景中对模型进行了严格评测，结果显示AndesVL在各项指标上均表现出色，展现出卓越的综合性能。

整体能力评估

评测结果显示，AndesVL-4B-Thinking模型在学术基准测试中获得70.9分，比第二名高出3.2分，在6大垂直领域均取得第一的分数，充分展示了其在各种多模态场景下的卓越性能。4B-instruct在多个垂直领域同样表现出色，尤其是在多图像理解和多语言任务。AndesVL-2B-Thinking总分64.4，在同规模模型中排名第一。1B和0.6B模型优势明显，thinking和instruct模型分别位列同尺寸前两名。特别是0.6B模型，相比其他同尺寸模型也具有一定优势。

这些结果凸显了AndesVL系列模型在处理一系列需要多模态感知、理解和推理的现实世界任务方面的出色能力。同时，0.6B-4B的多样性尺寸范围结合其强大的多模态能力，使AndesVL十分适合应用于各类场景，特别是计算资源紧缺的手机移动场景。

垂域能力评估

AndesVL在各个垂直领域均展现出卓越的能力：

数学和逻辑推理能力：AndesVL-4B-Thinking在各类数学与推理基准测试中以58.3的综合得分位居榜首，在MathVista、MathVerse和WeMath基准测试中较先进模型展现出显著优势。
视觉文本理解能力：AndesVL4B-Thinking模型以86.0的综合得分在视觉文本任务中夺得第一，并在八项基准测试中的四项取得最佳成绩。
多图理解能力：AndesVL-4B在多项多图像基准中表现优异，获得67.8的最高分。更小尺寸的模型依旧继承了4B模型的优势，0.6B模型得分53.1，相比1B模型无明显精度下降。
通用问答理解能力：AndesVL模型（4B、1B和0.6B）在各自尺寸中取得了最佳精度，2B版本也获得极具竞争力的成绩。
幻觉抑制能力：AndesVL各尺寸模型均排名第一，4B和0.6B模型分别得分74.8和65.9，与其他同尺寸模型相比有显著优势，而且这种优势在更小尺寸模型上更加明显。
多语言理解能力：AndesVL的Thinking和Instruct模型都展现出优异的多语言能力，取得64.9的最高分，比之前的最佳模型高出1.5分。
UI理解能力：AndesVL模型在ScreenSpot和自建的AndesUI评测集上均取得了领先精度，证明了其在UI理解和应用方面的丰富经验和独特的竞争优势。

on-device效果和性能评测

在端侧精度和推理速度的评测中，OPPO展示了在端侧模型精度优化和推理加速方面的显著成果：

量化感知训练：实验结果显示OPPO自研的QAT训练框架可以显著降低模型在端侧的量化损失，提高模型在量化前后解码行为的一致性。
Cache Eviction：自研的OKV端侧编码压缩方案在OPPO通话摘要功能上的应用效果显著，在50%压缩率的实验条件下，相比经典方案，模型在rouge-1指标上提升超过10%，在25%压缩率下甚至媲美全量KV缓存效果。
Speculative Decoding：结合自研的投机解码算法、模型稀疏化及联发科天玑9500芯片的硬件压缩技术，在AndesVL-4B上实现了比无压缩优化的自回归模型高达6.7倍的峰值解码加速比，模型的BPW也大幅下降至1.8。
AndesUI benchmark：为增强AndesVL对智能手机UI的理解能力，OPPO构建了专注于UI理解的AndesUI数据集，AndesVL模型在该评测集上取得了领先精度。

未来展望：持续创新引领端侧AI发展

OPPO多模态大模型团队提出的AndesVL从模型架构、训练方法、端侧部署、模型应用等多个方面，为端侧多模态大模型训练部署应用提供了综合解决方案。当前该模型在综合效果、数学推理、GUI理解、多语言等方面都达到了同量级模型的领先水平，并通过开源相关模型推动行业技术进步。

展望未来，OPPO团队将在多个方向继续发力：

视觉编码器解决方案：进一步优化视觉编码器的性能和效率，提升模型对复杂图像的理解能力。
后训练方案：不断改进后训练方法，进一步提升模型的推理能力和泛化能力。
知识蒸馏机制：深入研究知识蒸馏技术，使小模型能够更好地继承大模型的能力。
融合文本视觉语音三模态的一体化模型：探索多模态融合的新方法，构建更全面的智能模型。

相信通过持续的技术创新，OPPO将不断在手机端侧实践和应用这些技术，为用户提供更安全、更快捷、更智能的交互体验，同时也将推动整个行业向更高层次的技术革新迈进。AndesVL的开源将吸引更多开发者参与到端侧AI的创新中来，共同推动智能终端的发展，为用户带来更加丰富和便捷的智能生活体验。

【免费下载链接】Qwen3-VL-4B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla