端侧AI新突破:OPPO AndesVL多模态大模型开源,重新定义智能终端体验

【免费下载链接】Qwen3-VL-4B-Instruct 【免费下载链接】Qwen3-VL-4B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct

在人工智能技术飞速发展的今天,多模态大模型已成为推动智能设备升级的核心动力。然而,当前端侧多模态大模型普遍面临着性能不足、能力有限、适配性差等问题,这些痛点严重制约了下一代AI手机的发展。为打破这一僵局,OPPO AI中心推出了开源的全链路适配端侧多模态大模型AndesVL,该模型不仅具备SOTA水平的通用多模态理解推理能力,还拥有突出的端侧专项优势,为端侧AI应用开辟了全新的可能性。

技术背景:端侧多模态大模型的困境与突破

近年来,多模态大模型在云端应用中取得了显著成就,但在智能手机等终端设备上的应用仍存在诸多挑战。端侧应用对多模态大模型提出了高性能、强隐私、低延迟的严苛要求,而现有模型在这些方面表现欠佳。

面对这一行业难题,OPPO AI中心大模型算法团队经过不懈努力,成功研发出国内首个全链路适配的端侧多模态大模型——AndesVL。该系列模型不仅具备顶尖水平的多模态理解和推理能力,还实现了端侧化部署与业务场景应用的无缝对接,能够快速部署、加速推理并广泛应用于智能AI手机等端侧场景。

AndesVL系列模型包含0.6B至4B四个阶梯尺寸的套件,可满足不同资源环境下的配置与应用需求。除了通用的多模态识别、理解和推理能力外,AndesVL还具备强大的GUI能力和多语言能力,全面适配多样化、全球化的手机端侧应用。值得一提的是,AndesVL将全面开源,这一举措将为端侧多模态大模型的部署与应用树立标杆,有力促进产业内相关技术和应用的快速发展。

AndesVL的亮点主要体现在以下几个方面:通用能力强,在同参数规模的开源模型中综合达到SOTA水平;端侧能力专,针对手机端侧的多语言、GUI理解需求进行专项提升;适用范围广,提供4个阶梯尺寸的模型组合套装;端侧部署好,实现端侧效果和效率的完美均衡;端侧适配快,支持多场景灵活部署和独立迭代更新。

模型架构:兼顾性能与效率的创新设计

AndesVL是一款专为端侧部署开发的大模型,其架构设计充分考虑了模型能力与端侧资源、功耗限制之间的平衡。为适应不同资源限制下的端侧化运行场景,AndesVL系列模型在统一的架构模式下提供了参数范围从0.6B到4B的4个不同尺寸模型,每个模型都有Instruct和Thinking两个版本。这种设计不仅有利于模型的快速开发迭代和部署应用,还能满足不同场景的需求。

具体而言,AndesVL的模型结构由视觉编码器(ViT)、多层感知器(MLP)和大语言模型(LLM)三部分组成。在视觉编码器的选型上,1-4B版本采用AimV2-300M,该编码器在尺寸和架构设计上更适合端侧使用,相比更大、更复杂的编码器在功耗和部署适配性上具有明显优势。而0.6B模型则采用更小尺寸的SigLIP-2-base作为视觉编码器,以应对更为严格的资源限制。

为提升模型处理不同分辨率图像的能力,AndesVL在视觉编码器中加入了二维旋转位置嵌入(2D-RoPE),借助其外推能力,使模型能有效处理高低不同分辨率图像的输入。此外,视觉编码器基于Native Resolution ViT(NaViT)策略直接处理任意分辨率的输入,结合像素重排(pixel shuffle)无损压缩序列长度,大大提高了处理性能。

在大语言模型部分,AndesVL采用成熟的Qwen3系列语言模型,以支持Instruct和Thinking两种模式的模型实现,从而满足不同应用场景的需求。

训练方案:多阶段训练打造卓越模型能力

AndesVL的训练过程分为预训练和后训练两个主要阶段,每个阶段都有其独特的目标和方法,通过精心设计的训练方案,打造出具备卓越能力的端侧多模态大模型。

预训练阶段

预训练阶段包含视觉-语言对齐、视觉-语言联合预训练和多任务预训练三个步骤:

  1. 视觉-语言对齐:该阶段不仅进行视觉模态到语言模态的对齐,还重点训练以充分发挥新引入的二维旋转位置嵌入的潜能。训练分为两个阶段,先使用大量低分辨率数据进行预训练,再使用更高分辨率数据进行微调。为保持语言模型稳定性,该阶段主要使用图像描述、OCR数据和VQA等通用视觉语言对齐数据。

  2. 视觉-语言联合预训练:在此阶段,解冻LLM的参数,并以相对较低的学习率进行全参数预训练,同时将LLM的上下文窗口从2,048扩展到8,192。训练数据主要由图文交错的数据组成,并混入部分纯文本数据、VQA数据和第一阶段的对齐数据。为解决图像出现在序列末尾时导致无法有效学习的问题,训练时采取随机位置替换的方式。对于Thinking版模型,从此阶段起开始引入大量长推理数据,以激活多模态模型的长推理能力。

  3. 多任务预训练:该阶段使用标注数据进行有监督学习,专注于对答案部分的文本token计算损失。训练数据包括通用的视觉问答、图像描述、OCR数据和图文长推理数据,同时引入定位和GUI相关等特定任务数据。此阶段将ViT的图像块输入长度从4,096增加到16,384,LLM的序列长度扩展到32,768。

后训练阶段

后训练阶段主要应用监督微调(SFT)和强化学习对齐(RL)技术,进一步提升模型性能:

  1. 监督微调:使用精心设计的通用数据集,涵盖图像描述、图像问答、文本摘要、代码生成等多种任务目标。通过多阶段的数据过滤流程,最终构建了包含约1600万条数据的高质量微调数据集,增强模型的表征学习能力。

  2. 混合偏好优化:针对多模态场景中DPO方法面临的挑战,AndesVL采用了混合偏好优化(MPO)训练方法。通过设计数据构造pipeline生成大量MPO训练数据,并结合开源数据MMPR,显著提升了模型的整体能力。

  3. GRPO训练:借鉴小模型可从大模型继承思维链推理能力的结论,AndesVL采用数据蒸馏的方式获取高质量的多模态长思维链数据。采用包含详细推理步骤和省略推理步骤的两类数据集,使模型可以在思考和不思考之间灵活切换。GRPO阶段采用多模态推理数据和纯文本推理数据的两阶段训练方案,并根据数据难度从易到难做课程学习,充分激发模型的推理能力。

端侧部署解决方案:算法优化与高效部署的完美融合

为应对端侧AI规模化落地的挑战,OPPO基于自研的AndesVL多模态模型,构建了一套从底层算法优化到上层部署架构的完整技术方案。该方案聚焦于算法优化与端侧部署两大方向,通过在模型压缩与架构设计上的协同创新,实现了推理效率、部署灵活性与迭代经济性的显著提升。

算法优化:稀疏化 + QAT,奠定高效部署基石

在算法层面,OPPO通过前沿的稀疏化压缩与量化感知训练技术,从源头削减模型的计算与存储开销,同时结合先进编解码算法,为端侧高效推理奠定坚实基础。

  1. 模型稀疏化压缩:OPPO与联发科联合优化模型端侧内存压缩技术,通过算法与硬件的协同设计,在极小的效果损失前提下,将模型权重稀疏度提升至75%以上,平均每参数比特数(BPW)成功降至1.8bit以下。结合联发科天玑9500芯片的硬件内存压缩技术,实现模型端侧内存占用降低30.9%,推理速度提升45%,在压缩率、推理速度与精度保持之间达成了高效平衡。

  2. 量化感知训练(QAT):OPPO构建了覆盖基模型与场景LoRA的双重量化感知训练体系。基模型QAT框架支持权重与激活的细粒度混合精度配置,建立了从"静态QAT训练"到"端侧PTQ结果"的无缝映射机制,大幅提升了模型在真实硬件上的表现确定性与稳定性。QALFT框架通过在云端仿真端侧已经量化好的基模型的计算结果,实现对场景LoRA进行量化感知训练,让场景LoRA在训练阶段拟合端侧已经产生的量化误差,实现场景的新增和更新彼此独立,提升端侧部署效率与灵活性。

  3. 编码压缩与解码加速:为克服长文本输入与自回归生成带来的端侧推理延迟,OPPO针对LLM的推理流程进行了深度优化。编码压缩方面,研发了端侧专用编码加速方案OKV,通过对KV缓存进行智能稀疏化,在仅保留25%缓存的条件下,效果即可媲美全量缓存,同时成功在端侧支持了高达128K的上下文长度。解码加速方面,整合改进了EAGLE-2、HASS等前沿投机解码算法,结合OPPO的模型压缩算法,AndesVL的峰值解码加速比达到6.7倍,显著提升了端侧AI的响应速度。

端侧部署:1+N LoRA架构实现低成本、高灵活的规模化扩展

在部署架构层面,OPPO创新性地采用了"1+N LoRA"策略,以一个强大的多模态基模型结合多个轻量级、可插拔的场景专用LoRA模块,有效应对端侧设备资源受限与场景多样化的双重挑战。

该架构允许在运行时动态加载不同的LoRA来执行相应任务,不仅显著降低了新增功能所需的存储空间与更新成本,更使得OPPO能够基于同一基模型,快速发布并迭代多款运行于AI设备上的端侧应用,实现了高效、经济的规模化部署与敏捷迭代。

评测结果:全方位展现卓越性能

为全面评估AndesVL的性能,OPPO在多个学术基准测试和实际应用场景中对模型进行了严格评测,结果显示AndesVL在各项指标上均表现出色,展现出卓越的综合性能。

整体能力评估

评测结果显示,AndesVL-4B-Thinking模型在学术基准测试中获得70.9分,比第二名高出3.2分,在6大垂直领域均取得第一的分数,充分展示了其在各种多模态场景下的卓越性能。4B-instruct在多个垂直领域同样表现出色,尤其是在多图像理解和多语言任务。AndesVL-2B-Thinking总分64.4,在同规模模型中排名第一。1B和0.6B模型优势明显,thinking和instruct模型分别位列同尺寸前两名。特别是0.6B模型,相比其他同尺寸模型也具有一定优势。

这些结果凸显了AndesVL系列模型在处理一系列需要多模态感知、理解和推理的现实世界任务方面的出色能力。同时,0.6B-4B的多样性尺寸范围结合其强大的多模态能力,使AndesVL十分适合应用于各类场景,特别是计算资源紧缺的手机移动场景。

垂域能力评估

AndesVL在各个垂直领域均展现出卓越的能力:

  1. 数学和逻辑推理能力:AndesVL-4B-Thinking在各类数学与推理基准测试中以58.3的综合得分位居榜首,在MathVista、MathVerse和WeMath基准测试中较先进模型展现出显著优势。

  2. 视觉文本理解能力:AndesVL4B-Thinking模型以86.0的综合得分在视觉文本任务中夺得第一,并在八项基准测试中的四项取得最佳成绩。

  3. 多图理解能力:AndesVL-4B在多项多图像基准中表现优异,获得67.8的最高分。更小尺寸的模型依旧继承了4B模型的优势,0.6B模型得分53.1,相比1B模型无明显精度下降。

  4. 通用问答理解能力:AndesVL模型(4B、1B和0.6B)在各自尺寸中取得了最佳精度,2B版本也获得极具竞争力的成绩。

  5. 幻觉抑制能力:AndesVL各尺寸模型均排名第一,4B和0.6B模型分别得分74.8和65.9,与其他同尺寸模型相比有显著优势,而且这种优势在更小尺寸模型上更加明显。

  6. 多语言理解能力:AndesVL的Thinking和Instruct模型都展现出优异的多语言能力,取得64.9的最高分,比之前的最佳模型高出1.5分。

  7. UI理解能力:AndesVL模型在ScreenSpot和自建的AndesUI评测集上均取得了领先精度,证明了其在UI理解和应用方面的丰富经验和独特的竞争优势。

on-device效果和性能评测

在端侧精度和推理速度的评测中,OPPO展示了在端侧模型精度优化和推理加速方面的显著成果:

  1. 量化感知训练:实验结果显示OPPO自研的QAT训练框架可以显著降低模型在端侧的量化损失,提高模型在量化前后解码行为的一致性。

  2. Cache Eviction:自研的OKV端侧编码压缩方案在OPPO通话摘要功能上的应用效果显著,在50%压缩率的实验条件下,相比经典方案,模型在rouge-1指标上提升超过10%,在25%压缩率下甚至媲美全量KV缓存效果。

  3. Speculative Decoding:结合自研的投机解码算法、模型稀疏化及联发科天玑9500芯片的硬件压缩技术,在AndesVL-4B上实现了比无压缩优化的自回归模型高达6.7倍的峰值解码加速比,模型的BPW也大幅下降至1.8。

  4. AndesUI benchmark:为增强AndesVL对智能手机UI的理解能力,OPPO构建了专注于UI理解的AndesUI数据集,AndesVL模型在该评测集上取得了领先精度。

未来展望:持续创新引领端侧AI发展

OPPO多模态大模型团队提出的AndesVL从模型架构、训练方法、端侧部署、模型应用等多个方面,为端侧多模态大模型训练部署应用提供了综合解决方案。当前该模型在综合效果、数学推理、GUI理解、多语言等方面都达到了同量级模型的领先水平,并通过开源相关模型推动行业技术进步。

展望未来,OPPO团队将在多个方向继续发力:

  1. 视觉编码器解决方案:进一步优化视觉编码器的性能和效率,提升模型对复杂图像的理解能力。

  2. 后训练方案:不断改进后训练方法,进一步提升模型的推理能力和泛化能力。

  3. 知识蒸馏机制:深入研究知识蒸馏技术,使小模型能够更好地继承大模型的能力。

  4. 融合文本视觉语音三模态的一体化模型:探索多模态融合的新方法,构建更全面的智能模型。

相信通过持续的技术创新,OPPO将不断在手机端侧实践和应用这些技术,为用户提供更安全、更快捷、更智能的交互体验,同时也将推动整个行业向更高层次的技术革新迈进。AndesVL的开源将吸引更多开发者参与到端侧AI的创新中来,共同推动智能终端的发展,为用户带来更加丰富和便捷的智能生活体验。

【免费下载链接】Qwen3-VL-4B-Instruct 【免费下载链接】Qwen3-VL-4B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐