DeepSeek-OCR 由两个组件构成:DeepEncoder 和DeepSeek3B-MoE-A570M 解码器。其中 DeepEncoder 作为核心引擎,旨在高分辨率输入下保持低激活,同时实现高压缩率,以确保视觉令牌(vision token)数量的最佳化和可管理性

引言:为什么你的大模型总在“读长文”时掉链子?

你有没有发现一个“怪现象”?

我们今天用的大型语言模型(LLMs)——那些能写诗、能编程、能聊天的“全能选手”——在处理长篇大论时,总显得力不从心。一篇上万字的技术报告,或者一份厚厚的年度财报 PDF 扔过去,它要么处理得慢得像蜗牛,要么干脆就“选择性遗忘”,前言不搭后语。

为什么会这样? 说到底,这是计算效率惹的祸。 想象一下,一个 LLM 就像一个数学天才,它处理文本的方式是“逐字逐句”地计算、推理。文本序列越长,计算量就以几何级数(二次方)暴涨。这就好比让一天才用手算的方式,去处理一份全国人口的统计报表——越往后,它就越吃力,最后直接宕机。

难道就没有一种更聪明、更高效的办法,来“打包”信息,让大模型能一口气吞下海量内容吗?

DeepSeek-OCR 项目,给出了一个相当“惊艳”的答案:上下文光学压缩(Contexts Optical Compression)

这个名字听起来有点酷炫,简单来说,它就像是给大模型找到了一个处理长文本的“作弊码”。它不再把长文看作一串冗长的数字,而是把它变成一张 “信息浓缩”,用视觉模态作为高效的压缩工具。这项技术究竟是如何做到的?它的出现,又将如何彻底改变我们处理文档、报表和海量知识的方式?


一、视觉压缩:用“一目十行”打破长文本的计算瓶颈

要理解 DeepSeek-OCR 的革命性,我们得先看传统视觉语言模型(VLMs)的痛点。

现在的 VLM 处理一张,通常是把它切成无数个小块(Patch),每个小块对应一个“视觉 Token”。一篇   词的文档,如果把它拍成高清,生成的视觉 Token 序列,往往比原始的文本 Token 还要长得多。这就好比为了看一页书,你不得不戴上   倍的显微镜——信息是看清了,但速度也慢得让人抓狂。

现有的 VLM 架构主要有三种局限,让长文本处理变得困难重重:

  1. 双塔式架构(如 Vary): 就像一个人要用两只眼睛分别看书和看,需要双重预处理,部署起来非常复杂,效率自然也高不到哪里去。

  2. 简单分块法(如 InternVL2.0): 粗暴地把分割并行计算,但由于原始编码器分辨率低,会产生成千上万的视觉 Token。Token 数量一多,模型的预填充和生成速度立刻就会被拖垮。

  3. 自适应分辨率编码(如 Qwen2-VL): 试直接处理全,但分辨率一大,GPU 内存就会瞬间“爆炸”,处理一张长的代价,可能比处理十篇短文还要高。

DeepSeek-OCR 换了一个思路。它不再问“如何让 LLM 看懂”,而是反过来问:“对于这   个词,最少需要多少视觉 Token 才能完美还原?” 它的核心思想,就是建立一个高效的“视觉-文本压缩映射”。通过 OCR 任务来验证这种映射关系,就像给一张高分辨率的找一个最精炼的“信息草稿”。

其结果是惊人的。

Token 降维效率

  • DeepSeek-OCR 实现了高达   到   倍 的 Token 数量减少。

  • 这意味着原本需要   个 Token 的长文,现在只需要   到   个“视觉信使”就能搞定。

  • 当压缩比在   倍以内 时,模型的解码(OCR)精度能保持在   以上。

这相当于,我们找到了一个高效的“数据打包员”,将冗长的数据流变成了一个紧凑、清晰、高效的“信息包裹”。 这不仅为解决 LLM 的长上下文难题打开了大门,更对研究 LLM 中的内存遗忘机制(如何高效管理信息)有着重要的启示意义。

💡延伸思考 我们人类在阅读时,难道不是这样做的吗?我们的大脑不会逐个字母去计算,而是在“一目十行”间,快速捕捉和处理视觉上的结构化信息。DeepSeek-OCR 的光学压缩,正是在机器层面,模仿了这种高效的“人类认知”机制。


二、DeepEncoder:如何用“卷积压缩”实现   倍的魔法?

既然视觉压缩是核心,那么谁来完成这个“魔法”呢?答案就是 DeepSeek-OCR 的核心引擎——DeepEncoder

DeepEncoder 的设计目非常明确:在面对高分辨率输入时,既要保持低激活量,又要实现超高的压缩比。 这就像设计一个高速公路收费站:车流量(高分辨率输入)巨大,但收费口(视觉 Token)却要少而精。

它需要具备五大“超能力”:

  1. 能处理超高分辨率。

  2. 在高分辨率下,仍能保持极低的激活内存占用。

  3. 生成的视觉 Token 数量要极少。

  4. 能灵活支持多种分辨率输入。

  5. 参数量要适中,不能太“笨重”。

DeepEncoder 的架构,就是实现这五大超能力的关键。它采用了“串联”的结构,你可以把它理解成一个 “双重过滤、中间压缩” 的信息处理系统。

  1. 第一站:视觉感知特征提取(用“窗口”看细节) 这部分由窗口注意力(Window Attention)机制主导。它就像一个精明的“局部侦察兵”,只关注局部区域的细节,参数量控制在   左右。这确保了它在处理高分辨率时,激活内存不会失控。

  2. 压缩站:  倍卷积压缩模块 这是 DeepEncoder 的“变魔术”环节。它插入在两个特征提取组件之间,包含了两层卷积模块。每层的卷积核大小为  ,步长为  。这个模块的作用,就是把海量的 Patch Token 强行“打包浓缩”。

    举个栗子 假设你输入了一张 像素的文档。DeepEncoder 会先把它切分成 个原始的 Patch Token。这 个 Token,在经过 倍卷积压缩模块的“洗礼”后,Token 数量瞬间锐减到了   个! 个 Token 才是进入下一步处理的“精炼信息”。整整  倍的降维,这就是它能在内存和 Token 数量之间找到完美平衡的秘诀。

  3. 第二站:视觉知识特征提取(用“全局”看结构) 经历了压缩,剩下的   个 Token 会进入这个阶段。它采用的是密集的全局注意力(Global Attention)机制,使用的是   参数的 CLIP-large 结构。这部分的作用,就是对压缩后的“精炼信息”进行全局性的理解和推理,捕捉文档的整体结构和逻辑。

这个系统还非常灵活。它支持多种分辨率模式,以适应各种文档场景。它有四种原生分辨率模式(Tiny、Small、Base、Large),例如“Tiny”模式( )只需要   个视觉 Token。

更值得一提的是动态分辨率模式(Gundam)。这种模式能够处理超高分辨率的输入,比如一张需要放大才能看清细节的古老报纸。它通过   个   的局部视,结合一个   的全局视,灵活地处理巨大像。你可能在阅读老报纸、巨幅海报等超高分辨率时,常常遇到识别不清的问题,是不是? DeepSeek-OCR 正在用这种动态模式解决这个痛点。


三、性能的“性价比”:不到   Token 如何超越   Token 的对手?

技术上的精巧设计,最终还是要靠硬数据说话。DeepSeek-OCR 在性能与效率的平衡上,交出了一份令人赞叹的答卷。这证明了紧凑型语言模型,完全可以有效地从压缩后的视觉表示中解码信息。

核心性能指

  • 惊人准确率: 在   到   倍的文本压缩比下,OCR 解码精度高达   以上

  • 抗压能力: 即使在   倍 的极端压缩比下,OCR 准确率仍能维持在约 

  • 效率碾压: 在 OmniDocBench(文档基准测试)上,它仅使用   个视觉 Token 就超越了 GOT-OCR2.0(  Token/页)的性能。

  • 跨越式超越: 相对于平均每页需要超过   个 Token 的 MinerU2.0,DeepSeek-OCR 仅用少于   个视觉 Token,实现了性能上的全面超越。

这些数字意味着什么?

想象一下你正在参加一场马拉松比赛。对手背着   克的负重跑,而你只背着   克的装备,却比对手跑得更快、更稳。DeepSeek-OCR 就是在性能相同甚至更优的前提下,把所需的计算资源和时间消耗,大幅削减

💡延伸思考 这个成果为 LLM 的未来发展提供了一个清晰的方向:速度与精度的双赢是可能的。 这也为研究如何将 LLM 中不重要的历史上下文信息进行压缩,以解决“忆遗忘”问题,带来了实实在在的希望。毕竟,只有高效处理信息,LLM 才能真正拥有“超强忆力”。

为什么能实现这种近乎“作弊”的效率?这就要归功于它所采用的 MoE(混合专家) 解码器。

DeepSeek-OCR 的解码器基于  B 的 MoE 架构。在推理时,它只会激活大约   的参数。这难道不是一种完美的平衡吗? 它享受着  B 模型的强大表达能力,同时又拥有   级别小模型的推理效率。这种“小身材、大能量”的组合,不仅是效率的关键,更是成本控制的利器。它通过非线性映射来重构文本表示,用事实证明:紧凑型语言模型完全有能力高效地学习和解码被光学压缩后的信息。


四、边界拓展:从文档 OCR 到“理解”表和化学公式

DeepSeek-OCR 的雄心,绝不仅限于传统的文档识别。它还致力于拓宽其工业级实用边界,将解析能力延伸到复杂的多模态深度解析任务中。它要做的,是让 AI 不只是“看清”文字,而是要“理解”文字背后的逻辑和结构。

它是如何做到的?答案藏在它那复杂且多样化的数据引擎中。它训练的数据集主要分为三类:

  1. OCR 1.0 基础数据: 这是传统的“基本功”训练。它收集了   万页多样化的 PDF 文档数据,涵盖了大约   种语言,其中中文和英文就占据了   万页。

  • 为了确保质量,他们还创建了精细注和粗略注两种签,精细注用于构建交错数据,让模型能准确识别文本和排版结构。

  • 此外,还加入了   万样本的自然场景像数据,确保模型能像人一样,在各种背景下准确识别文字。

  • OCR 2.0 深度解析数据: 这是 DeepSeek-OCR 真正拉开差距的地方,它瞄准的是复杂的人工像解析

    • 表解析: DeepSeek-OCR 将表解析定义为“像到 HTML 表格”的转换任务。想象一下,你有一张复杂的财务报表截或一张论文中的统计,传统 OCR 只能识别出数字和文字,但 DeepSeek-OCR 可以直接将其结构化,转化为可编辑、可分析的 HTML 表格。他们为此渲染了   万张表像。

    • 化学公式解析: 模型利用 PubChem 的 SMILES 格式,通过 RDKit 渲染,构建了   万个像-文本对。这意味着它可以识别并理解复杂的分子结构。

    • 平面几何: 遵循 Slow Perception 的方法生成了   万个平面几何解析数据。它甚至能理解几何形的平移不变性。

  • 通用视觉数据: 用于注入通用像理解能力,让 DeepSeek-OCR 在保持专业性的同时,也能像一个通用的 VLM 一样,理解日常像。

  • 🌰 举个栗子 当医生面对一份病人的基因检测报告截时,里面可能混合着复杂的表、生僻的化学公式和大量的文字。传统的 AI 可能需要多个独立的工具才能完成解析。但 DeepSeek-OCR 就像一个“全能翻译官”,能一站式地将所有这些信息,包括表的结构和公式的意义,完整、准确地转化给 LLM 进行后续的推理和诊断。

    这难道不是数据处理的一次质变吗? 这项技术不仅改变了复杂的企业生产线,在未来,它更让偏远地区的患者能及时获得精准诊断(根据原始资料显示)——因为 AI 能高效、准确地处理一切医疗文档资料。

    💡延伸思考 这种对表、公式、几何的解析能力,已经彻底超越了传统的“识别”范畴,它真正踏入了“理解”的层次。未来,我们可以期待 VLM 在专业领域的辅助决策中发挥更大的作用。它将是工程师、科学家们不可或缺的智能助手,帮助人类在海量信息中高效地发现知识和规律。


    五、工业级震撼:一天生产   万页数据的“效率怪兽”

    无论理论如何精妙,最终都要在实际生产中落地。DeepSeek-OCR 的另一个价值,在于它在大规模数据生产上的恐怖效率。

    高质量的数据,是训练强大模型的基石。在当前高质量数据日益稀缺的背景下,一个能“自产”数据的能力,其价值是无法估量的。DeepSeek-OCR 就像一个超级工厂,为大型模型的训练,开启了一条永不停歇的高速公路

    数据生产效率

    • 单卡能力:仅用一块 A100-40G GPU,DeepSeek-OCR 每天可以为 LLMs/VLMs 生成超过   万页的训练数据。

    • 集群爆发力:如果使用   个节点(每个节点配备   张 A100-40G GPU),每天可以生成   万页数据。

     万页是什么概念? 哪怕是全球顶尖的书馆,要收集如此海量的数据,也需要漫长的时间和巨额的成本。DeepSeek-OCR 却能在一天之内完成,这简直就是 “效率怪兽”

    []

    这种效率优势,很大程度上再次归功于 MoE 解码器带来的高性价比推理。它以   的参数激活量,实现了  B 模型的表达能力。推理速度快,内存占用低,产能自然就上去了。

    你可能在网购时已经体验过(第二人称叙事)AI 客服的便捷,但你是否想过,它们背后那个能够快速检索、准确回答的知识库是如何在极短时间内构建起来的?DeepSeek-OCR 的工业级效率,正是大规模知识库和专业数据集构建的幕后超级推手。它让高质量、多模态、大规模训练数据,不再是大型 AI 实验室的“奢侈品”。


    结论:重新定义“一胜千言”的时代价值

    回顾 DeepSeek-OCR 走过的每一步,它不仅仅是一个 OCR 工具的升级,它更是对整个 视觉语言模态协作范式 的一次深度重构。它通过以下三个核心价值,重新定义了我们对长文本处理的认知:

    1. 范式创新: 首次用定量的分析和工程实践,证明了“上下文光学压缩”的可行性与高效性,为 LLM 的长上下文难题找到了一个结构性的解决方案。

    2. 工程精巧: DeepEncoder 通过   倍卷积压缩模块和 MoE 解码器的组合,实现了在极低 Token 消耗下,依然保持超高精度的“神操作”。

    3. 边界突破: 它将解析能力从传统文档,拓展到了表、化学公式和几何形等复杂多模态领域,极大地拓宽了 VLM 的应用范围。

    这项技术是否会成为下一代大模型训练的准配? 答案几乎是肯定的。随着模型和数据量的不断膨胀,对效率和成本的追求,只会让“光学压缩”这种高效的“数据打包”技术,变得越来越不可或缺。

    DeepSeek-OCR,正在用它的   精度和   倍的压缩比,重新定义“一胜千言”的时代价值。它的代码和模型权重已对外开放,这场效率革命,才刚刚开始。


Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐