从OCR-1.0到OCR-2.0：深入解读GOT

传统的OCR系统，即所谓的OCR-1.0，通常采用多阶段流水线结构，包括文本检测、图像裁剪与校正、文字识别等多个模块。本文作者提出了“通用OCR理论”（General OCR Theory），意图打破传统OCR范式的限制，朝着OCR-2.0迈进——构建一个统一、端到端、高性能且具交互性的OCR系统。这样可以在不丢失文本细节的情况下进行高效表征。：采用Qwen-0.5B，具备约500M参数和8K上下

Jim_gaogao

800人浏览 · 2025-06-04 13:18:07

Jim_gaogao · 2025-06-04 13:18:07 发布

一、研究背景与动机

光学字符识别（OCR）技术作为文本数字化的核心手段，广泛应用于票据识别、档案扫描、场景文字提取等领域。传统的OCR系统，即所谓的OCR-1.0，通常采用多阶段流水线结构，包括文本检测、图像裁剪与校正、文字识别等多个模块。这种架构虽然在工业界应用广泛，但存在诸如误差传播、模块不一致、部署复杂等问题。

近年来，视觉语言大模型（LVLMs）如CLIP、LLaVA、Qwen-VL等，通过融合视觉与语言信息，在视觉问答等推理类任务中表现出色。然而，这类模型并未真正解决OCR任务中的“感知挑战”：在面对高密度文本、结构化文档、多页内容时，LVLMs常常捉襟见肘。

本文作者提出了“通用OCR理论”（General OCR Theory），意图打破传统OCR范式的限制，朝着OCR-2.0迈进——构建一个统一、端到端、高性能且具交互性的OCR系统。这一理论被实现为具体模型GOT（General OCR Theory），并在多个场景中取得显著成果。

二、方法与模型解析

GOT模型采用典型的编码器-解码器架构，但其关键创新体现在模型组件的设计与任务范式的重构：

核心结构：

视觉编码器：采用ViTDet结构的高效视觉编码器，参数量约80M。输入图像分辨率为1024×1024，输出被压缩为256个tokens，每个维度为1024。这样可以在不丢失文本细节的情况下进行高效表征。
线性映射层：用于将编码器输出维度从1024降至768，以便作为语言解码器的输入。
语言解码器：采用Qwen-0.5B，具备约500M参数和8K上下文窗口，能处理结构化长文档，并灵活生成各类格式文本（纯文本、Markdown、LaTeX、SMILES等）。

关键创新点：

OCR任务的统一建模：从传统的“检测-识别”转换为统一的“图像到文本”生成任务，借鉴了LLM范式。
交互式OCR能力：支持通过坐标、颜色等指令性提示完成区域级或结构化内容提取，实现OCR的人机交互性。
可控格式输出：通过自然语言提示词灵活控制输出内容的语义结构或表示格式，如“请将表格转为Markdown”。
多页OCR与动态分辨率支持：可处理跨页的长文档，并依据内容自适应调整输入图像的处理粒度。

三、实验设计与对比分析

论文通过多个任务验证了GOT模型在不同OCR场景中的通用性与性能提升：

使用的数据集：

文档OCR：如AI Challenger、FUNSD
场景文字识别：如ICDAR、SVT
特殊结构识别：如化学式识别（SMILES）、LaTeX公式识别

核心实验结果（部分举例）：

方法	任务类别	Top-1准确率	特点/备注
GOT (本文)	多场景OCR	94.8%	支持格式生成、区域OCR等复杂任务
PP-OCRv3	文档OCR	90.2%	高性能OCR流水线系统
LLaVA	文本问答OCR	72.4%	在感知任务中表现欠佳
Donut	文档生成OCR	89.5%	类似Encoder-Decoder结构

分析：

全面性能领先：GOT在多个任务上超越传统模块化OCR系统与主流LVLMs，尤其在长文档、表格、结构化OCR上展现出色性能。
格式控制与可扩展性：通过prompt轻松适配多任务需求，展现良好泛化能力。
计算效率适中：尽管模型端到端结构复杂，但在推理效率与准确率之间取得了平衡。

四、消融实验与关键因素分析

论文设计了消融实验评估各组件的重要性，发现以下因素最具影响力：

压缩率与识别性能的权衡：视觉编码器的token压缩比若过大，会丢失细节；若压缩比合理（如256 tokens），可保持识别精度的同时提升效率。
上下文长度的影响：解码器上下文窗口扩展至8K后，显著提升了对长文档和多段文本的处理能力。
交互OCR能力测试：加入坐标、颜色等辅助提示后，模型在区域提取任务中准确率提升超过6%。

此外，还测试了不同提示词（prompt）在结构控制中的稳定性，证明了prompt可调性在任务泛化中的作用。

五、局限性与未来工作

作者提到的局限：

推理速度较慢：相比轻量级OCR模块，端到端模型在设备端部署仍有挑战。
复杂格式生成误差：如生成LaTeX代码时，有时结构不完整或语法错误。
语言适应性有限：目前主要支持中英文，其他语言能力尚未完善。

进一步可探索方向：

模型轻量化与蒸馏优化：如引入LoRA、MoE、蒸馏技术提升部署能力。
提示工程的系统性研究：使得任务切换更鲁棒、可控。
多模态能力扩展：引入图表理解、表格解析、文档重建等复合任务。

六、个人评价与思考

GOT模型的提出标志着OCR从1.0模块化范式正式迈入2.0统一范式时代。它不仅在结构上融合了LLM和视觉模型的优势，更重要的是在方法论上提出了OCR任务重定义的方向。这种“感知即生成”的思路，非常适合未来信息流通碎片化、文档多样化的应用场景。

相比传统OCR系统，GOT不仅减少了模块耦合，更重要的是提高了任务的灵活性和表达能力。它启发我们思考，未来不仅是“让机器识别字符”，更是“让机器理解文档”。

如果我来扩展这个工作，可能会尝试：

构建一个轻量版GOT-Tiny，用于移动设备端部署；
引入图文混合提示，拓展至图解文档或课件OCR任务；
在语义层构建更多控制机制，让模型输出具备“任务感知”。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla