教程上新丨32K上下文一次解析数十页文档，百度开源Unlimited OCR，重构长文档复杂场景

OpenBayes

158人浏览 · 2026-07-03 10:55:20

OpenBayes · 2026-07-03 10:55:20 发布

过去几年，OCR 已逐渐从「识别图片里的文字」演变为完整的文档理解（Document Understanding）任务。企业和开发者不仅需要提取文本，还希望模型能够识别复杂版面结构、解析表格与公式、理解多栏排版，并最终输出适合下游 RAG、知识库或办公自动化使用的结构化结果。然而，当处理扫描报告、论文、PPT、合同以及多页 PDF 等长文档时，传统 OCR 流程往往需要逐页推理、再进行后处理拼接，不仅效率较低，也容易造成上下文信息割裂。

以 DeepSeek OCR 为代表的新一代端到端 OCR 模型，通过引入大语言模型作为解码器，充分利用语言先验，显著提升了识别准确率和复杂版面解析能力。但与此同时，一个新的挑战也随之出现：随着输出内容不断增长，模型的 KV Cache 会持续累积，显存占用越来越高，生成速度也会越来越慢。换句话说，模型越接近文档结尾，推理成本越高。

百度团队近期开源的 Unlimited OCR 正是针对这一行业痛点提出了解决方案。该模型以 DeepSeek OCR 为基础，引入全新的 Reference Sliding Window Attention（R-SWA）机制，替换了解码器中的传统 Attention，在降低 Attention 计算成本的同时，将整个解码过程中的 KV Cache 控制为恒定大小。结合 DeepSeek OCR 编码器本身较高的信息压缩能力，Unlimited OCR 能够在默认 32K 上下文长度下，一次前向推理完成数十页文档的 OCR 与版面解析，为长文档处理提供了一种更具工程价值的新思路。更值得关注的是，R-SWA 并不仅适用于 OCR，还具备扩展至自动语音识别（ASR）、机器翻译等长序列解析任务的潜力。

目前，OpenBayes 官网已上线「Unlimited-OCR：一键部署长文档 OCR 与版面解析」教程，降低部署门槛，助力快速验证模型。

在线运行链接：
https://go.openbayes.com/dQOIl

项目示例

Demo 运行阶段

1.登录 OpenBayes.com，在「公共教程」页面，搜索并选择「Unlimited-OCR：一键部署长文档 OCR 与版面解析」教程。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，点击「继续执行」。新用户使用下方邀请链接注册，即可获得满 ¥10 赠 ¥10 优惠券，更有机会获得 ¥15 赠金！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

4.等待分配资源，当状态变为「运行中」后，点击「打开工作空间」进入 Jupyter Workspace。

效果演示

1.页面跳转后，点击左侧 README.ipynb 文件。

2.待运行完毕后，点击右侧 API 地址即可打开 Demo 界面。

项目示例

教程链接：

https://go.openbayes.com/dQOIl

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

一人公司必看：Agent 不是升级版 ChatGPT，是你的临时同事

智能体开发者社区

谷歌证明您不是自动程序，谷歌绑定招商万事达储蓄卡

谷歌账号登录与绑卡问题解决方案：1. 若电脑端无人机验证，可先用手机Chrome完成验证再返回电脑登录；2. 绑定招行万事达储蓄卡时，电脑端无反应可改用手机Chrome操作（成功率高）；3. 注册Google Pixel 10 Pro的Gemini会员时，建议先在手机端完成绑卡，电脑端领取会员时直接选用该卡即可。