OCR新王Mistral：1000页仅1美元，GPT-4o、Google被超越？

木易AI信息差

1474人浏览 · 2025-03-10 06:00:00

木易AI信息差 · 2025-03-10 06:00:00 发布

如何让 AI 读懂你的 PDF 文档？OCR 是一个绕不开的话题。

OCR，中文名：光学字符识别，全称：Optical Character Recognition，是一种将图片或扫描文档中的文字转换为可编辑、可搜索的文本的技术。OCR 的核心原理是通过计算机视觉识别字符形状，再利用机器学习和深度学习模型进行智能匹配，从而精准还原原始文本内容。例如，当你扫描一张纸质文档，OCR 可以识别并提取其中的文字，使其可以被编辑、复制或用于搜索。

虽然 OCR 技术已广泛应用，但传统 OCR 解决方案往往局限于简单的印刷文本识别，当面对复杂文档（表格、公式、图像）、多语言内容（不同字体、手写体、特殊字符）、非标准排版时，往往难以满足高精度需求。

近日，号称“欧洲的 OpenAI”的 Mistral AI 发布了一款全新的 OCR API —— Mistral OCR。

Mistral OCR 支持 PDF 和图片输入，主打精准解析文档里的全部元素，包括文本、表格、数学公式、图片，多语言支持自然是标配，并且可以还原复杂排版，并输出结构化数据（比如 JSON、Markdown）。

更更重要的是，Mistral OCR 极具性价比，每 1000 页定价为 1 美元，批量推理模式下单位成本更低（约为单页推理的一半）。

综合来看，Mistral OCR 非常适合多模态检索和 AI 问答系统，比如以 RAG（检索增强生成）为核心的 AI 知识库。

从官方给出的案例来看，Mistral OCR 对复杂文档元素的解析能力是 TOP 级别的，比如图片、LaTeX 数学公式、表格。

1. 图片

扫描版：

Mistral OCR 识别后：

2. LaTeX 数学公式

扫描版：

Mistral OCR 识别后：

说一句完美不过分吧。

3. 文档

扫描版：

Mistral OCR 识别后：

在基准测试中，Mistral OCR 的表现更是“遥遥领先”。

Model	综合评分	数学公式	多语言	扫描文档	表格解析
Google Document AI	83.42	80.29	86.42	92.77	78.16
Azure OCR	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Gemini-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Gemini-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
GPT-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Mistral OCR 2503	94.89	94.29	89.55	98.96	96.12

Mistral OCR 支持原生多语言，据称可处理数千种不同的语言、字体和字符集。在多语言识别的基准测试中，Mistral OCR 2503 取得了99.02% 的模糊匹配准确率，依旧是全场领先。

而对中文的解析准确率，更是达到了史无前例的高，97.11%。

处理速度方面，Mistral OCR 采用轻量级架构，官方称单节点处理速度高达 2000 页每分钟，适用于高吞吐量场景。

输出方面，Mistral OCR 支持结构化输出。Mistral 官方把这个功能称作：文档即提示（Doc-as-Prompt），也即直接把输入文档作为提示词，提供 JSON、Markdown 等结构化输出。该功能适用于自动化流程和下游任务，如：提取关键信息、格式化数据、AI Agent。

怎么用 Mistral OCR

直接在 Mistral 的 Le Chat 平台免费使用
API：在 la Plateforme 上访问

Mistral OCR API 价格和前面说的一样，每 1000 页成本为 1 美元，批量处理再减半。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

精选推荐

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla