OCRBench：评估多模态大模型的OCR能力

OCRBench在10个文本相关任务上测评多模态大模型（LMM）的OCR能力，包含1000个问题-答案对，每个问题-答案对包含以下五个类别：index（索引），image（图片），question（问题），answer（回答），category（问题类别）。需要注意的是，在tsv文件中，图片使用Base64编码保存。Base64 编码可将二进制图像文件（PNG、JPEG、GIF）转换为紧凑的纯文本

北京地铁1号线

1086人浏览 · 2025-06-18 14:18:16

北京地铁1号线 · 2025-06-18 14:18:16 发布

论文地址：OCRBench: On The Hidden Mystery of OCR In Large Multimodal Models：2305.07895

OCRBench在10个文本相关任务上测评多模态大模型（LMM）的OCR能力，包含1000个问题-答案对，每个问题-答案对包含以下五个类别：index（索引），image（图片），question（问题），answer（回答），category（问题类别）。其中问题类别主要有以下内容：

任务	翻译	image（图片）示例	question（问题）示例	answer（回答）示例	任务数量
Key Information Extraction	关键信息提取		what is the total amount of this receipt? Answer this question using the text in the image directly.	['26.58']	200
Doc-oriented VQA	面向文档的视觉问答		Whats the Venue Name?	['the halfmoon']	200
Scene Text-centric VQA	以场景文本为中心的视觉问答		What is the title of the book?	['PENDRAGON']	200
Handwritten Mathematical Expression Recognition	手写数学表达式识别		Please write out the expression of the formula in the image using LaTeX format.	['x = \\frac { 1 7 } { 5 }\n']	100
Irregular Text Recognition	不规则文本识别		what is written in the image?	['COFFEE']	50
Regular Text Recognition	规则文本识别		what is written in the image?	['CHAIN']	50
Non-Semantic Text Recognition	非语义文本识别		what is written in the image?	['espt']	50
Digit String Recognition	数字字符串识别		what is the number in the image?	['9557']	50
Handwriting Recognition	手写体识别		what is written in the image?	['bread']	50
Artistic Text Recognition	艺术文本识别		what is written in the image?	['Home']	50
Total	总计	-	-	-	1000

需要注意的是，在tsv文件中，图片使用Base64编码保存。Base64 编码可将二进制图像文件（PNG、JPEG、GIF）转换为紧凑的纯文本字符串，从而直接嵌入到 HTML、CSS 或 JSON 中。

要将Base64编码转换为图片，有以下三种方式：

（1）使用在线网站：例如：Base64 转图片转换器 – 免费在线工具箱 - DopuBOX

（2）使用脚本：

import base64

# 1. 复制 Base64 编码字符串
base64_data = "/9j/4AAQSkZJRgABAQAAAQABAAD/...（完整字符串）/ALz44+gHAooA/9k="

# 2. 解码并保存为图片
with open("output.jpg", "wb") as f:
    f.write(base64.b64decode(base64_data))

print("图片已保存为 output.jpg")

（3）浏览器直接预览

在 HTML 文件中使用以下代码：

<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ...（完整 Base64 字符串）.../9k=">

用浏览器打开该 HTML 文件即可显示图片。

说明

编码类型：该字符串是 JPEG 图片的 Base64 编码（以 /9j/ 开头）。
注意事项：确保复制完整的编码（从 /9j/ 到结束标记 /9k=），否则转换会失败。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大