在LLM和音频模型发布周的浪潮中,我们发布了一个新的OCR模型版本,它非常完美,而且不仅仅是一个OCR。

大多数 OCR 工具就像笨拙的机器人。他们抓住他们能看到的任何文本并将其扔掉,无论它是句子的一部分、表格、奇怪的邮票还是某人的签名。

我的新书《模型上下文协议:面向初学者的高级 AI 代理》现已出版

模型上下文协议:面向初学者的高级 AI 代理(生成式 AI 书籍)

Amazon.com:模型上下文协议:面向初学者的高级 AI 代理(生成式 AI 书籍)电子书:Gupta、Mehul、Sen...

www.amazon.com

Nanonets-OCR-s 不同

将显示缩放图像

将显示缩放图像

可以提取有结构的表

这种新模型不仅可以阅读文档,还可以理解文档。它将图像转换为干净、有组织的 markdown,使表格、复选框、图像甚至数学公式等内容保持正确的格式。基本上,它为您提供了可以实际使用的东西,而不是一团糟。

为什么这是一件大事

将显示缩放图像

将显示缩放图像

可以轻松处理乳胶

假设您扫描了一个表单。大多数 OCR 工具都会为您提供一团文本。
纳米网-OCR-s?它会告诉你:

  • 什么是表格
  • 什么是图片
  • 什么是水印
  • 什么是签名
  • 选中了哪些框
  • 您使用的页码是什么
  • 如果有数学,它甚至会把它变成正确的数学代码

这比纯文本有用得多。

Nanonets OCR 功能

将显示缩放图像

将显示缩放图像

它解释图像

它绝对不仅仅是一个 OCR,更像是一双眼睛:

  • 数学方程 — 将打印的数学变成可以复制和重复使用的简洁、可读的代码
  • 图像 — 不会忽略它们;它描述了它们
  • 签名 — 查找它们并单独提取它们
  • 水印 — 同样的事情,它可以发现它们并标记它们
  • 复选框 — 告诉您哪些被勾选,哪些未被勾选
  • 桌子 — 不会把它们弄乱;它为您提供完整、适当的表格,您可以粘贴到文档或网页中

了解培训

将显示缩放图像

将显示缩放图像

也可以处理签名

他们使用了超过 250,000 份文件——从税表到研究论文,应有尽有。

  • 其中一些是假的(但很现实),有些是真实的,并且经过精心标记。
  • 他们首先在假东西上训练它,然后使用真的东西对其进行微调。
  • 目前还不支持手写,有时模型猜错了——但对于打字的文档,它真的很可靠。

它非常有用

相信我,这是一个大型版本,也是同类模型之一。

  • 学生和研究人员:您可以扫描论文并保持数学和表格完好无损。
  • 律师和金融人员:最后,一个知道什么是签名的 OCR。
  • 医生和诊所:带有复选框的表格?它得到了他们。
  • Office Teams:如果您遇到扫描报告的问题,这会将它们转换为您可以搜索或使用的真实文本。

为什么它很重要

我们生活在一个每个人都希望将文档输入人工智能工具的世界。

但如果文件一团糟,即使是最聪明的人工智能也无济于事。

这个模型首先清理烂摊子。从非结构化图像准备数据非常有用。它为您提供了文档的干净、结构化版本——人工智能工具实际上可以理解这一点。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐