任意PDF与图片的批量信息提取软件 OCR 识别加大模型
摘要:本文介绍了一款通用票据信息提取工具,支持PDF和图片格式的各类票据(如发票、机票、保险单等)批量处理。软件采用OCR+大模型技术,操作简单仅需三步:选择文件夹、识别样本选择字段、批量提取并自动保存。相比之前版本,新增支持任意格式票据处理,并能区分电子PDF(可选中文字)与非电子PDF(需OCR识别)。下载地址附后。
之前好几个朋友问我是否可以提取一些很少见的票据的信息到Excel, 比如国外的飞机票,或者国外的保险单,或者工厂地秤的票据,如果单独为这些少见的票据写定制的代码其实很麻烦,所以今天花了点时间做了一个通用的信息提取工具
0 软件做什么用的?
比如你有一堆同样格式!同样格式!同样格式! 的发票或飞机票或者地铁票或者保险单或者其他任意文件(目前支持PDF和图片),需要批量把里面的某些信息提取出来,
比如所有发票或飞机票的金额,或者保险单的金额以及其他细节等等,那么就可以使用这个软件
1 怎么使用软件?
直接打开用就会使用了,很简单,只有三个按照顺序点击的按钮,按照步骤来即可, 可以直接先使用,不会的话再来看说明
把你需要提取信息的PDF或者图片放在一个文件夹里面,
然后打开软件,等待界面出现,有点慢
第一步,软件里面选择这个文件夹
第二步,点击软件的识别样本按钮,软件就会识别你的第一个文件,然后返回所有的信息和字段,你在这个步骤之后可以选择你需要提取的字段
第三步,点击软件的批量识别提取按钮,等待所有信息提取完成即可,结果会自动保存在你的第一步的文件夹
2 和之前软件最大的不同点在哪里?
不仅仅支持发票了,支持任意票据,任意PDF和图片格式的文档;
并且采用了不同的技术路线,这次使用的是OCR加大模型的技术路线,之前是使用的是电子PDF内部数据直接解析的方案
所以可以混合使用,根据你的实际数据情况和需求来
PS:很多人分不清什么是电子PDF,什么是非电子的PDF,简单说就是如果PDF里面的文字你可以用鼠标选中,那就是电子格式的,可以直接解析读取内部数据,如果是一整张照片那样的就是非电子格式的PDF,可以把它看作一张张图片组成的PDF,这种就只能通过OCR来识别
下载地址:
链接:https://pan.baidu.com/s/1WQQ8kaDilaagjoK5IrYZzA
提取码:1111
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)