PDF转Markdown工具:MinerU、PaddleOCR
MinerU 是一款将 PDF 转换为机器可读格式(如 markdown、JSON)的工具,可轻松提取为任意格式。MinerU 诞生于的预训练过程中,我们专注于解决科技文献中的符号转换问题,希望为大模型时代的技术发展贡献力量。与国内外知名商业产品相比,MinerU 还很年轻。如果您遇到任何问题或效果未达预期,请在提交问题并。核心功能。
·
一、MinerU
下载:https://github.com/opendatalab/MinerU/releases
MinerU 是一款将 PDF 转换为机器可读格式(如 markdown、JSON)的工具,可轻松提取为任意格式。MinerU 诞生于 InternLM 的预训练过程中,我们专注于解决科技文献中的符号转换问题,希望为大模型时代的技术发展贡献力量。与国内外知名商业产品相比,MinerU 还很年轻。如果您遇到任何问题或效果未达预期,请在 GitHub Issues 提交问题并附上相关 PDF 文件 。
核心功能
- 去除页眉、页脚、脚注、页码等元素,确保语义连贯性
- 按人类阅读顺序输出文本,适用于单栏、多栏及复杂版式
- 保留原始文档结构,包括标题、段落、列表等
- 提取图像、图像描述、表格、表格标题及脚注
- 自动识别并将文档中的公式转换为 LaTeX 格式
- 自动识别文档中的表格并转换为 HTML 格式
- 自动检测扫描版 PDF 与乱码 PDF,并启用 OCR 功能
- OCR 支持 84 种语言的检测与识别
- 支持多种输出格式,如多模态与 NLP Markdown、阅读顺序排序的 JSON,以及信息丰富的中继格式
- 支持多种可视化结果呈现,包括布局可视化、跨度可视化等,便于高效确认输出效果与质量检验
- 支持纯 CPU 环境运行,同时兼容 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容 Windows、Linux 及 Mac 多平台运行
二、PaddleOCR
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)