Cherry Studio × PaddleOCR:技术深度集成,重塑多语言文档解析与智能知识库工作流体验
随着更全面的文档解析能力与多模态技术的不断加入,PaddleOCR将与Cherry Studio等开源生态伙伴共同构建更高效、更专业的智能工具链,为全球用户持续提供更强的生产力体验。除了基础的文字识别功能(全场景文字识别模型)外,PaddleOCR还支持更复杂的文档解析任务,提供包括流水线式的复杂文档解析模型以及0.9B多模态文档解析方案在内的多种方案。本文将重点介绍如何在Cherry Studi

在当前由人工智能驱动的内容生产与知识处理效率变革中,智能化工具已成为开发者与创作者工作流中不可或缺的“生产力引擎”。Cherry Studio —— 一款简单高效的一站式AI应用系统、专注于多语言翻译与复杂内容理解的开源桌面应用,始终致力于提升用户在处理全球化文档时的效率与体验。目前,Cherry Studio已与PaddleOCR文字识别与文档解析开发套件完成深度技术集成,为用户带来更准确、更高效的图像与跨语言文档处理体验。
本文将重点介绍如何在Cherry Studio的翻译应用中调用PaddleOCR中的PP-OCRv5全场景文字识别模型,用于提取图像中的文本内容。


在Cherry Studio中调用PaddleOCR
轻量集成、即开即用
Cherry Studio已支持调用PP-OCRv5在翻译场景中进行图像文字识别。在应用内部,当用户需要从图片中读取内容进行翻译时,只需在界面中选择调用OCR功能,即可通过集成的PaddleOCR接口完成文本提取并直接用于后续翻译流程。
以下是配置与使用步骤:
1. 进入OCR服务设置
在Cherry Studio设置界面中,依次选择「文档处理」→「OCR服务」。

2. 配置PaddleOCR服务
将OCR服务提供商设置为PaddleOCR,并填写对应的API URL及飞桨星河社区的访问令牌。API URL可使用PaddleOCR官方服务,也支持用户通过星河社区或本地自行部署的服务地址。以下主要介绍官方服务调用方式。如需自建服务,请参考PaddleOCR服务化部署文档。
2.1 获取API URL
-
访问PaddleOCR官网任务页。
-
点击左上角「API」,选择「文字识别(PP-OCRv5)」,复制显示的
API_URL。

2.2 获取访问令牌
-
在星河社区令牌页面获取访问令牌。
3. 启动翻译应用
点击Cherry Studio界面左上角的「+」按钮,打开「翻译」应用。

4. 上传图像并识别文本
点击左下角的「+」上传待翻译的图像文件,系统将自动调用PaddleOCR服务完成识别任务。
5. 查看识别结果并翻译
OCR处理完成后,左侧文本框将显示从图像中提取的文本内容,如下图所示。随后可将其翻译为目标语言。


开源技术共建
让智能能力融入每一个工具
除了基础的文字识别功能(全场景文字识别模型)外,PaddleOCR还支持更复杂的文档解析任务,提供包括流水线式的复杂文档解析模型以及0.9B多模态文档解析方案在内的多种方案。这些高级能力也将陆续集成到Cherry Studio中,为用户带来更全面的文档智能处理体验。
Cherry Studio × PaddleOCR的合作不仅提升了产品的文档处理能力,更展示了开源技术之间协作的力量:
-
为用户带来更高质量的跨语言图文处理体验;
-
让开发者以更低门槛获得行业领先的OCR能力;
-
推动开源项目之间能力互补、生态共建。
随着更全面的文档解析能力与多模态技术的不断加入,PaddleOCR将与Cherry Studio等开源生态伙伴共同构建更高效、更专业的智能工具链,为全球用户持续提供更强的生产力体验。
关于Cherry Studio
Cherry Studio是一款集多模型对话、知识库管理、AI绘画、翻译等功能于一体的全能AI助手平台。Cherry Studio高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和AI爱好者的理想选择。无论是零基础用户还是开发者,都能在Cherry Studio中找到适合自己的AI功能,提升工作效率和创造力。
👉 了解Cherry Studio:
https://github.com/CherryHQ/cherry-studio
关于PaddleOCR
PaddleOCR是百度飞桨推出的文字识别与文档解析开发套件,能够将各类文档与图像高效转换为结构化、AI友好的数据格式(如JSON和Markdown),并凭借行业领先的识别精度,为全球开发者、初创团队及大型企业的AI应用提供强大支持。PaddleOCR提供覆盖全场景的高精度文字识别能力,其最新的文字识别方案PP-OCRv5具备以下亮点:
1. 单模型支持五种文字:可同时识别简体中文、繁体中文、中文拼音、英文和日文。
2. 手写体识别能力增强:针对复杂连笔、非规范字迹等场景,识别性能显著提升。
3. 整体精度大幅提升:在多种应用场景中达到SOTA(State-of-the-Art)精度,相比上一代方案,识别准确率提升达13个百分点!
关于PaddleOCR的更多信息可参阅官方仓库:
https://github.com/PaddlePaddle/PaddleOCR

扫码加入官方技术交流群
加入我们
诚挚邀请全球相关开源项目、开发者工具链团队及各类行业伙伴,与文心大模型、飞桨共建开源生态,共同推进文档解析、知识智能与企业级AI技术的普及与落地。
与文心大模型(ERNIE)、飞桨(PaddlePaddle)开展相关开源生态合作,伙伴可获得:
-
与文心大模型、飞桨的深度技术对接与集成支持;
-
覆盖模型、框架、推理、文档解析、数据治理等全栈生态资源;
-
面向行业的联合解决方案打造与联合发布机会;
-
内容生态、市场活动、行业推广等多渠道赋能。
让我们一起,以开源与技术的力量,构建下一代智能化知识生态。


关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
更多推荐

所有评论(0)