Cherry Studio × PaddleOCR：技术深度集成，重塑多语言文档解析与智能知识库工作流体验

随着更全面的文档解析能力与多模态技术的不断加入，PaddleOCR将与Cherry Studio等开源生态伙伴共同构建更高效、更专业的智能工具链，为全球用户持续提供更强的生产力体验。除了基础的文字识别功能（全场景文字识别模型）外，PaddleOCR还支持更复杂的文档解析任务，提供包括流水线式的复杂文档解析模型以及0.9B多模态文档解析方案在内的多种方案。本文将重点介绍如何在Cherry Studi

百度大脑

577人浏览 · 2025-12-03 21:30:02

百度大脑 · 2025-12-03 21:30:02 发布

在当前由人工智能驱动的内容生产与知识处理效率变革中，智能化工具已成为开发者与创作者工作流中不可或缺的“生产力引擎”。Cherry Studio —— 一款简单高效的一站式AI应用系统、专注于多语言翻译与复杂内容理解的开源桌面应用，始终致力于提升用户在处理全球化文档时的效率与体验。目前，Cherry Studio已与PaddleOCR文字识别与文档解析开发套件完成深度技术集成，为用户带来更准确、更高效的图像与跨语言文档处理体验。

本文将重点介绍如何在Cherry Studio的翻译应用中调用PaddleOCR中的PP-OCRv5全场景文字识别模型，用于提取图像中的文本内容。

在Cherry Studio中调用PaddleOCR

轻量集成、即开即用

Cherry Studio已支持调用PP-OCRv5在翻译场景中进行图像文字识别。在应用内部，当用户需要从图片中读取内容进行翻译时，只需在界面中选择调用OCR功能，即可通过集成的PaddleOCR接口完成文本提取并直接用于后续翻译流程。

以下是配置与使用步骤：

1. 进入OCR服务设置

在Cherry Studio设置界面中，依次选择「文档处理」→「OCR服务」。

2. 配置PaddleOCR服务

将OCR服务提供商设置为PaddleOCR，并填写对应的API URL及飞桨星河社区的访问令牌。API URL可使用PaddleOCR官方服务，也支持用户通过星河社区或本地自行部署的服务地址。以下主要介绍官方服务调用方式。如需自建服务，请参考PaddleOCR服务化部署文档。

2.1 获取API URL

访问PaddleOCR官网任务页。
点击左上角「API」，选择「文字识别（PP-OCRv5）」，复制显示的 API_URL。

2.2 获取访问令牌

在星河社区令牌页面获取访问令牌。

3. 启动翻译应用

点击Cherry Studio界面左上角的「+」按钮，打开「翻译」应用。

4. 上传图像并识别文本

点击左下角的「+」上传待翻译的图像文件，系统将自动调用PaddleOCR服务完成识别任务。

5. 查看识别结果并翻译

OCR处理完成后，左侧文本框将显示从图像中提取的文本内容，如下图所示。随后可将其翻译为目标语言。

开源技术共建

让智能能力融入每一个工具

除了基础的文字识别功能（全场景文字识别模型）外，PaddleOCR还支持更复杂的文档解析任务，提供包括流水线式的复杂文档解析模型以及0.9B多模态文档解析方案在内的多种方案。这些高级能力也将陆续集成到Cherry Studio中，为用户带来更全面的文档智能处理体验。

Cherry Studio × PaddleOCR的合作不仅提升了产品的文档处理能力，更展示了开源技术之间协作的力量：

为用户带来更高质量的跨语言图文处理体验；

让开发者以更低门槛获得行业领先的OCR能力；

推动开源项目之间能力互补、生态共建。

随着更全面的文档解析能力与多模态技术的不断加入，PaddleOCR将与Cherry Studio等开源生态伙伴共同构建更高效、更专业的智能工具链，为全球用户持续提供更强的生产力体验。

关于Cherry Studio

Cherry Studio是一款集多模型对话、知识库管理、AI绘画、翻译等功能于一体的全能AI助手平台。Cherry Studio高度自定义的设计、强大的扩展能力和友好的用户体验，使其成为专业用户和AI爱好者的理想选择。无论是零基础用户还是开发者，都能在Cherry Studio中找到适合自己的AI功能，提升工作效率和创造力。

👉 了解Cherry Studio：

https://github.com/CherryHQ/cherry-studio

关于PaddleOCR

PaddleOCR是百度飞桨推出的文字识别与文档解析开发套件，能够将各类文档与图像高效转换为结构化、AI友好的数据格式（如JSON和Markdown），并凭借行业领先的识别精度，为全球开发者、初创团队及大型企业的AI应用提供强大支持。PaddleOCR提供覆盖全场景的高精度文字识别能力，其最新的文字识别方案PP-OCRv5具备以下亮点：

1. 单模型支持五种文字：可同时识别简体中文、繁体中文、中文拼音、英文和日文。

2. 手写体识别能力增强：针对复杂连笔、非规范字迹等场景，识别性能显著提升。

3. 整体精度大幅提升：在多种应用场景中达到SOTA（State-of-the-Art）精度，相比上一代方案，识别准确率提升达13个百分点！

关于PaddleOCR的更多信息可参阅官方仓库：

https://github.com/PaddlePaddle/PaddleOCR

扫码加入官方技术交流群

加入我们

诚挚邀请全球相关开源项目、开发者工具链团队及各类行业伙伴，与文心大模型、飞桨共建开源生态，共同推进文档解析、知识智能与企业级AI技术的普及与落地。

与文心大模型（ERNIE）、飞桨（PaddlePaddle）开展相关开源生态合作，伙伴可获得：

与文心大模型、飞桨的深度技术对接与集成支持；
覆盖模型、框架、推理、文档解析、数据治理等全栈生态资源；
面向行业的联合解决方案打造与联合发布机会；
内容生态、市场活动、行业推广等多渠道赋能。

让我们一起，以开源与技术的力量，构建下一代智能化知识生态。

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla