告别人工撰写!AutoPatent助力大模型高效生成完整专利
本推文介绍了AutoPatent,它是一个面向专利自动生成的多智能体框架,通过规划、写作和审查智能体协同工作,结合PGTree结构与RRAG机制,实现高质量、结构化的专利文档生成。
本推文介绍了一篇最新发布在arXiv上的论文《AutoPatent: A Multi-Agent Framework for Automatic Patent Generation》。该论文提出了一个多智能体专利自动生成框架AutoPatent,通过规划智能体、写作智能体与审查智能体的协同工作,构建结构化的专利写作指导树(PGTree),结合参考-审查增强生成机制(RRAG),实现从技术草稿到完整专利文档的高效转化。AutoPatent采用“短部件生成+指导树规划+参考审查增强生成”的三阶段流程,模拟真实专利撰写场景,有效保证了生成专利的结构性、一致性与法律合规性。在构建的专利生成基准任务Draft2Patent及数据集D2P上,AutoPatent的表现显著超过了GPT-4o、Qwen2.5、LLAMA3等多个主流大模型,在BLEU、ROUGE、IRR等客观指标以及专家人工评估中均表现优异。该框架具备良好的通用性,为复杂结构文本的自动生成提供了一种创新且高效的解决方案。
本文作者为黄星宇,审校为许东舟和邱雪。
论文链接:https://arxiv.org/pdf/2412.09796
项目链接:https://github.com/QiYao-Wang/AutoPatent
一、论文机构介绍
该论文由深圳高性能数据挖掘重点实验室(中国科学院深圳先进技术研究院)和大连理工大学联合完成。深圳高性能数据挖掘重点实验室长期聚焦人工智能和自然语言处理领域的前沿研究,致力于解决真实世界中的复杂问题;大连理工大学则在知识产权与技术创新领域积淀深厚、实践经验丰富,为自动专利生成任务提供了坚实的研究支撑。
二、研究背景
随着大语言模型(LLM)在自然语言处理领域的不断发展,其在专利处理中的应用逐渐受到关注。然而,现有研究主要集中在分类、摘要等短文本任务,尚未解决如何生成结构复杂、篇幅庞大的完整专利文档这一实际需求。而现实中专利撰写依赖人工完成,耗时费力、成本高昂。因此,论文提出了一个更具实际意义的任务——Draft2Patent,旨在探索LLM在自动生成高质量完整专利中的能力,并推动专利智能化撰写的发展。
论文围绕“Draft2Patent”任务展开研究,旨在将发明者提供的技术草稿自动转化为完整的专利文档。为此,作者构建了包含1933组草稿-专利对的数据集D2P,并提出一个多智能体协作框架AutoPatent,引入规划、写作与审查三类智能体,分阶段生成各个专利组成部分。框架核心包括PGTree结构规划机制与RRAG参考-审查增强生成机制,模拟真实撰写流程,提升生成内容的结构性、一致性与合法性。
三、方法

图1 真实世界的专利申请流程与Draft2Patent任务流程的对比示意图
图1展示了AutoPatent提出的Draft2Patent任务与真实世界专利申请流程之间的对比。在传统的真实场景中,发明人需要提供技术草稿给人类专利代理人。专利代理人负责技术分析、专利性评估、术语标准化、一致性检查、权利要求撰写、法律审查以及文档结构化等多项内容审核与改写工作,最终形成完整的专利申请文档。这一过程需要大量人工投入,成本高昂且效率较低。
而在Draft2Patent任务中,发明人只需回答五个核心问题形成初始草稿,由智能审查代理进行质量评估,通过审核后,自动进入AutoPatent框架进行专利文档的自动生成,从而高效完成专利申请文档的撰写与提交。这种方法大幅降低了人工成本并提高了专利撰写的效率和一致性。

图2 AutoPatent框架
图2展示了AutoPatent框架在完成“Draft2Patent”任务中的完整流程。整个系统模拟了从发明草稿到完整专利撰写的真实过程,通过多个大语言模型智能体的协同工作,将草稿结构化地转化为高质量的专利文档。整体流程分为三个主要阶段,并配套了两个质量审查环节,确保最终生成内容的完整性、合法性和专业性。
1. 短部件生成(Step I: Short Components Generation)
发明人提交草稿后,AutoPatent启动六个专属的短组件写作智能体(Component Writer),分别负责生成专利中的标题(T)、摘要(A)、背景(B)、总结(S)和要求(C)。这些智能体通常经过微调,具备一定的专利语言风格适配能力。它们根据草稿内容,输出对应组件内容,构成一个结构化的参考集合R(Reference),用于后续生成环节。
2. 写作结构规划(Step II: Building PGTree)
AutoPatent通过规划智能体(Planning Agent)读取初始草稿,构建出一个两层结构的写作指导树PGTree(Patent Writing Guideline Tree)。PGTree的第一层是多个Section,表示专利描述的主要部分;第二层是每个Section下的若干Subsection,用于细化写作主题。每个Subsection都会对应一个写作指导节点(nij),作为描述内容生成的明确目标。
3. 参考-审查增强生成(Step III: RRAG, Reference Review Augmented Generation)
在这一阶段,描述写作智能体(Description Writer)根据指导节点nij从参考集合R中检索相关信息,结合PGTree结构W与原始草稿D,生成目标段落(dij)。所有段落拼接后构成专利的详细描述部分,最终与短组件合并形成完整的专利文档P。
此外,AutoPatent框架引入了双层质量控制机制,由审查智能体(Examiner Agent)负责。一方面是草稿质量审查(Draft Quality Review):如果发明人提交的草稿不合格,系统会给出反馈,指导其修改直至通过。另一方面是段落级别的子节审查(Subsection Review):每个生成的段落dij都会被审查智能体评估,如果不符合要求,会返回修改建议,由描述写作智能体进行重写,直到满足质量标准。
四、实验结果
在本节实验中,作者围绕所提出的AutoPatent框架,在其构建的Draft2Patent任务与D2P数据集上进行了系统评估。实验分别从自动评估指标(如BLEU、ROUGE、IRR)和人工评价(多维度打分)两个维度出发,对AutoPatent在不同大语言模型下的表现进行了全面比较,并进一步通过消融实验分析了关键模块对整体性能的贡献。整体目标是验证该框架在专利生成任务中的有效性、通用性与可扩展性。
表1 不同模型在自动指标下的性能对比

表1展示了AutoPatent与多种主流大语言模型(包括LLAMA3.1系列、Qwen2.5系列、Mistral-7B、GPT-4o系列)在BLEU、ROUGE-1/2/L、IRR(Inverse Repetition Rate)和平均生成长度等指标下的对比结果。可以看到,AutoPatent在不同基础模型上均显著提升了文本生成质量。其中,基于Qwen2.5-7B的AutoPatent在BLEU上达到最高分53.03,全面超越了对应SFT微调模型(49.10)和零样本调用模型(8.51)。同时,在IRR指标上,AutoPatent在t=0.2和t=0.4下几乎全部高于90,说明其生成文本重复率更低、结构更加多样,整体可读性与专业性更强。

图3人工评估中AutoPatent与其他模型的优劣比较
图3展示了通过三位人工专家对多个模型生成的50份专利文本进行盲评的结果,评估维度涵盖内容准确性、逻辑性、清晰度、一致性等六项指标。绿色柱代表AutoPatent在该维度上的胜出次数,橙色为持平,蓝色为劣于对比模型的情况。可以看到,AutoPatent在大多数模型对比中获胜比例均超过60%,在多个场景下对比GPT-4o、Qwen2.5-7B+SFT等强基线仍保持显著优势,体现出其在实际应用中更具稳定性和可靠性。
表2 AutoPatent关键模块的消融实验结果

为了进一步验证框架中PGTree与RRAG两个核心模块的作用,论文基于GPT-4o-mini模型进行了消融实验。表2结果显示,当移除PGTree模块后,BLEU值从50.83骤降至3.43,平均生成长度也下降至不足2000 tokens,说明PGTree对于长文本组织结构的形成至关重要。而当移除RRAG模块(即去除审查反馈机制)时,各项指标也出现不同程度下滑,尤其是ROUGE-L与IRR分数下降明显,表明RRAG能有效提高生成内容的多样性与质量控制。
五.总结
论文提出了AutoPatent,一个面向完整专利生成任务的多智能体框架。该框架通过规划智能体构建写作指导树(PGTree),利用多个写作智能体生成短文本组件和详细描述段落,并结合审查智能体与参考-反馈机制(RRAG)实现逐段审查与优化,从而生成结构清晰、内容完整、合法合规的专利文档。实验结果表明,AutoPatent在多个主流大语言模型下均显著提升了生成质量,在BLEU、ROUGE、IRR等指标以及人工评估中表现优异,验证了其在复杂结构长文本生成任务中的有效性与实用潜力。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)