淘汰你的不是AI,而是懂“模型驱动”的测试!下一代质量保障的核心竞争力!
**之前的趋势是**,**大模型重塑一切,现在的趋势是什么任务都可以用Multi agent重做一遍**,所以,针对这个点,选择知识图谱构建这个任务,来看看几个代表性的多智能体思路。
之前的趋势是,大模型重塑一切,现在的趋势是什么任务都可以用Multi agent重做一遍,所以,针对这个点,选择知识图谱构建这个任务,来看看几个代表性的多智能体思路。
例如OneKE :结合RAG思路的图谱构建多Agent,一个是KARMA:细分多阶段Agent组合思路,看看复杂起来能变成啥样;
又如,细分多阶段Agent组合,搞的很复杂,很细,可以从中看看要做一个好的图谱构建系统,可以精细化到啥程度,核心的,这个prompt可以写成啥样。
另一个,从实用性的角度出发,看看领域多模态代码生成模型的数据构建及训练思路,这个是有用的,,多领域(图表/网页/SVG/LaTeX/分子)的多模态代码生成任务,从图表到代码(Chart-to-code)、网页到HTML(Web-to-HTML)、图像到SVG(Image-to-SVG)、图像到LaTeX(Image-to-Latex)等多种任务的代码生成。比较宝贵的是这这些数据集一集一些强化上的思路,可看看一个工作。
一、多智能体做知识图谱构建的2个代表工作
看两个,一个是**OneKE **:结合RAG思路的图谱构建多Agent,一个是KARMA:细分多阶段Agent组合思路,看看复杂起来能变成啥样。
1、OneKE:结合RAG思路的图谱构建多Agen t
《OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System》,https://arxiv.org/pdf/2412.20005,https://github.com/zjunlp/OneKE,演示视频在http://oneke.openkg.cn/demo.mp4,这个开源了,可重点看看。

OneKE,主要打的点是基于Docker的、模式引导的知识提取系统,采用了多智能体设计,并配置了一个知识库,以支持多种场景下的知识提取和错误调试,设计了三个智能体:用于分析多种数据类型的模式智能体、利用多种大模型进行知识提取的提取智能体,以及用于调试和处理错误案例的反思智能体。
也就是:“三大Agent + 一个配置知识库”

1)SchemaAgent,用于数据预处理与模式生成,为后续抽取任务提供标准化输入

数据处理方面,采用Langchain的document_loaders模块预处理HTML、PDF等多格式数据,对长文本进行分块;预留用户自定义接口,支持新增数据类型。
模式方面,包括预定义模式【从配置知识库的“模式仓库”中选择匹配的预定义模式(如新闻领域、学术论文领域模式)】+自定义模式【用户通过更新“模式仓库”,用简单文本定义自定义模式】+自动推导模式【若用户未提供模式,基于用户指令(如“提取角色和背景设定”)自动生成统一输出模式】;
2)ExtractionAgent,用于基于SchemaAgent输出的模式,调用LLM生成初步抽取结果。

其中包括一些性能优化手段,如案例检索(CaseRetrieval),基于all-MiniLM-L6-v2模型(语义相似度)+FuzzyWuzzy包(字符串匹配)等工具,检索策略上默认获取Top2相关案例,作为少样本示例融入提示词(Prompt),提升抽取准确性。
这一块其实就是fewshot,RAG for 信息抽取。
3)ReflectionAgent,针对ExtractionAgent生成的初步结果,进行错误调试与修正,输出最终结果。

因为单纯做抽取会出现一些错去,所以,还是需要进行错误调试,因此,这里做了个反思模块,让llm做个修正。
工作机制比较粗暴,主要通过RAG+反思的策略实现,具体的:
第一步,筛选不确定案例,通过“自一致性(Self-Consistency)”筛选出模型不确定的抽取案例;
第二步,错误案例检索,从配置知识库的“案例仓库”中,检索与当前任务、文本最相关的“错误案例(BadCases)”
第三部,融入LLM优化,将错误案例及其反思分析融入LLM,让模型修正当前结果;
所以,这个模块,又会用到抽取的案例库。
因此,既然要用到案例库,且需要用到抽取的模式,那么就需要通过知识库外置的方式来进行。也就是其中的Configure Knowledge Base(配置知识库)模块。
其逻辑在于,为上面三个Agen t提供关键支撑信息,包含“模式仓库”和“案例仓库”两个部分。

可以看看工程上的设计思路。
1)SchemaRepository(模式仓库),用于存储包括NER、RE、EE等任务的预定义模式,以及科学论文、新闻报道等场景的模式模板;
数据结构上,采用Pydantic对象,可无缝序列化为JSON格式,便于ExtractionAgent调用;
2)CaseRepository(案例仓库),用于存储过往知识抽取任务的完整轨迹,分为两类。
一个是正确案例(CorrectCases),含正确抽取结果及推理步骤,为ExtractionAgent提供成功经验;
一个是错误案例(BadCases),含错误抽取结果及反思分析(如错误原因、改进方向),为ReflectionAgent提供错误参考;
当然,问题来了,既然用到RAG,这个RAG知识库理论上应该可以更新下。
所以,搞了个更新机制:每完成一个知识抽取任务后,自动更新案例仓库,生成正确结果的推理步骤并存储,对比正确结果与原始结果以生成错误反思并存储。
2、KARMA:细分多阶段Agent组合思路
看第二个代表的方案,细分多阶段Agent组合,搞的很复杂,很细,可以从中看看要做一个好的图谱构建系统,可以精细化到啥程度,核心的,这个prompt可以写成啥样。
《KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment》(https://arxiv.org/pdf/2502.06472,https://github.com/YuxingLu613/KARMA)
搞了9个智能体,如下所示,是一个很清晰的图谱构建流程,先分段、抽实体、抽关系、做对齐、做校验评估。

摄入智能体(IA) 检索并规范化输入文档->阅读智能体(RA) 解析并分割相关文本段落->摘要生成智能体(SA) 将相关部分浓缩为更短的领域特定摘要->实体抽取智能体(EEA) 识别并规范化与主题相关的实体->关系抽取智能体(REA) 推断实体之间的关系->模式对齐智能体(SAA) 将实体和关系对齐到知识图谱模式->冲突消解智能体(CRA) 检测并解决与现有知识之间的逻辑不一致问题->评估智能体(EA) 聚合多个验证信号并决定最终整合策略。
现在细分来看:
1)摄入智能体,负责文档检索、格式标准化、元数据提取,处理OCR错误、非ASCII字符归一化,输出标准化文本+元数据(作者、期刊、DOI等);
提示如下:

2)阅读智能体,负责文本分段、相关性筛选按“结果”“讨论”等结构线索+领域关键词评分,过滤无关片段(如致谢、设备说明);
提示如下:

3)摘要智能体,负责高相关片段浓缩,保留实体、关系、数值等关键信息(如药物剂量、p值),摘要长度控制在100词内;
提示如下:

4)实体提取智能体,负责实体识别与归一化,利用LLM命名实体识别(NER)+本体词典过滤,映射到KG规范形式(如“乙酰水杨酸”→“阿司匹林”);
提示如下:

5)关系提取智能体,负责实体关系推断,使用多标签分类,输出置信度≥阈值的关系(如“治疗”“抑制”),支持同一实体对多关系;
提示如下:

6)schema对齐智能体,负责新实体/关系类型匹配,将新实体(如“CRISPR-Cas9”)归类到KG现有类型(如“基因编辑工具”),无法匹配则标记待审核;
提示如下:

7)冲突解决智能体,负责矛盾三元组消解,采用LLM辩论,判断新三元组与现有KG是否冲突(如“药物X治疗疾病Y”vs“药物X导致疾病Y”),输出“丢弃/审核/整合”决策;
提示如下:

8)评估智能体,负责三元组质量校验计算置信度(提取可靠性)、清晰度(术语无歧义)、相关性(领域适配性),均值≥阈值才整合。
提示如下:

当然,还有第9个智能体,叫中控,虽然没有太大必要,任务调度、优先级排序、资源分配,这个偏工程,主要思路是任务优先级评分,然后算综合优先级,最终做资源分配优化。
二、领域多模态代码生成模型的数据构建及训练思路
来看一个工作,多领域(图表/网页/SVG/LaTeX/分子)的多模态代码生成任务,从图表到代码(Chart-to-code)、网页到HTML(Web-to-HTML)、图像到SVG(Image-to-SVG)、图像到LaTeX(Image-to-Latex)等多种任务的代码生成

也就是《VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning》,https://arxiv.org/pdf/2511.00391,https://github.com/DocTron-hub/VinciCoder,有趣的技术点包括粗细粒度结合的视觉奖励机制以应对高分辨率图像相似度评估问题,可以重点看看数据集的建设以及奖励函数的设计。
1、先看数据部分

微调数据在:https://huggingface.co/datasets/DocTron-Hub/VinciCoder-1.6M-SFT,包括160万图像-代码对,方式为:直接生成样本(130万)【输入“图像+文本指令”,输出目标代码】+代码优化样本(30万)【输入“目标图像+含错代码草稿”,输出修正后的代码(解决逻辑错误/部分渲染问题)】

具体包括:
41.2万图表转Python数据【基于MCD(修正语法错误)+MSRL(pHash+K-Means筛选多样性样本)】;
35.5万网页转HTML【基于MCD+Web2M(过滤非英文/含链接样本,6万)+Web2Code(生成优化样本)】;
46.3万图像转SVG【基于UniSVG的ISVGEN子集(36万)+模型生成的优化样本(10.3万)】;
10.8万图像转LaTeX【基于DaTikZ-v3+Cosyn-400k(标准化为独立TikZ环境,过滤多页/渲染错误样本)】;
32.8万ScientificPlots【基于多类型(RDKiT/Mermaid等)【Cosyn-400k+开源文本-Mermaid数据集+USPTO的SMILES分子数据(4万)】;
强化数据在:https://huggingface.co/datasets/DocTron-Hub/VinciCoder-42k-RL。
2、看训练方式
两阶段训练方式。

监督微调(SFT),训练Qwen2.5-VL-7B-Instruct、Qwen3-VL-8B-Instruct
视觉强化学习(ViRL),采用GRPO,因为基于文本规则的奖励(如RLVR)无法泛化到视觉领域,难以评估代码渲染结果与目标图像的相似度,所以采用粗细粒度结合的奖励机制,包括视觉奖励和语言对齐奖励。
其中:
视觉奖励【采用自监督视觉模型DINOv2-L提取图像嵌入,粗粒度相似度为将渲染图像下采样为全局缩略图,计算与目标图像的余弦相似度;细粒度相似度为将图像分割为448×448非重叠补丁,计算对应补丁的余弦相似度;最终视觉奖励为粗粒度与细粒度相似度的平均值】;
语言对齐奖励【二进制判断(1/0),若生成代码语言与指令一致(如“tikz”映射为“LaTeX”)则得1,否则为0】;
训练工具上基于ms-swift和EasyR1框架进行训练。
如何高效转型Al大模型领域?
作为一名在一线互联网行业奋斗多年的老兵,我深知持续学习和进步的重要性,尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键?
- 系统的技术路线图:帮助你从入门到精通,明确所需掌握的知识点。
- 高效有序的学习路径:避免无效学习,节省时间,提升效率。
- 完整的知识体系:建立系统的知识框架,为职业发展打下坚实基础。
AI大模型从业者的核心竞争力
- 持续学习能力:Al技术日新月异,保持学习是关键。
- 跨领域思维:Al大模型需要结合业务场景,具备跨领域思考能力的从业者更受欢迎。
- 解决问题的能力:AI大模型的应用需要解决实际问题,你的编程经验将大放异彩。
以前总有人问我说:老师能不能帮我预测预测将来的风口在哪里?
现在没什么可说了,一定是Al;我们国家已经提出来:算力即国力!
未来已来,大模型在未来必然走向人类的生活中,无论你是前端,后端还是数据分析,都可以在这个领域上来,我还是那句话,在大语言AI模型时代,只要你有想法,你就有结果!只要你愿意去学习,你就能卷动的过别人!
现在,你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)