书生大模型实战营——2. Browser-USE使用/InternLM微调/GraphGen训练数据合成框架

SFT(Supervised Fine-Tuning,监督微调)，一般指的就是指令微调，使用指令跟随数据集（QA pair）就从：生成/筛选高质量数据 → 寻找模型“实际”需要的数据。增量预训练——Continue PreTraining。上面的描述，好像之前基于GAN生成ocr图片的感觉，在GraphGen中，

吨吨不打野

451人浏览 · 2025-07-14 22:12:50

吨吨不打野 · 2025-07-14 22:12:50 发布

文章目录

1. Browser-USE使用
2. InternLM 微调论文分类实践
3. GraphGen

1. Browser-USE使用

B站视频：玩转书生大模型 API 之 Browse Use实践
文档： L1G1-玩转书生大模型 API 之 Browser-Use 实践

评价：

整体还是比较有意思的一个项目，就是通过解析自然语言的输入，然后调用Browser-USE这个工具，去浏览器里执行相应的操作。

Browser-USE会识别页面中的按键以及相应位置，并在此基础上执行自然语言代表的命令

功能很简单，给一个人发一封只有一句话的邮件，但是用了1min30s大概，如果快点的话，就真的太好了，从这里看到了以后操作系统的入口是LLM的感觉~

2. InternLM 微调论文分类实践

在这里插入图片描述
视觉定位（Visual Grounding）：人工智能的视觉语言桥梁：视觉定位（Visual Grounding）技术全览

在这里插入图片描述

增量预训练——Continue PreTraining

SFT(Supervised Fine-Tuning,监督微调)，一般指的就是指令微调，使用指令跟随数据集（QA pair）

在这里插入图片描述

图自： QLoRA: Efficient Finetuning of Quantized LLMs

3. GraphGen

论文链接：GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation

Github链接： open-sciencelab/GraphGen

飞书文档链接： L2G2-GraphGen：训练数据合成实践

在这里插入图片描述

为什么需要合成数据：

专业领域训练数据通常需要10w条以上，因此需要考虑合成数据

传统数据合成方法的问题：

幻觉问题
长尾知识覆盖率不足，即：大模型更容易生成高频知识，而忽略罕见知识
生成数据风格单一，容易导致模型自我重复问题，甚至崩溃

采取的方案：

构建全局知识图谱
通过置信度估计，评估模型对知识图谱中知识的理解能力
生成多种风格的数据

此时合成数据的目标就从：生成/筛选高质量数据 → 寻找模型“实际”需要的数据

上面的描述，好像之前基于GAN生成ocr图片的感觉， PaddleOCR二次全流程——2.使用StyleText合成图片

在这里插入图片描述

四个核心步骤：

从知识中提取实体和关系，来构建知识图谱
评估学生模型对知识点的理解能力
构建多种策略抽取子图以实现高效训练
将子图转换为问答对

在这里插入图片描述

ECE是一种衡量模型预测置信度与实际准确性之间关系的指标，其核心思想是：

一个模型是校准良好的，当且仅当其预测的置信度与实际的正确概率相匹配
即：模型给出的概率与数据的真实分布概率，越接近越好

在GraphGen中，

ECE被用于识别大语言模型对知识图谱中知识的理解偏差
具体来说：
- 把边看做一个恒正确的论断，通过改写的方式获得多次采样，让模型判断这些论断的正确性，并计算模型对于每个论断的置信度
- 通过大语言模型对论断的判断的token概率来实现评估
- 最后计算理解偏差，理解偏差越大，代表模型越需要这样的数据

在这里插入图片描述

QA：

原子问答对
聚合问答对
多跳问答对

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla