返回目录

【番外篇3】NL2SQL的微调数据集准备工作

嵌入模型微调方法,参见《本地微调Qwen3-Embedding模型的方法》

本文将介绍NL2SQL可用的高质量LORA微调数据集

samples.jsonl文件,我们可以建立question与库表的关联,如下图

在这里插入图片描述

[《向量化处理步骤》] (https://blog.csdn.net/u010593516/article/details/153253745) 文中,我们介绍sql_output文件夹包含向量化处理的文档

在这里插入图片描述

小声读源码/nl2sql2025项目的程序build_training_ds.py,生成 training_dataset.jsonl 格式如下:

在这里插入图片描述

每一个问题,包括一共question 与 库表描述的 label=1.0的 similar数据集,19个 label=0.0 的 dissimilar数据集,这个文件copy到小声读源码/SRC_LORA项目后,进一步处理

【本文结束】

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐