【番外篇3】NL2SQL的微调数据集准备工作
本文介绍了NL2SQL微调数据集的准备工作。重点讲解了samples.jsonl文件建立自然语言问题与数据库表的关联方法,以及通过sql_output文件夹进行向量化处理的步骤。详细说明了build_training_ds.py程序生成training_dataset.jsonl文件的格式,该文件包含正负样本标注数据,每个问题配有1个正样本和19个负样本。这些数据将用于后续的LORA微调项目处理。
·
【番外篇3】NL2SQL的微调数据集准备工作
嵌入模型微调方法,参见《本地微调Qwen3-Embedding模型的方法》
本文将介绍NL2SQL可用的高质量LORA微调数据集
samples.jsonl文件,我们可以建立question与库表的关联,如下图

[《向量化处理步骤》] (https://blog.csdn.net/u010593516/article/details/153253745) 文中,我们介绍sql_output文件夹包含向量化处理的文档

小声读源码/nl2sql2025项目的程序build_training_ds.py,生成 training_dataset.jsonl 格式如下:

每一个问题,包括一共question 与 库表描述的 label=1.0的 similar数据集,19个 label=0.0 的 dissimilar数据集,这个文件copy到小声读源码/SRC_LORA项目后,进一步处理
【本文结束】
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)