Qwen 2.5 VL 图片转公式,微调实战教学
数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary。模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct。这个数据集标注一塌糊涂啊,准确率太低了,还是没有商用的好,除非谁出资用商用的模型把这个数据集标注一下。全量微调Qwen2.5-VL-7B-Instruct
·
https://www.dong-blog.fun/post/2016
要做什么
全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。
模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct
数据集
数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary
数据集下载,约有1.1G大小数据:
modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR
下载这个代码对数据集进行处理:
https://www.dong-blog.fun/code/process_latex_ocr.py
处理后的数据集长这样:
AI-ModelScope-convert# ll
total 80868
drwxr-xr-x 7 root root 4096 Apr 7 15:48 ./
drwxr-xr-x 4 root root 4096 Apr 7 15:45 ../
drwxr-xr-x 5 root root 4096 Apr 7 15:48 full/
-rw-r--r-- 1 root root 3769362 Apr 7 15:48 full_test.json
-rw-r--r-- 1 root root 30711801 Apr 7 15:48 full_train.json
-rw-r--r-- 1 root root 3480462 Apr 7 15:48 full_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite/
drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite_print/
-rw-r--r-- 1 root root 23013 Apr 7 15:48 human_handwrite_print_test.json
-rw-r--r-- 1 root root 396240 Apr 7 15:48 human_handwrite_print_train.json
-rw-r--r-- 1 root root 23296 Apr 7 15:48 human_handwrite_print_validation.json
-rw-r--r-- 1 root root 22173 Apr 7 15:48 human_handwrite_test.json
-rw-r--r-- 1 root root 381840 Apr 7 15:48 human_handwrite_train.json
-rw-r--r-- 1 root root 22480 Apr 7 15:48 human_handwrite_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:48 small/
-rw-r--r-- 1 root root 12127 Apr 7 15:48 small_test.json
-rw-r--r-- 1 root root 20373 Apr 7 15:48 small_train.json
-rw-r--r-- 1 root root 12487 Apr 7 15:48 small_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:47 synthetic_handwrite/
-rw-r--r-- 1 root root 4363434 Apr 7 15:47 synthetic_handwrite_test.json
-rw-r--r-- 1 root root 35033262 Apr 7 15:47 synthetic_handwrite_train.json
-rw-r--r-- 1 root root 4478828 Apr 7 15:47 synthetic_handwrite_validation.json
这个数据集标注一塌糊涂啊,准确率太低了,还是没有商用的好,除非谁出资用商用的模型把这个数据集标注一下。
后续就不写了,这数据集没法用。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)