https://www.dong-blog.fun/post/2016

要做什么

全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。

模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

数据集

数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary

数据集下载,约有1.1G大小数据:

modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR

下载这个代码对数据集进行处理:

https://www.dong-blog.fun/code/process_latex_ocr.py

处理后的数据集长这样:

AI-ModelScope-convert# ll
total 80868
drwxr-xr-x 7 root root     4096 Apr  7 15:48 ./
drwxr-xr-x 4 root root     4096 Apr  7 15:45 ../
drwxr-xr-x 5 root root     4096 Apr  7 15:48 full/
-rw-r--r-- 1 root root  3769362 Apr  7 15:48 full_test.json
-rw-r--r-- 1 root root 30711801 Apr  7 15:48 full_train.json
-rw-r--r-- 1 root root  3480462 Apr  7 15:48 full_validation.json
drwxr-xr-x 5 root root     4096 Apr  7 15:48 human_handwrite/
drwxr-xr-x 5 root root     4096 Apr  7 15:48 human_handwrite_print/
-rw-r--r-- 1 root root    23013 Apr  7 15:48 human_handwrite_print_test.json
-rw-r--r-- 1 root root   396240 Apr  7 15:48 human_handwrite_print_train.json
-rw-r--r-- 1 root root    23296 Apr  7 15:48 human_handwrite_print_validation.json
-rw-r--r-- 1 root root    22173 Apr  7 15:48 human_handwrite_test.json
-rw-r--r-- 1 root root   381840 Apr  7 15:48 human_handwrite_train.json
-rw-r--r-- 1 root root    22480 Apr  7 15:48 human_handwrite_validation.json
drwxr-xr-x 5 root root     4096 Apr  7 15:48 small/
-rw-r--r-- 1 root root    12127 Apr  7 15:48 small_test.json
-rw-r--r-- 1 root root    20373 Apr  7 15:48 small_train.json
-rw-r--r-- 1 root root    12487 Apr  7 15:48 small_validation.json
drwxr-xr-x 5 root root     4096 Apr  7 15:47 synthetic_handwrite/
-rw-r--r-- 1 root root  4363434 Apr  7 15:47 synthetic_handwrite_test.json
-rw-r--r-- 1 root root 35033262 Apr  7 15:47 synthetic_handwrite_train.json
-rw-r--r-- 1 root root  4478828 Apr  7 15:47 synthetic_handwrite_validation.json

这个数据集标注一塌糊涂啊,准确率太低了,还是没有商用的好,除非谁出资用商用的模型把这个数据集标注一下。

后续就不写了,这数据集没法用。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐