被环境配置折磨了好久,分享一下我的配置

LLaMAFactory

LLaMAFactory

conda

请自行搜索下载

然后使用conda创建了虚拟环境

conda create -n your-env-name  python=3.11
conda activate your-env-name 
cd LLaMAFactory安装路径  
pip install -e .[metrics]
 
flash-attention

因为flash_atte依赖版本更多,首先选择好它的版本

https://github.com/kingbri1/flash-attention/releases/

可以在这个网站中选择合适的版本,tag中有以往版本,一定要跟自己的torch和python版本对应

这里选择的是flash_attn-2.7.4.post1+cu124torch2.5.1cxx11abiFALSE-cp311-cp311-win_amd64.whl

即2.5.1的torch,3.11的python

pip install flash-attention路径

pytorch2.5.1
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

bitsandbytes(如果报错,有需要可以参考)
pip install bitsandbytes

Numpy(如果报错,有需要可以参考)
pip uninstall numpy
pip install numpy==1.26.4

triton(如果报错,有需要可以参考)

下载地址:

triton-2.1.0-cp311-cp311-win_amd64.whl · madbuda/triton-windows-builds at main

网盘:triton

pip install triton路径

CUDA环境

使用命令nvidia-smi查看自己显卡的cuda版本

使用的是12.1版本,下载到指定路径(把路径配置到环境变量中),网上有很多资料可以自行搜索

CUDA Toolkit 12.1 Update 1 Downloads | NVIDIA Developer

启动!(错了无数次终于)

启动之前

//设置虚拟环境中的环境变量
setx CUDA_PATH your-CUDA-Path

//查看该环境变量的值
SET CUDA_PATH

然后 

cd your-llamafactory路径

llamafactory-cli webui

//调整微调参数和数据集,启动

 可以看到终于成功开始训练了

swanlab是一个训练观测应用,我是用的云服务,需要去官网注册一下apikey

错了太多次了,有些细节忘记了,如有纰漏,敬请原谅。

第一次训练结果

第一次忘记设置验证集了。。

但是看到train loss趋势还是不错的,最后结果不太好可以增加训练轮数解决。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐