Whisper 模型微调后版本管理:保存、导出与下载链接分享
随模型文件分发校验码,确保下载完整性。
·
Whisper 模型微调后的版本管理
微调后的 Whisper 模型管理包含保存、导出与分享三个核心环节,以下是系统化的操作指南:
1. 模型保存
微调后需持久化存储模型权重与配置:
from transformers import WhisperForConditionalGeneration
# 保存完整模型(含权重/配置/分词器)
model.save_pretrained("./whisper_finetuned")
tokenizer.save_pretrained("./whisper_finetuned")
# 仅保存安全张量格式(推荐)
model.save_pretrained("./whisper_finetuned", safe_serialization=True)
目录结构:
whisper_finetuned/
├── model.safetensors # 权重文件
├── config.json # 模型架构配置
├── preprocessor_config.json # 特征提取配置
└── tokenizer.json # 分词器配置
2. 模型导出
2.1 导出为 ONNX 格式(跨平台部署)
from transformers.convert_graph_to_onnx import convert
convert(
framework="pt",
model="./whisper_finetuned",
output="./whisper_finetuned.onnx",
opset=15, # ONNX算子版本
)
2.2 导出为 TensorFlow 格式
tf_model = TFWhisperForConditionalGeneration.from_pretrained(
"./whisper_finetuned",
from_pt=True # 从PyTorch转换
)
tf_model.save_pretrained("./whisper_tf")
3. 下载链接分享
通过云存储平台生成可分享链接:
3.1 Hugging Face Hub
from huggingface_hub import HfApi
api = HfApi()
api.create_repo(repo_id="your-username/whisper-finetuned-v1")
api.upload_folder(
folder_path="./whisper_finetuned",
repo_id="your-username/whisper-finetuned-v1",
)
生成链接:https://huggingface.co/your-username/whisper-finetuned-v1
3.2 Google Drive
from google.colab import drive
drive.mount('/content/drive')
# 压缩模型文件
!zip -r whisper_finetuned.zip ./whisper_finetuned
# 上传至Google Drive
from googleapiclient.http import MediaFileUpload
service = build('drive', 'v3')
file_metadata = {'name': 'whisper_finetuned.zip'}
media = MediaFileUpload('whisper_finetuned.zip')
file = service.files().create(body=file_metadata, media_body=media).execute()
# 设置分享权限
service.permissions().create(
fileId=file['id'],
body={'type': 'anyone', 'role': 'reader'}
).execute()
生成分享链接:https://drive.google.com/file/d/{file_id}/view
最佳实践
-
版本控制
- 使用语义化版本命名(如
whisper-large-v2-ft-v1.0.0) - 在 Hugging Face Hub 中通过 Releases 管理迭代版本
- 使用语义化版本命名(如
-
轻量化分享
- 使用
git-lfs管理大文件 - 添加
README.md说明微调数据集和超参数
- 使用
-
安全校验
# 生成SHA256校验码 sha256sum whisper_finetuned.zip > checksum.txt随模型文件分发校验码,确保下载完整性。
更多推荐
所有评论(0)