Whisper 模型微调后的版本管理

微调后的 Whisper 模型管理包含保存、导出与分享三个核心环节,以下是系统化的操作指南:


1. 模型保存

微调后需持久化存储模型权重与配置:

from transformers import WhisperForConditionalGeneration

# 保存完整模型(含权重/配置/分词器)
model.save_pretrained("./whisper_finetuned")
tokenizer.save_pretrained("./whisper_finetuned")

# 仅保存安全张量格式(推荐)
model.save_pretrained("./whisper_finetuned", safe_serialization=True)

目录结构

whisper_finetuned/
├── model.safetensors         # 权重文件
├── config.json               # 模型架构配置
├── preprocessor_config.json  # 特征提取配置
└── tokenizer.json            # 分词器配置


2. 模型导出
2.1 导出为 ONNX 格式(跨平台部署)
from transformers.convert_graph_to_onnx import convert

convert(
    framework="pt",
    model="./whisper_finetuned",
    output="./whisper_finetuned.onnx",
    opset=15,  # ONNX算子版本
)

2.2 导出为 TensorFlow 格式
tf_model = TFWhisperForConditionalGeneration.from_pretrained(
    "./whisper_finetuned", 
    from_pt=True  # 从PyTorch转换
)
tf_model.save_pretrained("./whisper_tf")


3. 下载链接分享

通过云存储平台生成可分享链接:

3.1 Hugging Face Hub
from huggingface_hub import HfApi

api = HfApi()
api.create_repo(repo_id="your-username/whisper-finetuned-v1")
api.upload_folder(
    folder_path="./whisper_finetuned",
    repo_id="your-username/whisper-finetuned-v1",
)

生成链接:https://huggingface.co/your-username/whisper-finetuned-v1

3.2 Google Drive
from google.colab import drive
drive.mount('/content/drive')

# 压缩模型文件
!zip -r whisper_finetuned.zip ./whisper_finetuned

# 上传至Google Drive
from googleapiclient.http import MediaFileUpload
service = build('drive', 'v3')
file_metadata = {'name': 'whisper_finetuned.zip'}
media = MediaFileUpload('whisper_finetuned.zip')
file = service.files().create(body=file_metadata, media_body=media).execute()

# 设置分享权限
service.permissions().create(
    fileId=file['id'],
    body={'type': 'anyone', 'role': 'reader'}
).execute()

生成分享链接:https://drive.google.com/file/d/{file_id}/view


最佳实践

  1. 版本控制

    • 使用语义化版本命名(如 whisper-large-v2-ft-v1.0.0
    • 在 Hugging Face Hub 中通过 Releases 管理迭代版本
  2. 轻量化分享

    • 使用 git-lfs 管理大文件
    • 添加 README.md 说明微调数据集和超参数
  3. 安全校验

    # 生成SHA256校验码
    sha256sum whisper_finetuned.zip > checksum.txt
    

    随模型文件分发校验码,确保下载完整性。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐