Faster-Whisper语音识别模型版本参数与效率对比

Faster-Whisper是基于OpenAI Whisper的优化版本,通过CTranslate2推理引擎实现显著加速。以下是主流版本的核心参数与性能对比(测试环境:NVIDIA V100 GPU,16GB显存,30秒英文音频样本):

模型参数对比
模型版本 参数量 磁盘占用 量化支持
tiny 39M 75MB int8/int16
base 74M 142MB int8/int16
small 244M 461MB int8
medium 769M 1.5GB int8
large-v2 1550M 3.1GB -

注:量化可减少显存占用,但可能轻微影响准确率

推理效率对比

$$ \text{实时因子(RTF)} = \frac{\text{推理时间}}{\text{音频时长}} $$ (RTF<1表示实时处理)

版本 FP16精度 int8量化 内存峰值 相对加速比
tiny 0.03 0.01 0.8GB 12×
base 0.05 0.02 1.2GB
small 0.12 0.08 2.5GB
medium 0.35 0.25 5.0GB
large-v2 0.95 - 10GB+ 2.5×
关键发现
  1. 速度-精度权衡

    • tiny/base版:RTF<0.05(20倍实时),适合边缘设备
    • large-v2版:WER降低约30%,但需高端GPU实现实时
  2. 量化增益
    int8量化使small模型: $$ \text{内存占用} \downarrow 40% , \quad \text{推理速度} \uparrow 30% $$

  3. 批处理优化
    当批量增至8时:

    # Faster-Whisper批处理示例
    from faster_whisper import WhisperModel
    model = WhisperModel("small", device="cuda", compute_type="int8")
    segments, _ = model.transcribe(audio, batch_size=8)  # 吞吐量提升5×
    

选型建议
  • 嵌入式设备:tiny-int8 (RTF=0.01)
  • 实时转录:base-int8 (WER≈5%)
  • 高精度场景:medium-FP16 (WER≈2.8%)

测试数据参考:LibriSpeech test-clean数据集,实际性能因硬件配置和音频特征而异。建议使用benchmark工具进行本地验证:

faster-whisper benchmark --model large-v2 --device cuda

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐