一文读懂FunASR项目SenseVoice模型ONNX支持现状分析
FunASR是一个基础的端到端语音识别工具包,支持语音识别、语音活动检测、文本后处理等功能。项目提供了多种预训练模型,其中SenseVoice作为一款具备多种语音理解能力的基础模型,支持ASR、LID、SER和AED等任务,在多语言场景下有广泛应用。官方文档:[README.md](https://link.gitcode.com/i/fe3cd15bf91643e88055c95e8118c56
一文读懂FunASR项目SenseVoice模型ONNX支持现状分析
项目概述
FunASR是一个基础的端到端语音识别工具包,支持语音识别、语音活动检测、文本后处理等功能。项目提供了多种预训练模型,其中SenseVoice作为一款具备多种语音理解能力的基础模型,支持ASR、LID、SER和AED等任务,在多语言场景下有广泛应用。官方文档:README.md
SenseVoice模型介绍
SenseVoice模型是FunASR项目中的重要模型之一,具备多种语音理解能力,包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),支持中文、粤语、英语、日语、韩语等多种语言。模型训练数据达30万小时,参数规模为234M。模型源码:funasr/models/sense_voice/
ONNX支持现状
ONNX导出功能
FunASR项目提供了ONNX导出功能,用户可以通过命令行或Python接口将模型导出为ONNX格式。目前支持Paraformer等模型的导出,但SenseVoice模型的ONNX导出尚未在官方文档中明确提及。ONNX导出文档:README.md#Export ONNX
ONNX测试示例
项目中提供了Paraformer模型的ONNX测试示例,使用funasr-onnx库加载和运行ONNX模型。以下是测试代码示例:
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer(model_dir, batch_size=1, quantize=True)
wav_path = ['~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav']
result = model(wav_path)
print(result)
ONNX测试代码:runtime/python/onnxruntime
SenseVoice模型ONNX支持展望
虽然目前SenseVoice模型的ONNX支持尚未明确,但参考Paraformer模型的ONNX导出流程,可以推测未来SenseVoice模型的ONNX支持可能会通过类似的方式实现。用户可以关注项目的更新日志以获取最新进展。项目更新日志:README.md#What's new
总结
FunASR项目的SenseVoice模型在多语言语音理解任务中表现出色,但目前ONNX支持仍处于发展阶段。用户可以利用项目提供的ONNX导出工具尝试导出SenseVoice模型,并参考Paraformer模型的ONNX测试示例进行验证。随着项目的不断迭代,相信SenseVoice模型的ONNX支持会逐步完善,为用户提供更高效的部署选项。
相关资源
- 模型 zoo:model_zoo/
- 部署文档:runtime/readme.md
- 社区教程:docs/tutorial/README.md
更多推荐

所有评论(0)