一文读懂FunASR项目SenseVoice模型ONNX支持现状分析

【免费下载链接】FunASR A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc. 【免费下载链接】FunASR 项目地址: https://gitcode.com/GitHub_Trending/fun/FunASR

项目概述

FunASR是一个基础的端到端语音识别工具包,支持语音识别、语音活动检测、文本后处理等功能。项目提供了多种预训练模型,其中SenseVoice作为一款具备多种语音理解能力的基础模型,支持ASR、LID、SER和AED等任务,在多语言场景下有广泛应用。官方文档:README.md

SenseVoice模型介绍

SenseVoice模型是FunASR项目中的重要模型之一,具备多种语音理解能力,包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),支持中文、粤语、英语、日语、韩语等多种语言。模型训练数据达30万小时,参数规模为234M。模型源码:funasr/models/sense_voice/

ONNX支持现状

ONNX导出功能

FunASR项目提供了ONNX导出功能,用户可以通过命令行或Python接口将模型导出为ONNX格式。目前支持Paraformer等模型的导出,但SenseVoice模型的ONNX导出尚未在官方文档中明确提及。ONNX导出文档:README.md#Export ONNX

ONNX测试示例

项目中提供了Paraformer模型的ONNX测试示例,使用funasr-onnx库加载和运行ONNX模型。以下是测试代码示例:

from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer(model_dir, batch_size=1, quantize=True)

wav_path = ['~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav']

result = model(wav_path)
print(result)

ONNX测试代码:runtime/python/onnxruntime

SenseVoice模型ONNX支持展望

虽然目前SenseVoice模型的ONNX支持尚未明确,但参考Paraformer模型的ONNX导出流程,可以推测未来SenseVoice模型的ONNX支持可能会通过类似的方式实现。用户可以关注项目的更新日志以获取最新进展。项目更新日志:README.md#What's new

FunASR架构概览

总结

FunASR项目的SenseVoice模型在多语言语音理解任务中表现出色,但目前ONNX支持仍处于发展阶段。用户可以利用项目提供的ONNX导出工具尝试导出SenseVoice模型,并参考Paraformer模型的ONNX测试示例进行验证。随着项目的不断迭代,相信SenseVoice模型的ONNX支持会逐步完善,为用户提供更高效的部署选项。

相关资源

【免费下载链接】FunASR A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc. 【免费下载链接】FunASR 项目地址: https://gitcode.com/GitHub_Trending/fun/FunASR

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐