在RK3566上部署sherpa-onnx流式语音识别模型的技术实践

【免费下载链接】sherpa-onnx k2-fsa/sherpa-onnx: Sherpa-ONNX 项目与 ONNX 格式模型的处理有关,可能涉及将语音识别或者其他领域的模型转换为 ONNX 格式,并进行优化和部署。 【免费下载链接】sherpa-onnx 项目地址: https://gitcode.com/GitHub_Trending/sh/sherpa-onnx

背景介绍

sherpa-onnx是一个基于ONNX Runtime的高性能语音识别框架,支持多种语音识别模型。本文将详细介绍在RK3566开发板上部署sherpa-onnx流式语音识别模型的技术实践过程,特别是针对zipformer模型在RKNN运行时的适配问题。

环境准备

在RK3566开发板上运行sherpa-onnx需要准备以下环境组件:

  1. RKNN运行时版本:经过测试,2.2.0版本能够稳定运行,而2.1.0和2.3.2版本存在兼容性问题
  2. 模型文件:使用sherpa-onnx提供的预训练zipformer双语(中英)流式识别模型
  3. 编译工具链:需要在板子上直接编译sherpa-onnx以适配目标架构

常见问题分析

段错误问题

当使用RKNN 2.3.2版本时,运行模型会出现段错误(Segmentation Fault)。通过GDB调试发现错误发生在RKNN运行时的内部函数中。这表明是运行时库与模型之间存在兼容性问题。

数据类型不支持错误

使用RKNN 2.1.0版本时,会出现"Meet unsupported input dtype for gather"错误。这是因为该版本的RKNN运行时对Gather操作的数据类型支持不完善。

流式与离线模型的区别

需要注意的是,目前RKNN仅支持流式语音识别模型。尝试使用离线识别相关的二进制文件(如sherpa-onnx-vad-alsa-offline-asr)会导致模型加载失败,因为离线模型需要完整的ONNX模型文件而非RKNN格式。

解决方案

经过多次测试验证,以下配置能够稳定运行:

  1. RKNN版本:必须使用2.2.0版本
  2. 模型类型:只能使用流式识别模型
  3. 运行命令:使用sherpa-onnx流式识别二进制文件

正确的运行命令示例如下:

sherpa-onnx \
  --provider=rknn \
  --encoder=encoder.rknn \
  --decoder=decoder.rknn \
  --joiner=joiner.rknn \
  --tokens=tokens.txt \
  test.wav

性能优化建议

  1. 核心绑定:虽然RK3566不支持NPU核心绑定,但在RK3588等更高性能平台上可以考虑此优化
  2. 线程配置:根据实际CPU核心数调整num_threads参数
  3. 实时性调优:可以调整流式识别的chunk大小来平衡延迟和准确率

总结

在嵌入式设备上部署语音识别模型需要考虑硬件特性和软件栈的兼容性。通过本文的实践,我们验证了sherpa-onnx在RK3566上的可行性,并确定了最佳的运行时版本。开发者在使用时应当注意模型类型与运行工具的匹配,避免不必要的兼容性问题。

未来随着RKNN运行时的更新,可能会有更多模型和功能得到支持,建议开发者持续关注相关更新,以获得更好的性能和体验。

【免费下载链接】sherpa-onnx k2-fsa/sherpa-onnx: Sherpa-ONNX 项目与 ONNX 格式模型的处理有关,可能涉及将语音识别或者其他领域的模型转换为 ONNX 格式,并进行优化和部署。 【免费下载链接】sherpa-onnx 项目地址: https://gitcode.com/GitHub_Trending/sh/sherpa-onnx

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐