瑞芯微RK3576语音识别算法

本文介绍了基于Whisper模型的语音识别技术实现方案。主要内容包括：1. 技术概述，说明Whisper作为多语言语音识别模型的优势；2. 开发环境搭建指南，包括源码获取、环境配置和模型部署；3. 核心API说明，详细介绍了初始化、运行和释放三个关键函数的使用方法；4. 示例程序分析，展示了完整的语音识别处理流程。该方案基于EASY-EAI-Orin-nano硬件平台，支持中英文识别，RTF（实时

广州灵眸科技有限公司

923人浏览 · 2025-08-14 17:23:03

广州灵眸科技有限公司 · 2025-08-14 17:23:03 发布

1.语音识别简介

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition，ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

我们的语音算法是基于Whisper是OpenAI设计的。Whisper作为一个通用的语音识别模型，它使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法，采用了编码器-解码器的Transformer模型，将输入的音频转换为对应的文本序列，并根据特殊的标记来指定不同的任务。

基于EASY-EAI-Orin-nano(RK3576)硬件主板的运行效率：

算法种类	模型大小	Real Time Factor (RTF)
speech_decoder	383MB	0.077
speech_encoder	217MB	0.077

2.快速上手

如果您初次阅读此文档，请阅读：《入门指南/源码管理及编程介绍/源码工程管理》，按需管理自己工程源码（注：此文档必看，并建议采用【远程挂载管理】方式，否则有代码丢失风险！！！）。

2.1 开 源码工程下载

先在PC虚拟机定位到nfs服务目录，再在目录中创建存放源码仓库的管理目录：

cd ~/nfsroot
mkdir GitHub
cd GitHub

再通过git工具，在管理目录内克隆远程仓库（需要设备能对外网进行访问）

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-3576.git

注：

* 此处可能会因网络原因造成卡顿，请耐心等待。

* 如果实在要在gitHub网页上下载，也要把整个仓库下载下来，不能单独下载本实例对应的目录。

2.2 开发环境搭建

通过adb shell进入板卡开发环境，如下图所示。

通过以下命令，把nfs目录挂载上nfs服务器。

mount -t nfs -o nolock <nfs server ip>:<nfs path in server> /home/orin-nano/Desktop/nfs/

2.3 例程编译

然后定位到板卡的nfs的挂载目录(按照实际挂载目录)，进入到对应的例程目录执行编译操作，具体命令如下所示：

cd EASY-EAI-Toolkit-3576/Demos/algorithm-speech_recognition/
./build.sh

2.4 模型部署

要完成算法Demo的执行，需要先下载法模型。

百度网盘链接为：https://pan.baidu.com/s/1jNjnfjnrmyW3_vvdgEG-rA?pwd=1234 （提取码：1234 ）。

同时需要把下载的解码模型和编码模型复制粘贴到Release/目录：

2.5 例程运行及效果

进入开发板Release目录，执行下方命令，运行示例程序：

cd Release/
./test-speech_recognition speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav

运行例程命令如下所示：

API的详细说明，以及API的调用（本例程源码），详细信息见下方说明。

3. 语音识别API说明

3.1引用方式

为方便客户在本地工程中直接调用我们的EASY EAI api库，此处列出工程中需要链接的库以及头文件等，方便用户直接添加。

选项	描述
头文件目录	easyeai-api/algorithm/speech_recognition
库文件目录	easyeai-api/algorithm/speech_recognition
库链接参数	-lspeech_recognition

3.2 语音识别检测初始化函数

设置语音识别初始化函数原型如下所示。

int speech_recognition_init(const char *p_encoder_path, const char *p_decoder_path, const char *p_filter_path, 
		const char *p_vocab_path, rknn_whisper_t *p_whisper);

具体介绍如下所示。

函数名： speech_recognition_init
头文件	speech_recognition.h
输入参数	p_encoder_path：编码模型名字/路径
输入参数	p_decoder_path：解码模型名字/路径
输入参数	p_filter_path：滤波器频谱
输入参数	p_vocab_path：词组文件
输入参数	p_whisper：语音识别句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.3 语音识别运行函数

设置语音识别运行原型如下所示。

int speech_recognition_run(rknn_whisper_t *p_whisper, audio_buffer_t audio, int task_code, std::vector<std::string> &recognized_text);

具体介绍如下所示。

函数名： speech_recognition_run
头文件	speech_recognition.h
输入参数	p_whisper：语音识别句柄
输入参数	audio：待识别音频信息
输入参数	task_code：语音识别任务
输入参数	recognized_text：语音识别结果
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.4 语音识别释放函数

设置语音识别释放原型如下所示。

int speech_recognition_release(rknn_whisper_t *p_whisper);

具体介绍如下所示。

函数名：speech_recognition_release
头文件	speech_recognition.h
输入参数	p_whisper：语音识别句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

4.语音识别算法例程

例程目录为Demos/algorithm-speech_recognition/test-speech_recognition.cpp，操作流程如下所示：

#include <iostream>
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <time.h>
#include "sndfile.h"
#include "speech_recognition.h"
#include "audio_utils.h"


int main(int argc, char **argv)
{
	if (argc != 7){
		printf("%s <encoder_path> <decoder_path> <filter_path> <vocab_path> <task(en/cn)> <audio_path>\n", argv[0]);
		printf("Example: %s speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav\n", argv[0]);
		return -1;
	}
	const char *p_encoder_path = argv[1];	// 编码模型地址
	const char *p_decoder_path = argv[2];	// 解码模型地址
	const char *p_filter_path = argv[3];	// 滤波器频谱
	const char *p_vocab_path = argv[4];		// 词组文件
	const char *p_task = argv[5];			// 识别语种（cn/en）
	const char *p_audio_path = argv[6];		// 待识别音频
	int task_code = 0;
	std::vector<std::string> recognized_text;

	// Tokenizer 预定义控制符号(切换语言或任务)
	if (strcmp(p_task, "en") == 0){
		task_code = 50259;
	}
	else if (strcmp(p_task, "cn") == 0){
		task_code = 50260;
	}
	else{
		printf("\n\033[1;33mCurrently only English or Chinese recognition tasks are supported. Please specify <task> as en or zh\033[0m\n");
		return -1;
	}
	
	// 读取音频，并对音频进行处理
	audio_buffer_t audio;
	int ret = read_audio(p_audio_path, &audio);
	if (ret != 0){
		printf("read audio fail! ret=%d audio_path=%s\n", ret, p_audio_path);
		return -1;
	}
	if (audio.num_channels == 2){
		ret = convert_channels(&audio);
	}
	if (audio.sample_rate != SAMPLE_RATE){
		ret = resample_audio(&audio, audio.sample_rate, SAMPLE_RATE);
	}

	// speech recognition初始化
	rknn_whisper_t whisper;
	ret = speech_recognition_init(p_encoder_path, p_decoder_path, p_filter_path, p_vocab_path, &whisper);

	int iter = 0;
	for (int i=0; i < 5; i++)
	{
		clock_t start = clock();

		recognized_text.clear();
		// speech recognition语音识别
		ret = speech_recognition_run(&whisper, audio, task_code, recognized_text);
		
		clock_t end = clock();  // 记录结束时间
		double infer_time = ((double)(end - start)) / CLOCKS_PER_SEC;  // 转换为秒

		// 结果输出
		std::cout << "\nspeech recognition output: ";
		for (const auto &str : recognized_text){
			std::cout << str;
		}
		std::cout << std::endl;

		float audio_length = audio.num_frames / (float)SAMPLE_RATE; // sec
		audio_length = audio_length > (float)CHUNK_LENGTH ? (float)CHUNK_LENGTH : audio_length;
		float rtf = infer_time / audio_length;
		printf("%d, Real Time Factor (RTF): %.3f / %.3f = %.3f\n", iter++, infer_time, audio_length, rtf);
	}

	// speech recognition释放 
	speech_recognition_release(&whisper);
	return 0;
}

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大