前言:

大家好,在上一篇文章里面,我已经把webrtc audioprocissing模块已经移植到了rk3568上,同时利用空闲时间,开始写demo进行验证ANS的降噪效果:

然后后面为了更好的学习,后期会研究webrtc的3A模块的整个使用流程,到时候再输出整理出来。

那么今天要分享的是主要是音频3A算法的学习资料。

webrtc文档和rfc文档:

学习一个开源项目,肯定是看社区的文档介绍:

https://www.fanyamin.com/webrtc/tutorial/build/html/0.tutorial/index.html

rfc7874:

https://datatracker.ietf.org/doc/html/rfc7874

这个手册里面介绍的内容比较少。

相关书籍:

Acoustic Echo and Noise Control:

书籍作者是Eberhard Hänsler 和 Gerhard Schmidt,这本书算是回声消除(AEC)和噪声抑制(NS)领域的经典教材之一;它不是非常理论化的书,而是结合了 信号处理基础 + 实际工程方法,比较适合工程师和研究人员参考学习。

Speech Enhancement:

经典的 语音增强 专著,详细介绍噪声抑制(NS)、语音质量评估方法(PESQ、STOI)、语音增强算法(谱减、维纳滤波、MMSE)。对于理解 噪声抑制 NS 部分非常有帮助。

Microphone Arrays:

这本书是麦克风阵列信号处理的经典教材,专门讲解 麦克风阵列理论 + 算法 + 应用,在回声消除 (AEC)、噪声抑制 (NS)、波束形成 (Beamforming) 等“音频 3A”相关领域有很大参考价值。

Fundamentals of Speech Recognition:

这本书偏经典语音信号处理,包含 端点检测、增益控制、噪声鲁棒性 的基础。虽然偏老,但打好 AGC + NS 的理论基础。

Digital Speech:

介绍了语音编码和通信链路中的 增益控制(AGC) 与预处理技术。虽然不是完全以 3A 为核心,但对 AGC 背景 和语音前端处理很有价值。

最后总结:

依托webrtc里面的3A模块,然后再结合上面的理论知识,多实践应用到项目当中去,才能掌握的更好。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐