Cleer Arc5如何实现语音增强与降噪的协同工作
Cleer Arc5通过双麦克风波束成形、自适应主动降噪与AI语音增强技术的智能协同,在开放式耳机上实现清晰语音拾取。系统根据场景动态调度资源,结合情境感知引擎与边缘AI算力,优化通话与语音交互体验。
Cleer Arc5如何实现语音增强与降噪的协同工作
你有没有遇到过这种情况:戴着耳机在街上跑步,想唤醒语音助手问天气,结果“Hey Siri”喊了三遍都没反应?或者和朋友视频通话时,对方总说:“你那边风好大啊……听不清你说啥。”
这正是开放式耳机面临的最大挑战—— 没有耳塞物理隔音,又要保证语音能被清晰拾取 。而Cleer Arc5偏偏就敢做一款“不入耳却超清晰”的真无线耳机。它到底是怎么做到的?
秘密不在某个黑科技单点突破,而在于一套 精密协作的智能音频系统 :让原本互相“打架”的主动降噪(ANC)和语音增强技术,在不同场景下默契配合、动态切换,甚至彼此助力。今天我们就来拆解这套系统的底层逻辑。
想象一下,你的耳朵是一个战场。一边是呼啸而过的车流、风声、人群嘈杂;另一边是你努力发出的人声信号。麦克风就像士兵,要在枪林弹雨中准确识别出指挥官的声音。但问题是——它们还不能关上耳朵去听!
这时候,光靠一个麦克风单打独斗肯定不行。Cleer Arc5的做法是:部署两个“特种兵”组成阵列,玩起空间定位游戏——这就是 双麦克风波束成形 (Beamforming)。
前馈麦克风位于耳机外侧,像个哨兵一样监听外部世界;反馈麦克风则藏得更深,靠近耳道,专门捕捉从你嘴里传出来、经颅骨传导再辐射回来的那一丝“私密语音”。这两个信号一结合,DSP处理器就开始计算时间差和相位差,像狙击手调瞄准镜那样,把拾音方向精准对准你的嘴巴。
数学上可以简单理解为:
$$
y(t) = w_1 \cdot x_1(t - \tau_1) + w_2 \cdot x_2(t - \tau_2)
$$
其中 $x_1$ 和 $x_2$ 是两路麦克风输入,$\tau$ 是声音传播延迟,$w$ 是加权系数。这些参数不是固定的,而是由算法实时调整,确保即使你转头或晃动头部,波束依然牢牢锁定嘴部方向。
实际效果有多强?方向性指数提升6~8 dB,相当于在吵闹酒吧里突然给你装了个定向话筒🎤。而且设计上还很聪明:主瓣避开迎风面,减少湍流噪声干扰——毕竟没人希望风吹进麦克风孔时像在吹口哨🫠。
但这只是第一步。如果环境噪声本身太猛,比如地铁进站那一瞬间的轰鸣,仅靠波束成形也扛不住。这时候就得请出第二位主力选手: 自适应主动降噪 (Adaptive ANC)。
传统ANC像是个死板的复读机:听到噪声→播放反相声波→抵消。但它面对不断变化的现实世界往往力不从心——车流忽远忽近、风速随时变化,固定滤波器根本跟不上节奏。
Cleer Arc5用的是高通QCC5171平台支持的Hybrid ANC + Adaptive ANC双模式。它的核心是一套闭环控制系统:
外部噪声 → [参考麦克风] → 自适应滤波器 → [扬声器输出反相声]
↓
[误差麦克风] ← 耳内残余噪声
↓
LMS算法在线更新滤波器权重
这个LMS(最小均方)算法每秒能完成数千次迭代,快速适应突发噪声。比如一辆摩托车突然加速驶过,系统几乎同步生成新的反相声波,把低频震动压下去。
不过问题来了:ANC这么卖力地“消灭一切噪声”,会不会连用户的说话声也误杀了?尤其是在开放式耳机上,耳道密封性差,语音泄漏严重,参考信号和误差信号的相关性弱,控制起来更难稳定。
答案是:当然会!所以必须有“刹车机制”。
这就引出了最关键的第三块拼图—— AI驱动的语音增强引擎 。
它不像ANC那样靠物理抵消,而是走软件路线:直接从混合信号里“扒”出人声。原理也不复杂:先把多麦克风采集的原始音频转到频域(STFT),然后扔给一个轻量级DNN模型判断哪些频率成分属于语音,哪些是背景噪音,最后通过语音掩膜(Speech Mask)重构干净信号。
模型用的是优化过的Conv-TasNet变种,参数不到500KB,跑在QCC5171的NPU上毫无压力。实测在85dB白噪声环境下,噪声抑制可达25dB,MOS主观评分提升近1分——这意味着原本模糊不清的对话,现在听起来自然流畅多了📞。
代码层面也很讲究,毕竟是嵌入式设备,功耗和延迟都得精打细算:
// 伪代码:语音增强处理流程
void voice_enhancement_process(int16_t* mic_input, int16_t* output_clean) {
ring_buffer_push(mic_input, FRAME_SIZE); // 缓冲32ms数据
stft_forward(ring_buffer_data, spectrogram); // 时频变换
dnn_inference(spectrogram, &speech_mask); // AI推理(INT8量化加速)
apply_mask(spectrogram, speech_mask, enhanced_spectrogram);
stft_inverse(enhanced_spectrogram, output_clean); // 逆变换还原
ola_process(output_clean); // 重叠相加以平滑帧边界
}
这段代码运行在RTOS中断服务例程中,每32ms触发一次,端到端延迟控制在120ms以内,完全符合ITU-T G.114标准,不会让用户觉得“说完话要等半秒才上传”。
但最厉害的地方还不在这三个模块本身,而是它们之间的 协同策略 ——谁该什么时候上场?资源怎么分配?要不要退让一步?
举个例子:你在安静房间里听音乐,ANC全力开工,语音增强休眠,省电又安静;可一旦检测到“Hey Siri”,系统立刻变身:ANC降级为透明模式,释放算力给AI语音增强,同时激活波束成形聚焦嘴部方向。
这一切的背后,是一个叫 情境感知融合引擎 的大脑🧠。
它整合了多种传感器信息:
- 加速度计:你在走路还是静止?
- 麦克风VAD(语音活动检测):是不是有人正在说话?
- 蓝牙状态:是否处于通话中?
- GPS位置:室内?室外?还是正在开车?
然后根据预设规则做出决策:
| 场景 | ANC强度 | 语音增强 | 波束成形 |
|---|---|---|---|
| 室内听歌 | 高 | 关 | 否 |
| 户外跑步 | 中(带风噪抑制) | 关 | 否 |
| 手机通话 | 低(透明优先) | 高 | 开 |
| 唤醒语音助手 | 动态切换 | 瞬时开启 | 开 |
整个切换过程延迟低于100ms,快到你根本意识不到发生了什么。更妙的是,这套策略还能OTA升级,甚至学习用户习惯——比如每天早上8点自动进入通勤模式,贴心得有点过分😎。
整条音频链路也高度集成:
[麦克风阵列] → [AFE模拟前端] →
↓
[QCC5171 SoC]
├── Hybrid ANC Engine(硬件加速)
├── AI Voice Enhancer(NPU运行DNN)
├── Beamformer DSP Core
└── Context Fusion Manager(RTOS任务调度)
↓
[蓝牙编码器] → [LC3 Codec] → 手机端ASR/通话
所有模块共享内存与时钟源,避免不同步导致的相位失真。LC3编码更是锦上添花,高压缩比下仍保留语音细节,特别适合远程会议这类对清晰度要求极高的场景。
说到这里,你会发现Cleer Arc5真正牛的地方,并不是某项技术参数多么极致,而是 系统级的智能调度艺术 🎨。
它不再把ANC和语音增强看作对立关系——一个要消除噪声,一个要保留语音——而是将它们视为可调配的资源,在不同场景下灵活组合。有时候ANC为主,语音为辅;有时候反过来,甚至暂时“牺牲”部分降噪效果来保通话质量。
这种思路其实已经超越了耳机范畴。想想看,未来智能助听器能不能只放大对话声而忽略背景音乐?车载语音系统能不能在高速行驶中准确识别“打开车窗”指令?远程办公头戴设备能否让Zoom会议里的每一句话都像面对面交谈一样清晰?
答案是肯定的。随着边缘AI芯片越来越强大,这类“多目标协同优化”的音频架构将成为主流。而Cleer Arc5的意义,就在于它提前展示了这种可能性:
真正的智能音频,从来不是单项冠军,而是懂得协作的全能选手。
所以下次当你轻松唤醒语音助手、在街头清晰通话时,别忘了背后有一群“看不见的工程师”正在默默协调一场精密的音频交响曲🎻。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)