Whisper 幻觉问题

比如输入噪音或者咳嗽声，输出 “Thank you ” 或者 “Thank you for watching”，猜测可能是由于whisper的训练数据中有大量的youtube的视频数据，在视频结尾一般会有噪音等对应的字幕“Thank you for watching”；实际使用中，如果客户没有指定语种，那么系统会先进行语种识别再执行语音识别，如果语种识别错误那么语音识别也会出错；但是对于咳嗽等声

GaryGao99

1004人浏览 · 2025-06-25 14:02:49

GaryGao99 · 2025-06-25 14:02:49 发布

whisper是多语种语音识别和语音翻译工具，尤其在英文的识别，准确率较高；但是实际使用中却有各种问题，其中比较严重的一个是幻觉问题：

比如输入噪音或者咳嗽声，输出 “Thank you ” 或者 “Thank you for watching”，猜测可能是由于whisper的训练数据中有大量的youtube的视频数据，在视频结尾一般会有噪音等对应的字幕“Thank you for watching”；

所以如果要使用whisper一般还是需要在某个领域对模型进行微调后在使用；

本文从工程侧给出可以缓解的方法：

1、加提示词：

识别时加提示词如“Transcribe only valid speech, ignore background noise.” 可以提示模型只识别有效的音频，忽略背景噪声等，实际测试有效果但是不明显；

2、使用vad

在模型识别前加入vad，同时要调低 no_speech_threshold 的值(例如 0.2)，实际测试可以有效去除背景噪声减少幻觉；但是对于咳嗽等声音不能很好的过滤；

3、添加suppress_tokens

对于某些领域不希望也确定不会出现某些文本（例如意语识别中包含了法语、俄语等），那么可以将这些文本的token加入到suppress_tokens中，这样可以禁止这些文本的输出；实际测试效果明显；

4、禁止语种

实际使用中，如果客户没有指定语种，那么系统会先进行语种识别再执行语音识别，如果语种识别错误那么语音识别也会出错；例如中文识别时经常会出现韩语；如果确定使用中不会出现某些语种，那么可以在语种识别时限制语种的范围；

具体操作可以将语种识别的结果（见上图中的result）中，其它的语音输出概率全部置零；实际测试效果明显；

开源代码：https://github.com/SYSTRAN/faster-whisper

（完）

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla