你平时防手机麦克风窃听,是不是从没在意过手里的鼠标?最近看到个研究才惊到 —— 现在那些性能好点的鼠标,居然能被改成 “窃听器”,你说的话可能全被记下来了。

为啥鼠标能 “偷听”?都是参数惹的祸

现在几十块、一百来块的鼠标,好多都标着 “高轮询率”“高灵敏度”。本来这些是为了打游戏、做设计时,鼠标动一下电脑能立刻响应,操作更顺。但偏偏是这些功能,成了漏隐私的坑。

其实原理特简单:你说话的时候,声音会让桌面轻轻震 —— 这震动小到肉眼根本看不见,但鼠标的光学传感器能抓着。只要把这些震动信号处理一下,就能还原成你说的话。

更麻烦的是,现在这种 “能偷听的鼠标” 还越来越便宜,就像早年好耳机从贵到便宜普及一样。现在不管是家里用、公司办公,甚至一些政府部门,都在用这种鼠标,等于把 “隐形麦克风” 放桌上了。

Mic-E-Mouse 的技术,能让鼠标 “说人话”

不过一开始抓来的震动信号特别差 —— 要么采样断断续续,要么频率乱飘,声音还失真。后来研究的人搞了套叫 “Mic-E-Mouse” 的办法,用信号处理加 AI 学习,把声音修得清楚多了。

他们拿两个语音数据库(VCTK 和 AudioMNIST)做测试,结果挺吓人的:

噪音滤掉了不少,信号质量提了 19dB(简单说就是杂音少了,能听清了);

机器能认出 80% 是谁在说话(要是被盯上,连说话人都能定位);

人听的时候,也就 16.79% 的词会听错(基本能明白说的啥)。

攻击者怎么搞?全是你想不到的 “隐蔽操作”

其实攻击者不用搞多复杂的设备,只要满足俩条件,就能偷偷录:

藏漏洞的地方特隐蔽:他们专挑开源软件下手 —— 比如你常玩的《原神》《CS2》这类需要高频操作的游戏,或者平时用的 PS、Pr 这些设计软件。这些软件本来就需要频繁读鼠标数据,把漏洞代码塞进去,你根本看不出来。

传数据也不留痕:很多游戏不是能联机吗?里面本来就有传数据的代码,攻击者直接用这个通道,把鼠标抓来的信息悄悄发走,全程没动静。

研究的人还画了个攻击路径图,从偷偷装漏洞到录到声音,你一点感觉都没有。

鼠标窃听攻击完整流程:从准备到窃听的全步骤

其实这种鼠标窃听攻击,不是靠复杂设备硬闯,而是靠 “藏” 和 “磨”—— 先找对目标、再悄悄植入代码,最后把混乱的信号磨成能听懂的语音。整个过程就像 “温水煮青蛙”,受害者完全没感觉,咱们一步步拆开来聊:

第一步:攻击前的 “踩点” 准备 —— 选对目标才有用

攻击者不会瞎找鼠标下手,得先瞄准两类关键目标:挑对鼠标型号:必须是 “高敏高 polling 率” 的款,比如带 PAW3395/PAW3399 传感器的鼠标(像雷蛇 Viper 8KHz、Darmoshark M3),DPI 得在 10000 以上(常见 20000-26000 DPI), polling 率至少 4KHz(最好 8KHz)。为啥?因为只有这种鼠标的光学传感器,才能抓着桌面那种 “肉眼看不见的震动”。摸准环境条件:受害者得在私人空间(家里 / 办公室)用台式机,桌面还得是薄的(不超过 3cm)木质、 laminate 板这类 “能传震动” 的材质 —— 要是厚水泥桌,震动传不过去,攻击也白搭。另外,得等受害者聊敏感内容时(比如说密码、项目细节),鼠标暂时不用或动得少,不然 movements 会打乱震动信号。

第二步:偷偷 “埋雷”—— 把代码藏进日常软件

攻击者最鸡贼的地方,是不搞 “破门而入”,而是把收集数据的代码藏进你每天用的软件里,三种常见操作:藏进设计 / 剪辑软件:比如 Blender(3D 建模)、Kdenlive(视频剪辑)这类需要 “精细操作” 的工具 —— 它们本来就需要高频读鼠标数据(比如调模型细节时,鼠标动一下就得有反应),攻击者把代码嵌进去后,软件正常用,后台却在偷偷记鼠标数据。甚至还能利用软件的 “遥测功能”(比如官方用来收集崩溃日志的功能),把数据混在正常日志里发出去。改开源游戏源码:比如给 OpenBlok(开源俄罗斯方块)打个小补丁,加个后台线程 —— 你玩游戏时,线程会跟着跑,收集鼠标的 “时间戳 + XY 位移”,再用游戏本身的联机代码(比如联网对战时传数据的通道)把信息发走,连额外开网络权限都不用。蹭浏览器漏洞(暂时不常用):现在主流浏览器会限制鼠标数据读取频率(一般 60Hz),但 Chromium 浏览器开 “开发者工具(F12)” 时,能临时读到 1KHz 数据 —— 不过这招太依赖受害者操作,不如前两种隐蔽。

关键是:这些操作都不用管理员权限,你装软件、玩游戏时,根本察觉不到代码被改了。

第三步:“无声收集”—— 悄悄记下鼠标的 “小动作”

代码跑起来后,就进入 “默默干活” 阶段:收集的不是啥复杂数据,就两类:一是 “时间戳”(距离上一次读鼠标数据过了多少微秒),二是 “XY 位移”(鼠标检测到的桌面微小震动,转成的 X/Y 方向微小移动)。收集频率能跟上鼠标的 polling 率(4KHz/8KHz),也就是每秒记 4000-8000 条数据,存成 CSV 文件,要么实时传走,要么等机会批量发 —— 比如你玩游戏联机时,数据就混在游戏数据包里出去了,完全看不出异常。

第四步:“磨碎了再拼”—— 把混乱数据变清晰

刚收集到的原始数据就是 “一团乱麻”:鼠标不动时不发数据(采样不均匀)、还有环境噪音(比如风扇震),得先 “整理干净”:补全数据缺口:用 “sinc 插值法”(简单说就是按规律补全没采样到的点),把不均匀的数据重采样成 16KHz 的均匀序列 —— 就像把断了的线接成完整的绳子。剪掉没用的部分:把开头结尾的静音、填充数据删掉,只留有效信号。过滤噪音:先录 10 分钟鼠标自己的抖动(比如静置时的微小晃动),分析出 “噪音谱”,再用 “Wiener 滤波” 针对性过滤 —— 比如知道鼠标抖动的噪音集中在某个频率,就把这个频率的信号减弱,提升语音信号的清晰度(信噪比能提不少)。

第五步:AI 帮忙 “翻译”—— 把震动转成能听懂的话

过滤后的信号还是 “模糊的波形”,得靠机器学习 “还原成语音”:语音重建:用类似 OpenAI Whisper 的小模型(Transformer 编码器结构),把处理后的 XY 位移信号转成 “log-mel 频谱”(一种适合语音分析的格式),再用 VCTK(54 小时英文语音)、AudioMNIST(3 万条数字录音)数据集训练 —— 让模型学会 “看到震动波形,就对应出清晰语音”。训练时会对比 “鼠标信号” 和 “真实语音”,不断调整参数,最后还原出能听的语音。抓关键信息:再用 “wav2vec2 模型” 提取关键词 —— 比如把还原的语音里的 “密码 123”“项目机密” 挑出来,不用听完整个对话,直接拿到有用的内容。

第六步:最终窃听 —— 拿到能听懂的语音

最后一步就简单了:攻击者拿到还原后的语音,能做到两件事:听清对话:人类听的时候,只有 16.79% 的词会听错(比如把 “项目” 听成 “项木”),基本能完整理解内容;认对人:机器能认出 80% 的说话人 —— 比如知道是受害者本人,还是他同事在聊。

整个流程走下来,受害者可能全程没发现:自己聊的敏感内容,就被手里的鼠标 “悄悄记下来,再转成语音发给攻击者” 了。

真能听清吗?有证据的

不知道你听过 “语音香蕉图” (Speech Banana)没?就是耳鼻喉科医生看语音频率的图。从这图能看出来,咱们平时说话的频率,大多在 200Hz 到 2000Hz 之间。而 Mic-E-Mouse 处理信号的时候,刚好能覆盖这个范围 —— 也就是说,你说的话,鼠标还真能 “听见”。

演示视频如下,能直接看到怎么用鼠标还原出清楚的声音(可以的话顺便关注一下老夫的视频号,谢谢铁铁):

技术党看这里:代码和数据能拿

现在这个研究还在审查阶段,不过已经放了匿名的资源链接,有需要的可以拿去验证:

代码仓库(已过期可以定期刷新是否上线):

https://anonymous.4open.science/r/Mic-E-Mouse-7028/README.md

测试数据:

https://drive.google.com/drive/folders/1DcTldouupfp7BMteE1Br0lq7RCdQQ0Hc?usp=drive_link

论文:

https://arxiv.org/pdf/2509.13581

普通人怎么防?3 个简单招

其实不用慌,做好这 3 件事,风险能降不少:

选鼠标别盲目冲参数:办公党买 600-1000Hz 的就够,游戏党除非是职业级需求,不然 3000Hz 以上的其实用不上 —— 参数低一点,传感器抓震动的能力也弱一点。

软件别乱装:尤其是小众的开源游戏、设计工具,别从乱七八糟的网站下,尽量去官网下正版 —— 陌生软件最容易藏漏洞。

说悄悄话别靠桌子太近:要是聊重要的事,要么离办公桌远点,要么在桌上铺个软鼠标垫、布垫子 —— 能减少声音让桌面震动的幅度。

最后说句实在的

其实防隐私泄露,最怕的不是那些一眼就能看见的 “大设备”,而是鼠标这种天天用、却没人在意的小物件。现在连鼠标都能当 “窃听器” 了,平时用这些外设的时候,多留个心眼总没错 —— 毕竟谁也不想,自己跟同事聊的项目、跟家人说的私事,被手里的鼠标悄悄记下来。

参考链接:

https://sites.google.com/view/mic-e-mouse

最后值得一提的是,匿名Github真是一个有趣的网站。

https://anonymous.4open.science/

上期:美国政府停摆持续导致其网络行动受影响 (有需求请进知识星球)

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐