用鼠标作为监听器-记一次APT复现过程

前言

前阵子刷到了这么一篇文章:https://sites.google.com/view/mic-e-mouse 大概讲的就是将鼠标作为监听器来监听对话,感觉有兴趣,遂复现。

环境准备

开源项目地址:https://github.com/AICPS/Mic-E-Mouse

拷贝下来后安装环境,我采用实机Ubuntu22,使用mamba作为包管理器,同时要额外安装英伟达gpu驱动,因为里面涉及神经网络需要cuda来进行训练。

额外下载以下原始资料:
Experimental Data: https://drive.google.com/drive/folders/1DcTldouupfp7BMteE1Br0lq7RCdQQ0Hc?usp=drive_link

AudioMNIST:
https://www.kaggle.com/datasets/sripaadsrinivasan/audio-mnist

项目配置

先把项目回滚到版本哈希:b90cf9d,在新版本里面用了很多的旧版本函数,即使更换到新版本函数也出现了算法错误。

回滚完成后干如下事情:

  1. 新建 ./AudioMNIST/gen/csv 把鼠标数据直接复制进去

例如此处复制进去./8000_2000_50/*

PixPin_2026-03-14_15-03-50

  1. 新建./AudioMNIST/data 把人声数据复制进去

PixPin_2026-03-14_15-07-36

  1. 新建MICEMOUSE 把压缩包 gen 解压后复制进去

PixPin_2026-03-14_15-09-01

  1. 新建./vctk/stockwav48_silence_timmed复制进去

PixPin_2026-03-14_15-10-24

至于为什么要这么放,答案是这个项目的目录太抽象了,全是硬编码.....

主要测试

打开waveformReconstruction_AUDIOMNIST.ipynb,做如下改动:

PixPin_2026-03-14_15-18-50
PixPin_2026-03-14_15-19-08
PixPin_2026-03-14_15-19-40
PixPin_2026-03-14_15-19-59
PixPin_2026-03-14_15-20-23
PixPin_2026-03-14_15-20-32
PixPin_2026-03-14_15-20-41
PixPin_2026-03-14_15-20-51
PixPin_2026-03-14_15-20-58
PixPin_2026-03-14_15-21-23

一些其他辅助文件改动:
AudioMNIST.py
PixPin_2026-03-14_15-22-20

VCTK.py
PixPin_2026-03-14_15-23-08

第一阶段复现结果

左边为标准参考,右边为实际结果

PixPin_2026-03-14_15-27-21

PixPin_2026-03-14_15-27-52

PixPin_2026-03-14_15-28-08

生成出来的实际声音大约有60%的正确性

第二阶段复现

使用雷蛇 8000 Hz + 20000 DPI,使用脚本vcpk/create.sh进行收集,装置如下
eb4a772f8a51711a2e436b060412e078

里面是一个音响。

数据结果:
PixPin_2026-03-14_15-32-10
PixPin_2026-03-14_15-32-18

受限于实验条件,高频表现差,下一步打算优化高频表现。

实际生成出来的音频几乎没有可识别度,只能大概判断说话时间,识别准确度大约为10%。

如果用脚本收集5天音频表现,训练神经网络也许压制高频效果会更好。

结论

这个项目理论上可行,但是要严格的实验环境和设备。

posted @ 2026-03-14 15:37  归海言诺  阅读(29)  评论(0)    收藏  举报