用鼠标作为监听器-记一次APT复现过程
前言
前阵子刷到了这么一篇文章:https://sites.google.com/view/mic-e-mouse 大概讲的就是将鼠标作为监听器来监听对话,感觉有兴趣,遂复现。
环境准备
开源项目地址:https://github.com/AICPS/Mic-E-Mouse
拷贝下来后安装环境,我采用实机Ubuntu22,使用mamba作为包管理器,同时要额外安装英伟达gpu驱动,因为里面涉及神经网络需要cuda来进行训练。
额外下载以下原始资料:
Experimental Data: https://drive.google.com/drive/folders/1DcTldouupfp7BMteE1Br0lq7RCdQQ0Hc?usp=drive_link
AudioMNIST:
https://www.kaggle.com/datasets/sripaadsrinivasan/audio-mnist
项目配置
先把项目回滚到版本哈希:b90cf9d,在新版本里面用了很多的旧版本函数,即使更换到新版本函数也出现了算法错误。
回滚完成后干如下事情:
- 新建
./AudioMNIST/gen/csv把鼠标数据直接复制进去
例如此处复制进去./8000_2000_50/*

- 新建
./AudioMNIST/data把人声数据复制进去

- 新建
MICEMOUSE把压缩包gen解压后复制进去

- 新建
./vctk/stock把wav48_silence_timmed复制进去

至于为什么要这么放,答案是这个项目的目录太抽象了,全是硬编码.....
主要测试
打开waveformReconstruction_AUDIOMNIST.ipynb,做如下改动:










一些其他辅助文件改动:
AudioMNIST.py

VCTK.py

第一阶段复现结果
左边为标准参考,右边为实际结果



生成出来的实际声音大约有60%的正确性
第二阶段复现
使用雷蛇 8000 Hz + 20000 DPI,使用脚本vcpk/create.sh进行收集,装置如下

里面是一个音响。
数据结果:


受限于实验条件,高频表现差,下一步打算优化高频表现。
实际生成出来的音频几乎没有可识别度,只能大概判断说话时间,识别准确度大约为10%。
如果用脚本收集5天音频表现,训练神经网络也许压制高频效果会更好。
结论
这个项目理论上可行,但是要严格的实验环境和设备。

浙公网安备 33010602011771号