音分AMC使用手册——自动剪错参数说明文档

音分AMC——使用手册

音分AMC（analysemusic.com）作者：Oto_G

QQ：421739728

最后修改时间：2021.11.18

所有参数中分为三大类参数，第一类参数是控制剪错的模式，第二类参数是控制语音端点的确定，第三类参数是控制音频相似度的判断。

接下来就从这三大类参数来详细介绍各参数意义。

默认为开启状态

开启状态：系统将自动对音频内的断句打上标记，并判断每个标记处是否有读错现象
关闭状态：系统将读取音频内的标记（参考AU标记），并根据所给标记判断是否有读错现象。
- 注意：如选择关闭状态上传音频，但音频内没有标记，将返回处理失败状态！

默认为0.3秒

此参数控制的是音频从无声段到最近的有声段的时间，如超过这一时间，将被判断为两端分开的语音。

默认为0.48（越大窗口越大）

此参数控制的是窗口的大小，当窗口小时，将检测到更多间隙，但会增加计算耗时。

由示意图看出，这个参数需要配合参数2：相同标记的检测距离进行设置。

默认为24（越大越灵敏）

如果音频有较大噪声时，可以适当调低灵敏度，防止噪声被检测为端点。

默认值5

此参数是控制音频向前循环检测次数，详见示意图

无标签模式：默认值0.6

通过两段音频的频谱相似度来判断是否是是相似音频，经过大量实验，在无标签模式下，设置FFT相似度在0.6能够达到性能和准确度的最佳平衡。

注意：在无标签模式下，只有音频通过FFT相似度检测才会进入MFCC检测，所以可以通过降低FFT相似度标准，让更多语音段进入MFCC检测，但也会导致处理时间增加

默认值0.8

通过两段音频的波形相似程度进行判断是否为相似音频，经过大量实验，在稍后说明的参数：惩罚系数，设置为4的情况下，设置MFCC相似度为0.8较合适。

默认值：4（越大，越少惩罚！MFCC相似度会越高！）

该参数只作用在MFCC相似度判别时！

详见示意图

posted @ 2021-11-18 18:58 Oto_G 阅读(447) 评论(0) 收藏举报

刷新页面返回顶部