音分AMC使用手册——自动剪错参数说明文档

音分AMC——使用手册

自动剪错参数说明文档

音分AMC(analysemusic.com)作者:Oto_G

QQ:421739728

最后修改时间:2021.11.18

1

前置知识概述

所有参数中分为三大类参数,第一类参数是控制剪错的模式,第二类参数是控制语音端点的确定,第三类参数是控制音频相似度的判断。

接下来就从这三大类参数来详细介绍各参数意义。

第一类:控制剪错的模式

参数1:无标签模式

默认为开启状态

  • 开启状态:系统将自动对音频内的断句打上标记,并判断每个标记处是否有读错现象
  • 关闭状态:系统将读取音频内的标记(参考AU标记),并根据所给标记判断是否有读错现象。
    • 注意:如选择关闭状态上传音频,但音频内没有标记,将返回处理失败状态!

第二类:控制语音端点的确定

参数2:相同标记的检测距离

默认为0.3秒

此参数控制的是音频从无声段到最近的有声段的时间,如超过这一时间,将被判断为两端分开的语音。

2

参数5:滑动窗口大小占比

默认为0.48(越大窗口越大)

此参数控制的是窗口的大小,当窗口小时,将检测到更多间隙,但会增加计算耗时。

5

由示意图看出,这个参数需要配合参数2:相同标记的检测距离进行设置。

参数6:端点检测灵敏度

默认为24(越大越灵敏)

如果音频有较大噪声时,可以适当调低灵敏度,防止噪声被检测为端点。

第三类:控制音频相似度的判断

参数8:最大间隔数

默认值5

此参数是控制音频向前循环检测次数,详见示意图

8

参数3:音频相似度标准(FFT模式)

无标签模式:默认值0.6

通过两段音频的频谱相似度来判断是否是是相似音频,经过大量实验,在无标签模式下,设置FFT相似度在0.6能够达到性能和准确度的最佳平衡。

注意:在无标签模式下,只有音频通过FFT相似度检测才会进入MFCC检测,所以可以通过降低FFT相似度标准,让更多语音段进入MFCC检测,但也会导致处理时间增加

3

参数4:音频相似度标准(MFCC模式)

默认值0.8

通过两段音频的波形相似程度进行判断是否为相似音频,经过大量实验,在稍后说明的参数:惩罚系数,设置为4的情况下,设置MFCC相似度为0.8较合适。

4

参数7:惩罚系数

默认值:4(越大,越少惩罚!MFCC相似度会越高!)

该参数只作用在MFCC相似度判别时!

详见示意图

7

posted @ 2021-11-18 18:58  Oto_G  阅读(420)  评论(0)    收藏  举报