音分AMC使用手册——自动剪错参数说明文档
音分AMC——使用手册
自动剪错参数说明文档
音分AMC(analysemusic.com)作者:Oto_G
QQ:421739728
最后修改时间:2021.11.18

前置知识概述
所有参数中分为三大类参数,第一类参数是控制剪错的模式,第二类参数是控制语音端点的确定,第三类参数是控制音频相似度的判断。
接下来就从这三大类参数来详细介绍各参数意义。
第一类:控制剪错的模式
参数1:无标签模式
默认为开启状态
- 开启状态:系统将自动对音频内的断句打上标记,并判断每个标记处是否有读错现象
- 关闭状态:系统将读取音频内的标记(参考AU标记),并根据所给标记判断是否有读错现象。
- 注意:如选择关闭状态上传音频,但音频内没有标记,将返回处理失败状态!
 
第二类:控制语音端点的确定
参数2:相同标记的检测距离
默认为0.3秒
此参数控制的是音频从无声段到最近的有声段的时间,如超过这一时间,将被判断为两端分开的语音。

参数5:滑动窗口大小占比
默认为0.48(越大窗口越大)
此参数控制的是窗口的大小,当窗口小时,将检测到更多间隙,但会增加计算耗时。

由示意图看出,这个参数需要配合参数2:相同标记的检测距离进行设置。
参数6:端点检测灵敏度
默认为24(越大越灵敏)
如果音频有较大噪声时,可以适当调低灵敏度,防止噪声被检测为端点。
第三类:控制音频相似度的判断
参数8:最大间隔数
默认值5
此参数是控制音频向前循环检测次数,详见示意图

参数3:音频相似度标准(FFT模式)
无标签模式:默认值0.6
通过两段音频的频谱相似度来判断是否是是相似音频,经过大量实验,在无标签模式下,设置FFT相似度在0.6能够达到性能和准确度的最佳平衡。
注意:在无标签模式下,只有音频通过FFT相似度检测才会进入MFCC检测,所以可以通过降低FFT相似度标准,让更多语音段进入MFCC检测,但也会导致处理时间增加

参数4:音频相似度标准(MFCC模式)
默认值0.8
通过两段音频的波形相似程度进行判断是否为相似音频,经过大量实验,在稍后说明的参数:惩罚系数,设置为4的情况下,设置MFCC相似度为0.8较合适。

参数7:惩罚系数
默认值:4(越大,越少惩罚!MFCC相似度会越高!)
该参数只作用在MFCC相似度判别时!
详见示意图


 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号