摘要:
卷积神经网络(CNN)是深度学习中常用的网络架构,在智能语音中也不例外,比如语音识别。语音中是按帧来处理的,每一帧处理完就得到了相对应的特征向量,常用的特征向量有MFCC等,通常处理完一帧得到的是一个39维的MFCC特征向量。假设一段语音有N帧,处理完这段语音后得到的是一个39行N列(行表示特征维度 阅读全文
posted @ 2021-01-25 09:46
davidtym
阅读(25574)
评论(0)
推荐(12)

浙公网安备 33010602011771号