技术之路

分享创造进步!

导航

语音模型--产生模型与听觉模型

转眼间,已经工作了九个月,从一开始公司的忙碌到压力,再到如今暂时的稳定,空了就想起了当初申请博客园的初衷,分享创造进步。

出于很多的机缘,接触语音相关知识,工作九个月,都是在围绕着语音信号处理展开,比如回声消除、噪声抑制、网络丢包补偿等工作。

想想总结还是先从最基本的开始,先从基本的语音模型开始博客园之旅。

 

1语音生成系统

     人的发音系统的器官,主要有:声道和声带。

     声道:从声带到嘴唇的呼吸通道,声音的信道,决定着一个人的声纹。

     声带:声音的激励,开启闭合一次形成浊音的激励脉冲。其频率为60-450hz,也称为基因频率。

     人声按照声带的振动与否,分为浊音与清音。

人声的发音原理:

  1. 声带开启与闭合,产生一定频率的激励信号,通过声道,产生浊音。
  2. 声带不振动,由声道(包括口腔、嘴唇等)发生变化产生的声音,并不是声带振动引起的声音,为清音。

2 语音生成模型

2.1 语音激励模型

1)  浊音激励模型

      声带不断的张开与关闭,产生了间歇的脉冲波,也就是浊音的激励信号。其数学表达式为:

      

     其时域的波形为以基因周期为周期的斜三角脉冲波。

2)清音的激励模型

    发清音时,声道发生形状变化形成的声音,可以用白噪声作为激励。

    单独的将语音激励分为清音和浊音两种是不全面的,很多时候是清音与浊音混起来之后的混合激励。

2.2     声道模型

    元音:激励顺利的通过声道,产生元音;

    辅音:激励通过声道时,声道发生变化发出的声音为辅音。

     声道可以看成是一个谐振腔,声道模型可以看成是一个共振峰模型,共振峰就是谐振腔中的谐振频率。谐振腔可以改变原本语音的频谱特性,在谐振频率上能量加强,其他频率上能量衰弱,有一定的滤波作用。能够决定元音的音质,也反映了声腔的频率特性。

     一般元音,可以用前三个共振峰去表示;而对于辅音、鼻音等则需要至少5个共振峰去表示。下图为辅音和元音,可以看出其共振峰的特性。

一般元音可以用全极点模型来模拟,因为元音发音的口腔相对稳定,一个音的后半部分具有一定的可预测性,其模型的传输函数为:

 

而辅音等则需要零极点模型来进行模拟,因为辅音或者鼻音等发音时,口腔会带来一定的突变,因此,需要零极点模型去进行模拟:

2.3语音信号产生的数学模型

将激励模型与声道模型进行级联,可以得到整个语音信号的数据模型,即:

     上图为辅音s,和元音o,的分别的波形图与语谱图。

     S为辅音,从时域图和语谱图分别可以看出辅音具有随机性,类似随机噪声,其频谱也比较平坦,任何频域都有分量;

     而o为元音,从时域图上可以看出,其具有一定的短时周期性,从波形上可以看出语音发声模型中的谐振腔的谐振特性,从语谱图上可以看出,在低频端有一层一层的高能量的形状,这也就验证了语音模型使用共振峰模型的语音,其对低频的一些频率产生共振,形成共振峰,最低的共振峰的频率则是基因频率,而高处的共振峰则是共振腔中其他的谐振频率。从语谱图上可以看出,人的声音在低中频以下能量比较集中,这也反映了人的声道共振峰范围的特性。

     从元音o的语谱图可以看出,在高于800hz以上的频率,按6db/倍频 的情况衰减。导致整个频谱很快衰减,在语音编解码中,为了方便编解码,采用了预加重的方法,防止高频倍频的衰减,使得频谱比较平坦,方便处理。

     语谱图上这些共振峰的组合也叫“声纹”,不同人有不同的声纹,因此可以利用这个特性来进行说话人识别。

2      听觉系统

人耳感知范围:

  1. 能够感知20hz与20khz的频率范围;幅度能够感知在-5db-130db。
  2. 可闻阈值(安静阈值),与频率有关,就是可以听到最低的声音幅度。
  3. 隐蔽效应:在强信号附近,听不到弱的信号。
  4. 掩蔽阈值:可以掩蔽的最大声压阈值。

从上图可以看出:

  1. 不同的频率对应的可闻阈值也不同,这一点,被应用到语音编解码中,处理量化噪声中,只要将量化噪声限定在可闻阈值以下就可以。这也就从一定程度上决定了量化的程度。
  2. 掩蔽效应,可以分为时域掩蔽效应和频域掩蔽效应,图中显示的是频域的掩蔽效应。

          频域掩蔽:低频更容易掩蔽高频信号。

          时域掩蔽效应:分为向前掩蔽与向后掩蔽,向前掩蔽一般时间比较短,为5-20ms;向后掩蔽时间比较长,一般是50-300ms。

      3. 耳蜗的频率感知:耳蜗对不同的频率具有不同的辨识度。从下图可以看出,耳蜗里面感知低频的面积比高频的面积更广,这也就说明了人耳对低频的识别率比高频的      识别率更高的原因。

      4. 临界带宽:一个纯音可以被以它为中心频率并且具有一定频带宽度的连续噪声所掩蔽,如果在这一频带宽度内的噪声功率等于该纯音的功率,则该纯音刚好处于可以被听到的临界状态,就称这一频带宽度为临界带宽。人耳对低频信号的分辨率较高,而对高频信号的分辨率相对低。因为临界带宽可以更好地反映人耳对信号频率的感知特性,所以对人耳的听觉特性的研究都是建立在临界带宽的基础上的。这也就是为何很多语音信号处理时,对数据进行分子带处理。

 

语音编解码虽然比较成熟,但是可以说是语音方向的精华所在,也是语音处理的工具箱,熟悉了可以重用,因此是以后重点学习的对象之一。

 

 

posted on 2013-03-18 23:23  不再十年  阅读(5042)  评论(0编辑  收藏  举报