刘品
学以致用---博主简介:专注语音、视频数字信号处理方面的研究以及算法在手机平台上面的移植和优化。涉及语音/音频编解码,语音增强,语音识别,语音音质客观评估,VOIP语音引擎 Qos算法模块和声音变速不变调和变调不变速等功能实现。熟悉ARM 各个系列的CPU,用ARMv4,ARMv5,ARMv6 and Cortex Neon 汇编优化相关算法代码,争取perforamance 最优。目前主要Windows mobile and Android platform上做相关speech/audio算法以及应用开发, HEVC 编解码器PC 和手机上的开发与应用。(交流Email:liupin.2008@gmail.com)

这篇文章,虽然有些老,但详细的阐述了3D定位技术的原理,国内这样的文章并不多,这也是国内音频研究最薄弱的地方,推荐仔细阅读。

1. 序:

实际上,不仅仅是我们的眼睛可以分辨物体的三维定位,我们的耳朵也能做到。在我们的日常生活中,看和听相互弥补。因此,如果有一天被剥夺了视觉,听力会自告奋勇来弥补改善这个缺陷。尝试着闭上您的眼睛去感觉,您不觉得你的听力变得比以前更敏锐吗?

人们开始研究3D图形有些年头了,因而所有的相关技术都发展成熟。再现现实和虚幻世界中的物体并不困难,然后在PC上再现。此时,人们不再满意仅仅是虚拟再现。人们现在关心的是:如何利用仿真科技于音频领域?换句话说,什么样的音频技术能帮助我们感受到三维效果?答案就是――HRTF(Head Related Transfer Function)。

2. HRTF 3D定位音频和3D环绕的区别:

1996年出现了一个新的术语,描述了PC音效卡的新功能――3D sound。根据要求,仅仅通过在音效卡电路中加入IC来实现。这种看上去如魔术般的效果,实际上是另外一种环绕声的表现,不是真正的3D音频效果表现。从本质上来说,这种技术利用的不过是一些简单的时延电路和滤波器。此外,它将左右声道混频。因此,人的大脑会感受到音场变的更开阔的效果。这使得人们非常方便的使用先进和专业的水平来编辑和编译CD音乐。不过,这种技术有其缺点。处理电路混合了从左声道和右声道传来的音源。就是说,原始的声源已经失真,这种失真是老鸟级的立体声爱好者所无法忍受的。

标准的环绕声技术无法展示从上和下方传来的音源,也无法依靠软体在虚拟环境中随意定位声源,或者实时计算和比较3D游戏的声音关系。以严格的感受来评判,这种技术不能被称作3Dsound;最多只能算作2.5D,因为它仅相对改进了聆听扬声器的方位的局限。(见下图)

标准立体声只能从扬声器的所在位置发出,因此它是固定的。

环绕音频有一定的音场,如图所示,它更加开阔。

当HRTF3D技术应用之后就有所改观了。HRTF使用人耳和人脑的频率振动预知来合成3D音效,通过高速DSP计算,HRTF可实时处理虚拟世界的音源。当声音晶片计算包含3D声音的波形时,通过耳机,人脑可感知到真实的定位感受,比如从前方/后方,上方/下方或者是三维空间内任意方位传来的声音。

3. HRTF 3D定位音频技术

    要明白3D定位音频技术,首先必须明白人脑是如何使用耳朵来确定音源的位置的。让我们从人耳的结构开始说起:

人耳可分成三个部分:耳廓,耳道和鼓膜。当声音被外耳察觉,会通过耳道传递到耳膜。在这个时候,鼓膜背部会转换机械能量为生物和电能量,然后通过神经系统传送到大脑。当我们出生后,我们大脑所有的神经原都记录有曾经验过的任何数据,这些神经原具有非常快的分辨不同内容声波的能力。它让一只耳朵分析声波内容,让两只耳朵分析声波的位置。这和人眼看东西一样,一只眼睛无法看出对象的多面性。

尝试闭上您的一只眼,伸出您双手的食指。有意的拉开距离,然后慢慢的让您的左手食指去碰右手食指。

您左手的食指碰到了右手的食指了吗?您认为您可以两指毫不困难的相触,但实际上您惊奇的发现它们却“擦肩”而过了!实际上,一只眼看不会妨碍判断眼前的是手指,但是这样看却是没有立体空间感的。现在,您可以睁开另一只眼,别累坏了。既然视觉能够分辨不同位置的对象,那么听觉也能做到。那么,问题来了:我们耳朵的哪个部分负责处理声源的定位?
声音定位的基本原理:

1) ITD(Inter Aural Time Delay)两耳时间延迟量差

声波在空气中以每秒345米每秒的速度传播。我们假设两耳的距离为20厘米,声源在左边。无疑声波会首先到达左耳,580us(声波走过二十厘米所需的时间),声音会到达右耳。如果声源从我们正前方传来,那么声波会同时到达双耳。至于声源从其他角度发出,很容易通过三角函数得出结果。因此,人脑通过ITD可以毫不困难分辨不同的方位。

(不同角度传来的声音到达聆听者双耳明显具有不同的时间差)

2)IAD(Inter Aural Amplitude Difference)两耳音量大小差

我们都会有这样的经验:如果声音被物体挡住,我们听到的声音音量会变小。想象一下,如果声音从我们的正左方传来,那么我们的左耳觉察到的声音保留了原始声音,而我们的右耳察觉到的声音的音量会减小,因为我们的头吸收了一部分音量。理论上说,可以对人耳听到从360度的空间中任意一点传来的振幅进行测量,其相对关系可以描绘成图。

(人脑会吸收部分音量。当声源从不同的角度传来,其音量不同)


声波的耳廓绕射效应和耳道频率振动:

仅仅帮助我们的大脑分辨声源的方向的话,ITD和IAD就够了。但是,ITD和IAD不能描述声源从正前方和正后方传来的区别。在这样的情况下,两个数据值几乎是一样的。这种情况也会发生在当声源发声于我们的正头顶部和正脚下的时候。因此,只依靠ITD和IAD还不算很好。要解决这个问题,我们的耳廓扮演着关键的角色。

声波遇到物体的时候会反弹。我们的耳朵是内空的卵圆型,因此,不同波长的声波相应的在外耳产生不同的效应。按照频率分析的观点,当不同的声源从不同的角度传来,它们肯定会在鼓膜上产生不同的频率振动。正是因为耳廓的存在,才造成了从前面和从后面传来的声音截然不同。

鼓膜和耳廓之间是一段2厘米的通道,中空的结构造成的谐振会极大的增益5kHz的讯号,正好是人听觉的最敏感频段。因此,我们在别人耳边小声说话的时候必须很小心,因为这样说话我们的声音很可能被别人听到。

现在我们进行另外一项试验。仅封住耳廓,用一串钥匙在你面前抖动,你会发现您分辨声音上下位置的能力严重削弱了。试着将耳廓贴紧头部,你又发现你辨别前后左右的感觉和以前大不相同了。不过,我们的大脑很聪明,所以仍然能够辨别前后左右。所以,上述所有的差异仍然能够通过依靠视觉和房间反射效应来改善。这是心理学上的“听音辨位”。比如,当我们听到直升飞机的轰鸣,我们会抬头寻找音源。因此补上心理预测之后,就最终形成了整个声音定位的所有要点。

反射和吸收:

房间或者环境反射效应也是重要的参数。反射物体有其特有的声波吸收系数,如,瓦砖和木夹板就有不同的反射值。闭上眼睛您会毫不困难的分辨您是在浴室还是在日本式的卧室里,不是吗?

所以,如果我们想测量3D定位音频效应,最好考虑到所有的因素,如房间的大小,形状和建筑材料。以此增强声音的表现质量。

声源的心理预测:

其他因素如侧反射波,心理预测声源(比如,我们知道飞机在天上轰鸣,蟋蟀在草丛里歌唱)也是告诉我们声音方位的有用因素。

总结起来,我们有三个主要的因素:ITD、IAD和耳廓频率振动。

这三个元素是HRTF――头部相关传输函数的参数。其他元素如室内反射和吸收可通过音频物理学处理。

[LiuPin 补充]

/********************************************************************/

HRTF is a series of algorithms utilized to synthesize simulated binaural(stereo) signals from a monaural source.

HRTF algorithms achieve this by manipulating four variables in the sound:

  • Distance (Near/Far)
  • Azimuth (Left/Right)
  • Elevation (Up/Down)
  • Frequency

/*********************************************************************/

如何测量获得HRTF库?

在了解声音的三个元素之后(ITD,IAD和耳廓效应),我们面临的问题是:如何测量获得HRTF库?

首先我们提出一个设想,在人耳里放置一个麦克风,认为HRTF参数可通过这个方法进行测量。但是通过耳道的频率振动会有损失,如果把麦克风放在外耳,测量的参数就不够准确。因此,人为制造人头模型是解决这个问题最佳方案。

实际上,按照测量HRTF库的要求,人造耳朵的形状更为重要。有些研究机构使用塑料来做耳朵模子,更高级的使用CAD/CNC来重建电脑模拟耳朵模型,使其更适合人造头。在人造头里放入高品质的麦克风,就可以进行测量工作了。这类科技由英国中心研究实验室开发,称作“Digital Ear”。Digital Ear可帮助研究人员测量非常精确的HRTF参数,远比其他可用的商业解决方案要好。

下图是从正水平前方测得的声波图。从理论上说,正前方声源,频率振动对两耳的效应相同。就是说,红色和蓝色的曲线应该非常接近,甚至是重合。很显然,CRL的Digital Ear能获得比其他技术更精确的测量频率的振动。

第三方的HRTF曲线

               由Digital Ear生成的HRTF曲线

在拥有了人造头之后,下一步开始进行测量工作。测量必须在回声环境中,虽然回声会增加从收集的数据中提取声音特征的难度。封闭的房间是合适的测量环境。在封闭的房间内放置人造头模型,在房间的四周、天花板和地板铺满锥形海绵,在房间内放入可在三维环境中任意移动的声源,就可以开始测量工作了。一般来说,一套完整的测量参数,包括后期的调整,需要数月的时间来完成。

当在三维空间内,从不同的位置录制了20Hz到20kHz波段的不同类型声波的时候,完整的HRTF原始数据就形成了。原始数据通过精确计算的EQ数学公式生成HRTF参数(因为测量装置可能不一定能够达到要求),得到我们想要的――HRTF库。通常,测量工作采用最高质量的采样,48kHz。为了适合硬体成本要求,也使用44.1kHz和22kHz。这并不是说选择的频率越高,质量就越高。但是,更高的频率需要更高的数字滤波器。因此,根据成本和质量的关系,权衡首选的频率。


如何通过HRTF库合成3D定位音效?

HRTF合成仿真电路可分为两个主要部分:数字滤波器和时延

1、应用程式首先发送经过优选的合成坐标给HRTF,找到适当的参数,然后他会返回参数给数字滤波器。左右声道的滤波器会计算人容易听到的频率曲线――IAD degree和此频率的耳廓效应合成。

2、当模拟了频率段的3D特性之后,剩下的事情就只有ITD了。相比数字滤波,合成ITD就显得容易的多:只需按照数字延迟电路来重建大概的估计时延,ITD就成功了。

3、其他的比如反射的时延,墙壁吸收效应,场效应和多普勒效应可通过应用程式接口实现。

声波直接通过鼓膜传到内耳,就是虚拟的3D音频效应,可以欺骗人脑了。如何传输呢?当然是通过耳机了。一对频响出色的耳机是最合适的装置了;walkman使用的耳塞也能获得很好的效果。不要考虑花费时间和精力在购买低性能的耳机上了,牺牲3D功能,效果会受到破坏性的削弱。

根据3D音频的收听理论,用两个扬声器代替耳机可行吗?

在炎热的夏天,戴着耳机玩游戏不是件惬意的事情。能够有方案解决这个问题吗?比如,可以用两个扬声器代替耳机吗?答案是:在某些环境下是可以的。

对于听音,使用扬声器最大的问题就是串话干扰:我们如何用左耳只听从左边的扬声器传出来的声音,用右耳只听从右边的扬声器发出的声音而相互不干扰?下图显示,双耳会明确的听到从两个喇叭发出来的声音。而且,如果聆听者来回走动,干扰会变的更严重。


不过,如果聆听者站在两扬声器的中间,位于等边三角形的顶点,如下图,则不会有干扰。就是说,我们可以同时发送已计算的抵消讯号到聆听者的耳朵来抵消串音干扰,这样的电路因此被叫做串音抵消。

安全的串音干扰抵消公式可保证在频率段内的声质顺滑流畅,低音不会变形失真。必须十分注意:

l 当使用两个扬声器,必须使用串话抵消回路抵消不必要的讯号A。l 聆听者必须坐在扬声器的焦点位(皇帝位)来抵消讯号A。


焦点位的局限是什么?有办法消除这些局限吗?

在实际应用中,串话抵消的局限包括:聆听者必须坐成和两扬声器呈三角形,人所在的位置就是我们所知道的焦点(sweet spot)。同时,聆听者不能随意转动脑袋,否则ITD会变得不够精确。此外,扬声器的摆放也非常重要:扬声器必须有和聆听者耳朵相等的高度,不能在聆听者近前或者近后有反射材料,比如隔板和墙等等,否则反射的声波会干扰大脑的方位辨别能力。当然,扬声器的质量也非常重要。有频率失真和左右声道分离模糊的的扬声器就不要考虑用于3D听音了。

因此,如果没有严格的准备,对于大众来说享受完美的3D音效是非常困难的。即使是花费大量的资金购买所有必须的装置,还是有一个最大的局限:聆听者不能转动脑袋或者离开焦点位置。

有问题出现,就会有解决方案。当聆听者在焦点处徘徊,人脑只能分辨左/右区别,无法察觉前/后的方位变化,因此,只要有增强前/后差别的方法,就可以弥补回来。最简单的方法就是增加一对环绕扬声器。就是说,当声音晶片对环绕声进行处理时,它发送经过计算的环绕声数据到环绕扬声器。换句话说,让前置扬声器处理前置的数据,让环绕扬声器处理环绕的数据。在这种架构下,焦点比以前更宽,允许聆听者合理的转动头部。同时,具有一般多媒体音效的扬声器可充分补充环绕的特性。C-Media的CMI-8338/C3DX

PCI单晶片提供4声道综合回放功能,因此在没有增加预算的情况下,也可以通过此类声音晶片达到清晰的3D音效。

HRTF3D定位音频的应用

毋庸置疑,最优秀的HRTF 3D定位音频应用是用于pcgame。因此,数以百计的游戏支援3D定位音效。

除了游戏之外,HRTF 3D也应用于DVD。DVD提供6声道输出功率,当HRTF 3D定位应用后,聆听者可以得到非常类似于在影院才能得到的效果。

家庭影院THX:使用3D定位音频后,只要使用两个喇叭就可以产生环绕音效,其他三个扬声器已由虚拟扬声器取代。

EMI唱片公司,利用CRL的3D定位音频技术制作了很多录音,给大家带来很多特别的听觉体验:当聆听这些录音,聆听者可感觉自己站在指挥的位置,在听一场盛大的管弦乐。此外,EMI也有让歌手围着听众随意走动的设计

在日本的一个大娱乐公园有座“鬼屋”,也在其娱乐设计中应用了3D音频定位技术。戴着耳机进入一间黑房子,游客可听到鬼在到处飘,甚至地板跟着声音转动,使得效果非常的令人惊骇。

美国NASA使用3D定位科技来增强飞行模拟的效果,宇航员可更好的为各种可能的情况作准备。将来宇航员在太空执行相同的任务的时候可以轻松完成。

来自台湾的主流3D定位音频源代码和其成果:CRL 3D音频

CRL(Central Research Laboratories),UK是英国EMI唱片公司的子公司,有68年的历史了。CRL因其长期领导科技前沿而闻名:发明了著名的CAT扫频仪,获得诺贝尔奖金。为了开辟音乐产品的新记元,CRL花费6~7年时间研究3D定位音频科技,至1995年,技术成熟起来了。在那时,台湾经济事务部门、台北计算机协会、资讯工业学会(III)举办了第一届科技转化为工程赞助会。在这个工程中,出现了一个被称作“3D sound”的子学科类别,具备潜能的科技转换到两个公司:Crystal River(即后来的Aureal)和CRL。CRL因其卓越的音频科技和完整的科技转化计划而发展壮大,公司也因此受到相关政府,学院和学会的关注。

在那时,一共有三个研究学会:III、C-Media和Mitac,他们各自带领其种子工程师到英国接受半个月的训练,这个训练有助于建立扎实的基础,使台湾能够开发出高阶音频晶片。一年以后(1996年),台北Computex的技术转化企业工程的展览会上,C-Media在众人的焦点之下成功的放出其第一代3D定位音频晶片。在那个时期,日本Yamaha公司决定拥有相同的音频技术。1997年,声音晶片制造商ESS在选择Qsound 3D作为低段产品的引擎后,也选择CRL 3D作为其高阶3D音频产品的引擎。

CRL利用数字耳技术作为3D音频研究的基础;同时,为了完善音频科技,CRL也同一些高保真录音公司合作,确保CRL 3D音频科技符合音乐工业的严格的质量要求。也正因如此,CRL证明了其3D音频科技在专业音频领域的领先地位。

 

3D定位音频功能已经变成选择下一代PCI声音晶片时必须考虑的因素了。在了解了HRTF 3D定位音频技术后,我们对其有了一个清晰直观的认识,从而有分辨HRTF库的好坏的能力。在主机板集成声音晶片成为PC工业的主流。更可喜的是,性价比实质性的提高了不少。尽管大牌公司提供高性能的声音晶片,台湾人的设计室设计的声音晶片也展示出其竞争力,比如4声道的3D定位音频,数字立体声接口SPDIF

IN/OUT和DLS(动态加载的音色库)音乐和成器等等。

转自:

http://www.hifidiy.net/index.php?action-viewnews-itemid-1099

posted on 2011-04-04 22:28  liupin  阅读(10679)  评论(8编辑  收藏  举报

-->