最新评论
Re:HTK---语音识别实现应用的Kit lanjing1220 2012-05-23 23:32
您好。不知HTK是否可用于软件监控这块的建模和分析呢?还是只是针对语音领域的呢?希望得到您的回复。谢谢
Re:DTS收购音频公司SRS 杭州桓泽 2012-05-03 10:51
又是音频领域一个大地震
Re:语音信号处理 刘品 2012-04-23 23:30
@impw1988
你可以指定具体的wma encoder 算法,大家一起来讨论学习。
Re:语音信号处理 impw1988 2012-04-11 17:40
楼主您好,我之前做过一个项目,从ffmpeg工程中提取wma编码模块,但是我一直没弄明白wma编码的原理,看代码也看得很糊涂,能否请教一下wma编码的原理?
Re:各种声音的基本频域成份介绍 刘品 2012-03-27 19:28
对于音响来说扬声器的好坏很重要,所以用户在选择音响的时候一定要了解扬声器的技术特性。了解技术特性才能对音响有一个很好的认识,才能选择一款好的音响。
如何选择扬声器
扬声器实际上是一种把可范围内的音频电功率信号通过换能器(扬声器单元),把它转变为具有足够声压级的可听声音。为能正确选择好扬声器,必须首先了解声音信号的属性,然后要求扬声器能“原汁原味”地把音频电信号还原成逼真自然的声音。
人声和各种乐声是一种随机信号,其波形十分复杂。可听声音的频率范围一般可达20Hz-20kHz;其中语言的频谱范围约在150Hz-4kHz左右;而各种音乐的频谱范围可达40Hz-18kHz左右。其平均频谱的能量分布为:低音和中低音部分最大,中高音部分次之,高音部分最小(约为中、低音部分能量的1/10);人声的能量主要集中在200Hz-3.5kHz频率范围。这些可听声随机信号幅度的峰值比它的平均值约大10-15dB(甚至更高一点)。因此扬声器要能正确地重放出这些随机信号,保证重放的音质优美动听,扬声器必须具有宽广的频率响应特性,足够的声压级和大的信号动态范围。
我们希望能用相对较小的信号功率输入获得足够大的声压级,即要求扬声器具有高效率的电功率转换成声压的灵敏度。还要求扬声器系统在输入信号适量过载的情况下,不会受到损坏,即要有较高的可靠性。
扬声器系统主要技术特性的应用
扬声器系统有许多与音色效果和使用场合直接有关的技术特性,为了用好用活这些技术特性,用户必须对它们有所了解。
1)二路(二分频)和三路(三分频)扬声器系统
音频信号的频谱范围很宽,把20Hz-20kHz的信号要用一种扬声器单元是无法满足整段频响的;一般的12寸以上大口径扬声器单元,低音特性很好,失真不大,但超过1.5kHz的信号,它的表现就很差了;1-2寸的高音扬声器单元(高音压缩驱动器)重放3kHz以上的信号性能很好,但无法重放中音和低音信号。于是就有了由各种频响特性单元组成的扬声器系统,由低音(含中低音)和高音(含中高音)两种单元组成的称为二路扬声器系统,由低音、中音和高音三种单元组成的称为三路系统。
二路扬声器系统结构简单,造价相对较低,为了解决缺少这段中音频率,于是有些厂家用了一种折衰的方法,即在分频网络上把低音单元的频响特性向上移动,把高音单元拭目以待频率特性向下移动。另外一个问题是,分频交叉点频率只能设定在500Hz-2kHz之间,而此区域正是人声和乐声频谱的重要部分。因此在听觉上人留下“空洞”感和听到的失真。亦因为如此,三路扬声器对喇叭单元的要求相对较高,假若单元的性能不佳,整个扬声器系统的声音就不够平滑,或有严重的相位失真。
三路扬声器系统各单元的特性可不作折衷,充分发挥它们各自的长处,两个分频交叉点可选在中音人声和乐声频谱重要部份上、下边缘处,对音质没有任何影响,故三路扬声器系统减小了声音的失真,提高了声音的清晰度,改善了低高和高音间交叉频段的性能,增加了扬声器系统的功率处理能力,因此是文艺演出、音乐厅和歌剧院扩声系统的最佳选择。
2)灵敏度和最大声压级
扬声器单元是一种电信号与声音之间的换能器,要求它能以相对较小的输入功率转达换成很宏亮的声音,这就要求扬声器有较高的声压灵敏度,[灵敏度]实质上是一种[转换效率]的体现,各类扬亏损顺系统由于采用的设计技术,选用的材料和生产工艺等多方面的差异,灵敏度的差异也很大。
灵敏度是指输入扬声器单元1瓦的电功率,在扬声器轴线方向离开1米远的地方测得的声压级大小,如果两种扬声器的灵敏度相差3dB要达到同样大的声压级输出,需要增加电输入功率一倍,因此灵敏度较高的扬声器能发出较大的声音。
扬声器系统的输入功率能力一般都远远大于1瓦(一般都在100瓦-2000瓦之间)因此实际使用时都可输入这个最大允许的电功率,以额定最大功率,输入扬声器,在扬声器轴向1米处产生的声压级称为最大声压级SPLmax例,灵敏度=100dB,1w/1m扬声器,若具最大功率承受能力为1000W,则SPLmax=100dB+30dB=130dB,1m。
3)失真和音质
音箱工厂都没有标称他们产品的失真率,其实它是一个非常重要的技术参数,音质是一个比较抽象的评价,亦没有可能在文件上标称,只能采取主观的听音比试,通常,灵敏度与音质是有矛盾的,生产商需要在两者中作适当的平衡,一般来说,中低价的产品,均以灵敏度作主导,追求性能价格比,而高价位产品偏重音质,而最高层次者是两者兼备。
4)“个性”与“共性”
在此又再引伸出另一个相对抽象和主观的性能评价,扩声用的音响,有别于家中的Hi-Fi音响器材,必须兼容性非常高,因为每个场地都可能演出不同类型的节目,从歌剧到摇滚音乐会,亦可能只是以语言信号为主的报告会,故其音响系统必须要兼容不同的节目源,做到“平均性”的优异即不能偏重于某一个用途,而家里的Hi-Fi音响器材,只需要照顾一个人或一小撮人的口味,其产品的[个性]是容许存在,但作为专业扩声系统器材,则这种“个性”将会变成“局限性”或“缺陷”。
专业扩声器材需要为一大群公众服务,节目内容经常变换,“共性”是基本要求,兼容性要强,不同性质的节目都要有“平均”的表现,除此之外,专业扩声器材必须是“无渲染”,“不夸张”,“忠实”地将音源还原,就是“共性”或“共用性”。
5)扬声器系统的指向特性
扬声器发出的声音通常在低频段(低于200Hz)的声音是无方向性的,在各方向均匀传播,但在高频段时,声音的传播呈现较强的方向性,这个指向特性(各类音箱均不相同)正是我们在系统设计中要加以应用,优良的恒定指向特性可在现场布置时把声波的能量集中到观众区,避开声波的强烈反射面和声场互相干扰。
扬声器的指向特性使偏离轴向的声压级随偏角的增大而声压级逐渐减小,同时声压级又随声波传播距离的增加按距离的平方成反比而衰减,在距扬声器远近和方位不同的听众区,若将这两种衰减选择得当,就可使两种衰减互相补偿,从而使声场更为均匀,大型工程需要盖相对比较阔的区域,单只音箱通常不足以应付,需要将多只音箱拼合成音箱群(陈列),而在陈列扬声器系统中,恒指向特性可使音箱之间的中、高频段的声波在音箱间不产生相互干扰,用具有上述指向特性的一对扬声器组成八字形摆放,可以覆盖单个音箱的一倍,否则,声音在音箱前方已经互相干扰,严重影响声场的均匀度和声音的清晰度。
6)扬声器系统的功率处理能力
扬声器的功率处理能力(或称扬声器的额定功率)是一项重要技术参数,它代表扬声器承受长期连续安全工作的功率输入能力,了解扬声器的功率处理能力,首先必须懂得扬声器驱动器是如何损坏的,驱动器的损坏模式有两种:一种是音圈过热损坏(音圈烧毁,过热变形,圈间击穿等),另一种是驱动器的振膜位移量超过极限值,使扬声器的锥形振膜/或其周围的弹性部件损坏,通常发生在含有很多大振幅的低频信号。
声音信号不是一种正弦波信号,而是一种随机的,这些随机信号可用三个能数来表示,有效值(RMS)又称均方根值,是以信号峰值等幅的正弦信号的一种测量结果,接近于平均值,基本上代表信号的发热能量。
是信号达到的最大电平,对于正弦波来说,峰值电平大于有效值电平3dB,对于音乐信号来说,峰值电平超过有效值可达10-15dB在评定一种扬声器的位移能力时,峰值是重要的,峰值因子,用来说明峰值电平与有效值电平的比率,对于按AES2-1984的粉红色噪声源来说,峰值因子为6dB,即峰值电压是有效值电压的4倍。
扬声器的功率处理能力是按(AES2-11984)处理后的粉红色噪声信号连续加2小时工作后其电性能和机械性能的永久性变化不大于10%的情况下测得的技术参数。
7)加载(受热)后的声压级下降(又称功率压缩)
所有产品说明书上标称功率都是各厂家自定的,是音箱在厂方选定的测试信号和条件下的最佳值,当音箱进入工作状态(譬如等于或大于满功率20秒之后),音圈和磁体受热温升后、由于它们性能下降改变了受热前单元的原有特性,这时,实际的声压输出就会减少,常规音箱,如音圈温升60度-80度,常见额定声压级下降3dB为容限,如音圈散热优异,耐温达100度以上,实际的声压下降可达6至8dB,这是相当惊人的下降,如前文题及,增加一倍的音箱只提升声压级3dB若音箱声压级下降达6dB,要弥补这么大的声压级下降必须由原来一只音箱增加至四只,非常遗憾,音响工业界没有标称这种声压级下降,必须要好的改善扬声器单元的散热设计。
8)扬声器单元的阻抗
扬声器单元的阻抗包括,电感量,电容量和电阻值,电感和电容是随频率而变化的,虽然在扬声器系统中标称一个阻抗变化太大,将会影响整个音响系统的稳定性,JBL最新DCD双线圈差驱动设计是将阻抗变为“纯电阻”性,不受频率变化而影响,让整个音响系统稳定工作。
Re:各种声音的基本频域成份介绍 刘品 2012-03-27 19:27
1.对节目主持人的声音调整
主持人的音质直接影响观众的情绪,因此先要吧主持人的声 音调整好。主持人的语调一般分两种,低语调和中语调。若属 低语调最好是采取近距离的拾音方法。距离近可拾到语音的纤 细部分,使高低音丰富,音域宽且带有亲切感。但距离越近低 音越多,从而影响声音清晰,高音多会造成声音不干净等毛病 。为了避免这些毛病,首先在话筒选择上要注意话筒特性,选 择音质明亮的话筒,要求中音特性好其次要在调音台上下工夫 。比如把低频150HZ附近衰减6-10分贝,把中频段250HZ-2KHZ 提升3-6分贝,把高频5KHZ以上衰减3-6分贝。这样可以大大提 高声音的清晰度,而且音质明亮。为了保持声音的亲切感和真 实感最好不要加任何效果。再音量掌握上要适中,一般控制在 -10DB左右。对于中语调中频提升往往会使声音生硬,低频稍 作提升会使声音丰满。
2.专业歌手的声音调整
再调整之前先要熟悉歌手的发声特点和演唱风格,其次要了 解歌手的音色和频响宽度,以及动态范围,和歌曲风格。歌手 使用的话筒需要音质明亮,频响宽,失真小,动态范围大。歌 手要站在具有散射面的声场中。演唱过程中注意歌手的齿音和 气音不要外露,可以把7KHZ左右衰减3-6分贝。 在音质补偿上,要注意低频的调整,提升中频段可以增加亮 度,如2KHZ-4KHZ提升3-6分贝可以大大提升歌声的亮度,提升 200HZ左右声音会浑厚有力。把低频100HZ附近衰减3-6DB以提 高声音清晰度和减少话筒近距离效应。 在音量上要适中,把弱音提上来,强音压下去。最好自动( 激励.压限)和手动结合。
Re:谷歌开放实时通信框架WebRTC源代码 ncistcn 2012-03-20 01:30
感兴趣的同学加QQ群 181075683
Re:语音信号处理 scarecrowxq 2012-03-19 19:38
您好,我也刚开始学习语音信号方面的东西。我想问一下您,语音的整数DCT变换我应该从哪里入手,比如看些什么样的资料。我是在PCM码的基础上做的,是不是对其十进制形式做整数DCT变换?另外您那里有基于matlab的这方面的资料么?问的问题可能比较基础,迫切希望能得到回音,谢谢。
Re:谷歌开放实时通信框架WebRTC源代码 linsan 2012-03-16 18:00
前辈好!麻烦也给我一份,近来在搞网页视频语音,急切需要支持,有劳前辈,先谢过了!QQ 635328486 QQ邮箱:635328486@qq.com
Re:看看国外语音博士的招生要求和工作内容 lujiao_cs 2012-03-16 12:53
@刘品
恩 我实现的是实时的传输,对视频的清晰度要求不严格。现在直接获取到了视频流和音频字节流,但是不知道什么格式的。
@lujiao_cs
如你觉得MP4压缩率还不高的话,那只能试试H.264了。图像的大小和码流肯定是可以预设的.
Re:看看国外语音博士的招生要求和工作内容 lujiao_cs 2012-03-15 19:45
刘品先生,您好。现在有几个问题想请教。
我现在在做基于.Net的关于视频传输的毕设,想在windows phone平台上实现,但是录制的MP4文件太大了。1)想问一下能用什么样的方式进行压缩吗?手机上压缩现实吗? 2)能不能自己采集图像和音频,将视频和音频分别传输, 或者自己合成较小的视频格式传输。3)windows phone 进行视频采集的时候,能不能直接设置视频音频的参数,以获取较小的视频流?
Re:谷歌开放实时通信框架WebRTC源代码 czcz123456 2012-02-17 17:33
写得非常好,麻烦发给我一份,谢谢。
czwlc@qq.com
Re:提高专业技能之 “专利申请” 杰米尼 2012-02-17 12:32
\(^o^)/~
Re:iOS NEON 介绍 街边旁观 2012-02-16 22:56
请问最后一小段是什么意思?没有太看懂,可否列举一个例子?谢谢!
One last consideration from a recent ARM blog post is that you shouldn’t use “regular” ARM code to handle the first and last scalar iterations, as there is a penalty when writing to the same area of memory from both NEON and ARM code; even scalar iterations should be done with NEON code (which should be easy with single element loads and stores).
Re:智能型手机中的音频设计方案 瀚海明驼 2012-02-16 19:44
支持多路语音输入的手机音频芯片么
Re:智能型手机中的音频设计方案 瀚海明驼 2012-02-16 19:43
有支持多路语音输入的mic么
Re:Cepstrum 倒谱复习 DarkHorse 2012-02-15 16:01
牛人!
这些图怎么显示不了?
Re:谷歌开放实时通信框架WebRTC源代码 tongailing 2012-02-14 00:31
老师:
您好!我是一名女研究生。
能不能把取WebRTC的源代码、规格说明和工具等发给我一份,谢谢老师。
邮箱:811135896@qq.com
老师的博客写的非常好,最近在做android、pc端语音通信这方面的工作。老师的博客拓宽了我的眼界。
谢谢老师!
Re:谷歌开放实时通信框架WebRTC源代码 nuaa_zyzcf 2012-01-19 20:04
[quote]oncemore:
用了一下webrtc里边的回声抑制部分,发现处理后的声音音调明显不对了。不知道我的调用方法对不对?博主能帮我看一下吗?
#include <stdio.h>
#include "echo_control_mobile.h"
WebRtc_Word16 far_frame[320];
WebRtc_Word16 near_frame[320];
WebRtc_Word16 out_frame[320];
#pragma warning (disable:4996)
void main()
{
const char far_file_default[]= "aec_f...[/quote]