多媒体数据压缩技术与标准化

多媒体计算机技术是面向以文本、图形、图象、声音、视频和动画等多种媒体信息

 

  数字化了的视频和音频信号的数据量是十分惊人的,是制约多媒体发展和应用的最大障碍。一帧中等分辨率(640×480)真彩色(24位/象素)数字视频图象的数据量约占0.9mb字节空间,按目前流行的三种视频制式(pal制式,25帧/s;ntsc和secam制式,30帧/s),以每秒30帧计算,则视频信号的传输速率大约在27.6mb/s,即使用目前600mb的标准光盘,每张也仅能存储20几秒的视频信息。再来看看音频信号的数据量,若采用16b/样值的pcm(脉冲编码调制)编码,采样速率定为44.1khz,则双声道立体声的声音数据量达1.4mb/s。按习惯一部长为2小时的电影或电视,则视频和音频的数据量约占208800mb的存储空间。由此可见,依现有的计算机软硬件技术和数据处理能力,要求计算机传输速率约达30mb/s,一次要求存储(一部影片)208800mb以上的存储空间,真是天方夜谈,根本无法达到。因而,多媒体的数据压缩问题自然成为关系到多媒体技术发展的成败,是必须解决的瓶颈问题。

  一、数据压缩的基础

  要减少多媒体数据的时空(传输与存储)量,有两种最简单的方法:其一是减小媒体信息的播放窗口,如把中分辨率640×480个象素的窗口改为100×100个象素,可使数据量减少为原来的三十分之一;另一种方法是放慢媒体信息的播放速度,如将现在25帧/s或30帧/s的视频播放信息减少到15帧/s或10帧/s,也可使数据量减少到原来数据量的三分之一。显然这些方法都是以牺牲媒体信息的播放质量和效果而换得数据所需的时空,实为下策。

  为了追求解决多媒体数据时空需求的最理想方法,人们对多媒体数据的结构和特性进行了深入研究,发现媒体数据本身常常存在着很大的冗余量。如以视频信号数据为例来说明数据冗余量存在的根源。一是视频信号一帧画面是由若干个象素组成,在每一帧内的相邻象素之间具有很大的相关性,因而就有很大的信息冗余量,这称之为“空域相关”。二是视频信号的帧列通常反映一个连续的过程或事件,在它的相邻帧列之间也存在着很大的相关性。如从一帧到下一帧,可能背景没有多大的变化,而即使对活动着的人物来说,活动也仅仅是局部的肢体和五官(如手、嘴部位等)部位,而大部分身体部位没有变化,这就是说在帧之间也存在着大量的冗余信息,此种冗余被称为“时域相关”。在多媒体的应用中,信息的主要接受者是人,而人的视觉具有“视觉掩盖效应”,对图象边缘急剧变化不敏感,对色彩的分辨能力弱,而对图象的亮度敏感。人的听觉也具有其固有的生理特性。人类的这些视觉、听觉等感观特性对于实现数据的压缩非常有利,即使在信息压缩之后仍可保证人类的接受效果基本不受影响。

  上述各种媒体相关特性和人类感观特性构成了多媒体数据压缩的基础,同时也确定了数据压缩研究和实现的方向。在长达近50年的数据压缩研究过程中,一些先进、成熟、实用、标准的压缩方法在近些年来已被推广和应用,为多媒体产业的飞速发展奠定了坚实的基础。

  二、数据压缩与解压缩方法

  数据压缩的目的是为了在不丢失信息接受效果的前提下,按照一定的数学算法或操作方法对原信号数据进行变换、量化和编码,并通过此过程减少数据量,此即数据压缩或数据编码。与数据压缩过程相反,对已压缩的原信号数据进行量化、变换和还原,称之为数据的解压缩或解码。在多媒体数据压缩与解压缩的方法上,由于各类不同媒体数据的压缩与解压缩过程和方法没有本质上的区别,本文的讨论将以视频信号为主。图1是视频信号数据压缩和解压缩的基本过程示意图。

  图1所示的视频信号的数据压缩是基于r、g、b信号,或y、u、v信号,也可以是h、s、i信号(有关各种信号的标识、含义及相互关系恕不赘述)。原始彩色图象的r、g、b信号由发送端进入编码系统,经过坐标空间变换,生成y、u、v信号,再经a/d变换(抽样、量化)得到数字信号。对每一个象素的y、u、v分别赋予一组bit数,用以量化各个信号的特性参数。一般三个信号各取8位,则一个象素共需24bit。直接对a/d变换后的数字信号进行编码是最基本的编码方法,称之为pcm(脉冲编码调制)。pcm编码方法可分固定和自适应两种情况,并对每个采样点分配以固定长度的码字。如果对a/d变换后的数字信号再做一次映射变换,可以减少原始数据的相关性和冗余度,便于数据的压缩。采用不同的映射方法,就可得到不同的编码方法(由编码器实现),如预测编码、变换编码、统计编码等。映射变换和编码器一般都是可逆运算,对信号数据的变换和编码不会产生任何信息损失,而遗憾的是量化器是导致信息损失的根源,因为量化是以视频图象的失真度为代价换取bit数的下降,而达到数据压缩的目的。因而,量化的本质就是以质量换空间,得失并存,要在bit数下降的限度与图象质量保真度之间折衷考虑。解码/解压缩过程正好与编码过程相反,

恕不再述。

  在近50年的数据编码研究中,数据压缩技术取得了长足的进展,尤其随着数字通信技术、计算机科学和多媒体产业发展和应用的广泛需求,数据压缩技术可以说是日臻成熟,而且已被广泛应用。图2给出了多媒体系统常用的一些数据压缩算法。

  多媒体数据压缩被分为有损和无损压缩。无损压缩也称之为无失真压缩,也就是在数据压缩过程中原始信息未受任何损失,通过解压缩过程可把信息恢复成原样。有损压缩常称之为有失真压缩,即通过解压缩后不能把信息恢复成原样。那么,有人就会问是不是无失真压缩一定会被有失真压缩好呢,从理论上讲,无失真被失真压缩好,但从实际应用和效果来看,无失真不一定被有失真压缩好。这是因为评价一个压缩方法的优劣,应从“压缩比、压缩信息的恢复质量以及处理的复杂程度”三个方面来综合考虑。虽然压缩比是压缩的主要问题,但它要受到其它因素的制约。如压缩比太高了,压缩算法的复杂度急剧增加,这样算法的软硬件实现难度和时间延迟也将随之加大,另外恢复后的信息(图象,声音等)质量也会下降。由此可见,在实际的数据压缩方法研究中,一个优秀算法的确定既要看到它的压缩比,又要衡量它的实现难易程度和实际应用效果,是多方面因素的折衷。

  图2给出了多媒体系统常用的数据压缩算法,无失真压缩有:哈夫曼编码、算数编码和行程编码等;有失真压缩有:预测编码、变换编码、子带编码、矢量量化编码、混合编码和小波编码等。在压缩算法的实现中,可以用软件或硬件的方法实现,也可以用软硬件结合的方法实现。由于电子技术的飞速发展,为数据压缩算法的硬件实现创造了非常良好的条件,高效、实用和标准的压缩算法基本都被制做成专用芯片,这为多媒体技术的发展和应用铺平了道路。图2仅给出了多媒体系统常用的数据压缩方法,除此之外,还有很多不同类型的数据压缩算法,有些虽正在研究但是非常有前景的算法,限于篇幅,恕不赘述。有关各种压缩算法在一般的多媒体技术文献中均有详细说明。

  三、数据压缩标准及其现状

  多媒体数据压缩的标准化工作随着多媒体技术的飞速发展和日趋成熟而逐步展开。久负盛名的是iso/iecjtc1/sc29成立的两个专家组:联合图象专家组(jpeg:jiontphotographicexpertsgroup)和活动图象专家组(mpeg:movingpictureexpertsgroup),任务是负责制定多媒体技术的有关标准。由于所制定的标准对于多媒体技术和产业的大发展和应用具有举足轻重的作用,以致jpeg和mpeg这两个专家组的名字也成为有关标准的代名词。

  标准化对于多媒体这个高新技术和庞大产业是十分重要的,因为多媒体是一个集计算机、通信、数字化、影视音响艺术等多学科为一体的综合技术,既要提倡百花齐放,又要防止杂草蔓延,这不得不通过标准化实现多媒体技术在各国间的统一、合作、交流和应用,因而多媒体国际标准化的组织也就应运而生。

  在国际信息领域,iso/iec(internationalorganizationforstandardization/internationalelectrotecnicalcommittee:国际化标准组织/国际电工委员会)创建了一个联合技术委员会(jointtechnicalcommittee),称之为jtc1。其下又建立了负责多媒体方面标准化制定工作的分委会sc29(subcommittee29),分委会下再成立若干工作组。具体地说,sc29是负责“音频、视频、多媒体和超媒体信息编码(codingofaudio,picture,multimediaandhypermediainformation)的标准化工作。我国于1993于年正式成立了“全国信息技术标准化技术委员会多媒体分委会”,职能是负责国内多媒体技术的标准制定工作,对外主要负责与sc29保持联系。除参加国际会议对有关标准进行讨论外,还负责对sc29发来的标准草案之类的文件进行通信投票,这是一个相当重要,而又颇为费力的工作。按规定,得到jtc1通过的国际标准草案提交给各成员国投票,作为国际标准发行至少要得到四分之三成员国的通过。通过的标准不仅仅是一个技术问题,更重要的是获得了巨大经济效益和市场控制权,这也是一个国家、一个研究机构、一个公司在多媒体技术研究中走向成功、走向世界的标志。有关多媒体数据压缩的典型标准现作一简要介绍。

  jpeg:是世界目前最流行的标准之一,编为iso/iec的10918号标准。jpeg是用来实施静态图象压缩的标准。具体方法是压缩一幅图象时,先把这幅图划分成8×8个象素的若干个子块,块中的64个象素则根据左上角的那个象素特性加以数学描述和编码。当jpeg标准的压缩率达到20:1(即压缩20倍时)左右时,图象基本不出现可见的失真。jpeg常被用在pc、macintosh和amiga这样一些平台上。jpeg标准随着压缩比的提高,信息的损失就较为严重,图象的失真也就比较明显。一般,在损失一定图象信息的情况下,压缩可达到100倍左右。jpeg的压缩速度较慢,但好在压缩对象是静态图象,没有实时要求而仍被广泛使用。

  mpeg:是目前颇具影响、最受青睐的动态视频压缩标准。主要标准有:

  mpeg—1:1992年11月被定为国际标准。目标是在一种可接受的质量下,把视频及其伴音信号压缩到速率大约为1.2—1.5mb/s的单一mpeg位流(或数据流)。这样,用cd—rom驱动器来实时播放每秒30帧的全活动彩色视频信号就成为现实了。

  mpeg—2:1994年11月成为国际标准。目标是把视频及其伴音信号压缩到10mb/s。这是一个一般性的、适应性广的动态影像和声音编码方案,它兼容mpeg—1,经实验可适用于1.5—60mb/s的编码范围,甚至还可以更高。mpeg—2可用于数字通信、存储、广播、高清晰度电视等的压缩编码。

  mpeg—3:原计划目标是把视频及其伴音信号压缩到40mb/s,后被取消。

  mpeg—4:计划用于传输速率低于64kb/s的实时图象,预计1998年形成标准。

  目前广泛使用的mpeg—1标准包括三部分:mpeg视频,mpeg音频和mpeg系统。mpeg要处理视频压缩、音频压缩和多种压缩后的数据流的复合与同步问题。在图象质量基本上不变的情况下,mpeg可把视频信号压缩到50倍(即50:1),而在可观察到图象质量下降的情况下,压缩比可达200:1。现行的mpeg压缩方法主要使用了两种基本技术:一是基于16×16的子块的运动补偿或双向预测方法,用来减少帧列间的时域冗余度;二是基于dct(离散余弦变化)的压缩方法,用来减少空域冗余度。mpeg的压缩算法比解压缩算法复杂得多,压缩算法主要以硬件方法来实现,而解压缩算法可采用硬件、软件或软硬结合的方法来实现。目前,基于mpeg标准的压缩和解压缩芯片或板卡及其相关的信息产品在市场上极为流行,可毫不夸张地说,mpeg的诞生和应用才使多媒体真正走到百姓之家,创造出多媒体今天的空前盛世和划时代的辉煌。

  p*64:p*64是一个由ccitt(国际电报与电话咨询委员会)提出的视频编码标准,用于活动视频和音频的信号压缩,目标是可视电话与电视会议。p*64符合ccitt的h.261建议,并把数据的多路复用、解多路复用、编帧、传输协议和带宽重合、呼叫建立和拆线等结合在一起。p是一个可变参数,取值范围是1~30。算法采用了混合编码方法,即基于dct的离散余弦变换编码方法和带有运动预测的差分脉冲编码(dpcm)预测编码的方法的混合。p*64kb/s标准的压缩算法与mpeg压缩算法有许多相同之处,只是在传输比特率上它可覆盖较宽的信道频带,一般在带宽40kb/s到40mb/s之间以每秒30帧的速率在铜线或光纤电话线上传输,而mpeg只在较狭窄的频带上传输。

  四、结束语

  在多媒体产业的形成和发展过程中,数据压缩技术及其标准化工作虽然取得了长足进展,但它仍处在研究和发展阶段,依然是多媒体的一个重要研究领域。不断探索和研究压缩比高、实现简单、质量完美的数据压缩方法仍是今后多媒体研究的一个重要课题,而且还有更长更艰巨的路要走。

posted @ 2013-03-23 00:23  general001  阅读(2441)  评论(0)    收藏  举报