多媒体笔记

  • 人类感知信息的途径:视觉占65%,听觉占20%,嗅觉、味觉、触觉占15%信息量。

 

  • 3D视频比2D视频多了深度一维。

 

  • 视频图像压缩的基本依据:1)空间冗余;2)频率冗余;3)视觉冗余;4)熵冗余;5)时间冗余。

 

  • 视频图像压缩的基本方法:1)帧内预测编码;2)变换编码;3)量化编码;4)熵编码;5)帧间预测编码。

 

  • 视频卫星是一种新型对地观测卫星,与传统的对地观测卫星相比,其最大的特点是可以对某一区域进行“凝视”观测,以“视频录像”的方式获得比传统卫星更多的动态信息,特别适于观测动态目标,分析其瞬时特性。

 

  • 游程编码存在的问题:1)普通英文中并没有多少重复。有许多双写,但是很少有3次重复的。2)在输入流中,字符@可能是文本的一部分,此时必须选一个不同的提示字符。3)由于重复计数值以字节形式写在输出流中,只能计到255。

 

  • 图像各行单独编码的原因:1)有时用户只查看图像的一般形状不需要细节,各行单独编码可以各行解码。2)逐步重建。3)可以只抽取图像的一部分。4)合并两幅图像不必先解码。

 

  • 在哈夫曼编码过程中,对缩减信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前的位置,这样可使合并后的新符号重复编码次数减少,使短码得到充分利用。哈夫曼编码对信源的统计特性没有特殊要求,编码效率比较高,因此综合性较优。优点:提高编码效率;缺点:需要大量缓冲设备来存储这些变长码,然后再以恒定的码率进行传送;在传输的过程中如果出现了误码,容易引起错误扩散,所以要求有优质的信道。

 

  • 算术编码存在的问题:当输入流中最后一个符号的子区间是从0开始的,就会出现还没有解出最后一个字符的情况下,它的值已经为0的情况,而我们一般认为为0时解码过程结束。解决方法就是加入eof这样一个符号,并把它以很小的概率加入到概率表中,编码时,把它作为最后一个字符编码到输入流中,当解码时,解码出eof认为解码过程结束。

 

  • 是不是运动估计的基本单元块大小越小对压缩就越好?基于块的运动估计:匹配块与当前块的相对位移即为运动矢量,和残差数据均要写入压缩流。

 

  • 视频除了第一帧是否应该全部编码为P帧?不能,1)全P帧会导致视频只能从第一帧开始解码播放,不能拖动进度条从后续某一帧开始解码播放,应当插入I帧以保证可以从后续某一帧开始解码播放;2)全P帧会导致视频某一帧的误码会在时域上逐帧扩散,应当插入I帧以保证误码的时域扩散被终止。

 

  • 帧类型与宏块类型的关系:I帧:所有宏块均为Intra宏块,不能进行帧间预测,只能进行帧内预测;P帧:宏块可以为Inter宏块,进行帧间预测,也可以为Intra宏块,进行帧内预测。

 

  • P帧中哪些宏块会是Intra宏块?1)当前帧出现了前一帧未出现的新目标,新目标与前一帧没有时间相关性。2)目标连续,但当前帧中目标运动太过于剧烈,目标与前一帧时间相关性太弱。3)当前帧内容自身过于简单相似,空间相关性太强。

 

  • DCT变换压缩的主要思想是通过对图像的变换使分散在各个像素上的能量集中在少数系数上,进而甩掉零或近似于零的系数,以达到压缩的目的。DCT变换固有的缺点:块效应(变换编码是一种块结构编码方法,易出现块与块之间的不连续性。)

 

  • 视觉系统是非均匀和非线性的,对不同的变化感知程度不同。对低频信息(基本信息)感知程度较强,对高频信息(细节信息)感知程度较弱。

 

  • 量化编码中加大量化步长,可以降低码率。

 

  • JPEG规定了4种运行模式,以满足不同需要:
    • 基于DPCM的无损编码模式:压缩比可以达到2:1。(主要采用了三邻域二维预测编码和熵编码)
    • 基于DCT的有损顺序编码模式:压缩比可以达到10:1以上。(1.将源图像分成几个颜色平面(分量图像);2. 分成8×8数据块进行正向离散余弦变换(FDCT);3. Z字形排列量化结果(zigzag scan);4. 使用差分脉冲编码调制(differential pulse code  modulation,DPCM)对直流系数(DC)进行编码;5. 使用行程长度编码(run-length encoding,RLE)对交流系数(AC)进行编码;6. 熵编码(entropy coding))
    • 基于DCT的渐进编码模式(此模式与顺序模式编码步骤基本一致,不同之处在于渐进模式每个图像分量的编码要经过多次扫描才完成。第一次扫描只进行一次粗糙的压缩,然后根据此数据先重建一幅质量低的图像,以后的扫描再作较细的扫描,使重建图像质量不断提高,直到满意为止。)
    • 基于DCT的分级编码模式(1、降低原始图像的空间分辨率;2、对已经降低分辨率的图像按照顺序编码模式进行压缩并存储或传输;3、对低分辨率图像进行解码,然后用插值法提高图像的分辨率;4、将分辨率已经升高的图像作为原图像的预测值,并把它与原图像的差值进行基于DCT的编码;5、重复步骤3、4直到图像达到完整的分辨率)

 

  • 字典编码为了达到好的性能,需要知道信源的结构信息。1)有足够的先验信息——静态字典;2)否则,在编码过程中获得信源的知识——自适应字典。

 

  • LZ77编码小结:使用固定大小窗口进行词语匹配,而不是在所有已经编码的信息中匹配,是因为匹配算法的时间消耗往往很多,必须限制词典的大小才能保证算法的效率。

 

  • 自适应字典中如果没有信源的特定知识,任何方法可能都不会工作得很好。

 

  • 存储局域网SAN则是另一种存储系统,它以数据为存储中心,采用可伸缩的网络拓扑结构,通过具有高速传输率的光通道的直接的连接方式,提供SAN内部任意节点之间的多路可选择的数据交换,并将数据存储管理集中在相对独立的存储区域网内。SAN能够实现在多种操作系统下,最大限度地实现数据共享、优化数据管理及系统的无缝扩充。

 

  • 处理多媒体数据主要的方法有:一是对关系数据库进行扩展;二是建立面向对象数据库系统,以存储和检索特定信息。

 

  • 流媒体技术简单来说就是应用流技术在网络上传输多媒体文件。流技术就是把连续的视频和音频等多媒体文件经过压缩处理后放到网络服务器上,让用户边下载边观看,而不是需要将整个文件都下载完才能观看的网络技术。

 

  • 由于人类眼睛的视网膜中有三种锥状视觉细胞,分别对红、绿、蓝三种光最敏感,所以一般都选用RGB这三种颜色作为基色。

 

  • 颜色模型用于在某个颜色域内方便地指定颜色,任何一个颜色域都只是可见光的子集,因此任何一个颜色模型都无法包括所有的可见光。

 

  • 与RGB颜色模型不同,以红、绿、蓝的补色青、品红、黄为原色构成的CMY颜色系统,常用于从白光中滤去某种颜色,故称减性原色系统。静电或者喷墨绘图仪、打印机、复印机等硬拷贝设备将颜色印在纸张时,使用的是CMY颜色系统。当我们在纸面上涂上青色颜料时,青色颜料从白光中滤去红光,使纸面不反射红光。

 

  • 矢量图是存储图像信息的轮廓部分,而不是存储图像的每一个像素点。例如,一个圆形图只要存储:圆心的坐标位置和半径长度,圆的边线和半径长度,圆的边线和内部的颜色即可。这种存储方式经常耗费大量的时间,进行一些复杂的分析演算工作,图像的显示速度较慢,但图像缩放不会失真,图像占用的存储空间也小得多。因此,矢量图比较适合存储各种图表、工程设计图等。

 

  • 通常,.bmp文件的数据是从下到上、从左到右的。从文件中最先读到的是图像最下面一行的左边第一个像素,然后是左边第二个像素……接下来是倒数第二行左边第一个像素,左边第二个像素……依次类推,最后得到的是最上面一行右边的一个像素。

 

  • 隔行扫描的一帧图像由两部分组成:一部分由奇数行组成,称奇数场,另一部分由偶数行组成,称为偶数场,两场合起来组成一帧。因此在隔行扫描中,无论是摄像机还是显示器,获取或显示一帧图像,都要扫描两遍才能得到一帧完整的图像。

 

  • YUV模型的优点是:亮度信号(Y)和色度信号(U、V)是相互独立的;可以利用人眼的特性来降低数字彩色图像所需要的存储容量。可利用人的视觉特性来节省信号的带宽和功率,通过选择合适的颜色模型,可以使C1、C2的带宽明显低于Y的带宽,而又不明显影响重显彩色图像的观看。因此,为了满足兼容性的要求,彩色电视系统选择了一个亮度信号和两个色差值信号,而不是直接选择三个基色信号进行发送和接收。

 

  • 实现实时采集的关键是每一帧所需的处理时间,如果每帧视频图像的处理时间超过相邻两帧之间的相隔时间,则会出现数据的丢失,称为丢帧现象。采集卡都是把获取的视频序列先进行压缩处理,然后再存入硬盘。可见视频序列的获取和压缩是在一起完成的,不同档次的采集卡具有不同质量的采集压缩性能。

 

  • 对彩色图像进行子采样的理论根据是什么?人的视觉系统所具有的两种特性。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不易察觉;二是人眼对图像细节的分辨能力有一定限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。

 

  • 人类的视觉源于7亿年前的水母。

 

  • 锥状体主要位于视网膜的中间部分,称之为中央凹,对颜色高度敏感,用于给出图像细节。

 

  • 杆状体一般用来给出视野内的总体图像。

 

  • 人眼对黄绿色最敏感(在较亮环境中对黄光最灵敏,在较暗的环境中对绿光最灵敏),对白光较灵敏。但无论在什么情况下,人眼对红光和蓝紫光都不灵敏。

 

  • 优质的音叉振动发出声音的时候产生的是正弦声波。正弦波是最简单的波动形式,正弦声波属于纯音。任何复杂的声波都是多种正弦波叠加而成的复合波,它们是有别于纯音的复合音。

 

  • 浊音:声道打开,声带绷紧,气流经过使声带发生较低频率的张弛振荡,形成浊音,发浊音时声带发生振动,因此浊音具有周期性。清音:声带不振动,而声道在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音,清音没有周期性。

 

  • 视觉系统是非均匀和非线性的,对不同的变化感知程度不同。对低频信息(基本信息)感知程度较强,对高频信息(细节信息)感知程度较弱。

 

扫码关注公众号,查看更多精彩内容

posted @ 2024-03-25 13:49  不是公子的小白  阅读(2)  评论(0编辑  收藏  举报