音响论坛 门户 查看内容

MP3数字音频及其制作(上)

2009-8-11 09:40| 发布者: | 查看: 4376| 评论: 0

王伟 王健

本文作者王伟先生,武汉职业技术学院计算机系讲师;王健先生,辽宁师范大学教育技术系高级工程师、本刊通讯员。

关键词:MP3 数字音频 压缩编码 制作

MP3音频格式

MP3(MPEG Audio Layer)音频格式诞生于20世纪80年代,是伴随着MPEG-1而开发的。在MPEG-1标准中,音频压缩标准按复杂性和压缩质量分为三个独立层次:

(1)MPEG Audio LayerⅠ,它最为简单,码流为每通道384kb/s,主要用于数字卡座(Digital Compact CassetteDCC)(2)MPEG Audio Layer Ⅱ,它具有中等复杂度,码流为每通道192kb/s,主要用于数字音频广播、数字演播室和VCD等方面数字音频的制作、交流、存储和传送。(3)MPEG Audio Layer Ⅲ,它最为复杂,是综合了MPEG Audio LayerⅡ和ASPEC优点的一种混合压缩技术,其音频质量最好,主要用于MP3音频压缩,码流为每通道64kb/sMP3编码虽不适用于实时传送,但能在低编码速率下提供较高的音质,所以成为网上音乐的宠儿。

MP3压缩编码原理

MPEG-1的音频压缩中,采样频率可为32kHz44.1kHz48kHz,可支持单声道(Monophonic)、双单声道(DualMonophonic)、立体声模式(Stereo Mode)、联合立体声(JointStereo)等。常见的MP3大多采用联合立体声模式。

实验表明,人类能听到的声音频率范围(音频)20Hz20kHz,但人耳对整个音频频段声音的反应不是平直的,25kHz是人耳最灵敏的频段。依其特性将整个音频频段分成多个临界频带,因为人类听觉系统是依据频率来分辨声音能量的,任何频率的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖。MP3对其不作量化处理,从而去掉那些人类听觉系统所无法察觉的声音,达到压缩的目的。可见,MP3是一种有损的音频压缩编码。

MP3压缩编码技术

MP3压缩编码使用了5种重要的技术:最小听觉门限判定(Minimal Audition Threshold)、掩蔽效应(Masking Effect)、位储存槽(Reservoir of Bytes)、联合立体声(JointStereo)和霍夫曼编码(Huffman Code)

最小听觉门限判定是一种减少信息量的手段,可以将大部分记录信息集中在人耳最敏感的25kHz范围,其余频率则分配较少的容量记录。

掩蔽效应是一种心理声学模型,在听觉上表现为有一个音量或音色特别突出的声音出现时,其它细小的声音会变得难以被察觉,因而没有必要对所有的声音细节都进行编码,而只需对容易引起注意的声音编码。

位储存槽是MP3的流量属性,分为恒定比特率(CBR)和可变比特率(VBR)CBR指文件每秒的信息流量固定不变,常见的MP3音频都是以CBR方式编码的,其优点是压缩速度快;缺点是由于每秒的信息流量相同,容易造成空间的浪费。VBR指文件每秒的信息流量可以变化,其优点是在信号复杂时用较多的容量记录,信号简单时用较少的容量记录以有效利用空间。通过位储存槽,将CBR编码的MP3音频,在波形简单时用较少的容量记录,把多余的空间用于记录复杂的波形,维持流量的大小,以达到近似于VBR编码的效果。而用VBR编码的MP3音频则不需要位储存槽。

联合立体声是一种立体声编码技术,主要分为强度立体声(Intensity Stereo, IS)和中侧立体声(Mid/Side Stereo, M/S)两种。IS在流量比较低时使用,利用人类听觉系统对高频信号相位分辨能力不强的特点,将音频信号中的低频分离出来合成单声道信息,其余的高频信息合成另一个单声道信息,并通过另外记录高频信号的位置信息来重建立体声效果。M/S常被用于左右声道大体相似的情况,先将左右声道相加(L+R)得到一个声道,再将左右声道相减(L-R)得到另一个声道,然后将这两个声道信息通过心理声学模型和滤波器处理。M/SIS一样,是以损失部分相位信息为代价而获得较高音色记录信息的方法。一般地,在MP3音频编码中M/SIS是交替使用的,视信息内容和流量而定。如果是更高流量如160kb/s以上的MP3音频,则可以对立体声的两个声道独立编码,以保存相位信息。

霍夫曼编码是一种常见的无失真压缩方案。在脉冲编码调制信号(PCM)被分成多个临界频带并经过以上处理后,经过混合多相修饰离散余弦变换(MDCT),将波形转换为一连串的系数,最终经过霍夫曼编码再次实现压缩。

来源:《世界广播电视》

微信扫码关注公众号