㈠ “APTX”是什么意思
Apt-X是一种基于子带ADPCM(SB-ADPCM)技术的数字音频压缩算法。原始算法由Stephen Smyth 博士于20世纪80年代提出。由Audio Processing Technology(现已被CSR合并)公司发展并命名为apt-X。最初用于专业音频与广播领域。
主要用于专业音频领域,提供高品质的音频。其特点是:
①压缩率:4:1(aptX Live 为8:1,SBC为3:1到6:1之间);
②Word Depth:支持16bit,24bit音频(aptX Enhanced还支持20bit音频);
③编解码延时:采样频率48kHZ时<2ms;(SBC为2.5ms+缓冲时间)。
(1)音频高压缩算法扩展阅读
功能:
1、aptX 编解码技术可输出 CD 级音质,因此多年来一直是音乐行业、公共广播机构和电影制片厂的秘密武器。
2、Bluetooth® 受最大可用带宽限制,因此并非始终适合传送高品质音频。
3、aptX 通过在不影响音频质量或导致延迟问题的情况下显着压缩比特率,带来前所未有的 Bluetooth® 立体声聆听体验。
㈡ 数字音频压缩的主要基本算法有哪些
WAV:无损
是微软公司开发的一种声音文件格式,它符合 PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
这里顺便提一下由苹果公司开发的AIFF(Audio Interchange File Format)格式和为UNIX系统开发的AU格式,它们都和和WAV非常相像,在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。
MP3:流行
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应 “*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是:MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为*.mp3格式的发展提供了良好的条件。直到现在,这种格式还是风靡一时,作为主流音频格式的地位难以被撼动。但是树大招风,MP3音乐的版权问题也一直是找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。我们用装有Fraunhofer IIS Mpeg Lyaer3的 MP3编码器(现在效果最好的编码器)MusicMatch Jukebox 6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82MB的MP3文件。采用缺省的CBR(固定采样频率)技术可以以固定的频率采样一首歌曲,而VBR(可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上无法播放。我们把VBR的级别设定成为与前面的CBR文件的音质基本一样,生成的VBR MP3文件为2.9MB。
MIDI:作曲家最爱
经常玩音乐的人应该常听到MIDI(Musical Instrument Digital Interface)这个词,MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5~10KB。今天,MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid文件可以用作曲软件写出,也可以通过声卡的 MIDI口把外接音序器演奏的乐曲输入电脑里,制成*.mid文件。
WMA:最具实力
WMA (Windows Media Audio) 格式是来自于微软的重量级选手,后台强硬,音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右,WMA的另一个优点是内容提供商可以通过DRM(Digital Rights Management)方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,这对被盗版搅得焦头乱额的音乐公司来说可是一个福音,另外 WMA还支持音频流(Stream) 技术,适合在网络上在线播放,作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲,更方便的是不用象MP3那样需要安装额外的播放器,而 Windows操作系统和Windows Media Player的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐,新版本的Windows Media Player7.0更是增加了直接把CD光盘转换为WMA声音格式的功能,在新出品的操作系统Windows XP中,WMA是默认的编码格式,大家知道Netscape的遭遇,现在“狼”又来了。WMA这种格式在录制时可以对音质进行调节。同一格式,音质好的可与CD媲美,压缩率较高的可用于网络广播。虽然现在网络上还不是很流行,但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持,在网络音乐领域中直逼*.mp3,在网络广播方面,也正在瓜分Real打下的天下。因此,几乎所有的音频格式都感受到了WMA格式的压力。
RealAudio:流动旋律
RealAudio主要适用于在网络上的在线音乐欣赏,现在大多数的用户仍然在使用56Kbps或更低速率的Modem,所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。现在real的的文件格式主要有这么几种:有RA(RealAudio)、 RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。
近来随着网络带宽的普遍改善,Real公司正推出用于网络广播的、达到CD音质的格式。如果你的RealPlayer软件不能处理这种格式,它就会提醒你下载一个免费的升级包。许多音乐网站 提供了歌曲的Real格式的试听版本。现在最新的版本是RealPlayer 11。
VQF:无人问津
雅马哈公司另一种格式是*.vqf,它的核心是减少数据流量但保持音质的方法来达到更高的压缩比,可以说技术上也是很先进的,但是由于宣传不力,这种格式难有用武之地。*.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从*.wav文件转换到*.vqf文件的软件。 此文件缺少特点外加缺乏宣传,现在几乎已经宣布死刑了。
OGG:新生代音频格式
ogg格式完全开源,完全免费, 和mp3不相上下的新格式。 与MP3类似,OGGVorbis也是对音频进行有损压缩编码,但通过使用更加先进的声学模型去减少损失,因此,相同码率编码的OGGVorbis比MP3音质更好一些,文件也更小一些。另外,MP3格式是受专利保护的。发布或者销售MP3编码器、MP3解码器、MP3格式音乐作品,都需要付专利使用费。而OGGVorbis就完全没有这个问题。目前,OGGVorbis虽然还不普及,但在音乐软件、游戏音效、便携播放器、网络浏览器上都得到广泛支持。
FLAC:自由无损音频格式
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。FLAC是一套着名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3 及AAC,它不会破坏任何原有的音频资讯,所以可以还原音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。FLAC是免费的并且支持大多数的操作系统,包括 Windows,基于Unix内核而开发的系统 (Linux, *BSD,Solaris,OSX,IRIX),BeOS,OS/2,Amiga。并且FLAC提供了在开发工具 autotools,MSVC,Watcom C,ProjectBuilder上的build系统。
APE:最有前途的网络无损格式
APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后,你还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。APE的文件大小大概为CD的一半,但是随着宽带的普及,APE格式受到了许多音乐爱好者的喜爱,特别是对于希望通过网络传输音频CD的朋友来说,APE可以帮助他们节约大量的资源。
作为数字音乐文件格式的标准,WAV格式容量过大,因而使用起来很不方便。因此,一般情况下我们把它压缩为MP3或 WMA 格式。压缩方法有无损压缩,有损压缩,以及混成压缩。MPEG, JPEG就属于混成压缩,如果把压缩的数据还原回去,数据其实是不一样的。当然,人耳是无法分辨的。因此,如果把 MP3, OGG格式从压缩的状态还原回去的话,就会产生损失。
然而APE压缩格式即使还原,也能毫无损失地保留原有音质。所以,APE可以无损失高音质地压缩和还原。当然,目前只能把音乐CD中的曲目和未压缩的WAV文件转换成APE格式,MP3文件还无法转换为APE格式。事实上APE的压缩率并不高,虽然音质保持得很好,但是压缩后的容量也没小多少。一个34MB的WAV文件,压缩为APE格式后,仍有17MB左右。对于一整张CD来说,压缩省下来的容量还是可观的。
APE的本质,其实它是一种无损压缩音频格式。庞大的WAV音频文件可以通过Monkey's Audio这个软件压缩为APE。很多时候它被用做网络音频文件传输,因为被压缩后的APE文件容量要比WAV源文件小一半多,可以节约传输所用的时间。更重要的是,通过Monkey's Audio解压缩还原以后得到的WAV文件可以做到与压缩前的源文件完全一致。所以APE被誉为“无损音频压缩格式”,Monkey''s Audio被誉为“无损音频压缩软件”。与采用WinZip或者WinRAR这类专业数据压缩软件来压缩音频文件不同,压缩之后的APE音频文件是可以直接被播放的。Monkey's Audio会向Winamp中安装一个“in_APE.dll”插件,从而使Winamp也具备播放APE文件的能力。同样foobar2000,以及千千静听也能支持APE的播放。
㈢ 音频视频压缩技术概述
数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。
1、音频压缩技术的出现及早期应用
音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1KHz,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。
对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用)等系统中都使用了音频压缩技术。
2、音频压缩算法的主要分类及典型代表
一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。
(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括 G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、 G.722、Apt-X等。
(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。
由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。
子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有着名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。
(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显着改善,而相应付出的代价则是计算复杂度的提高。
变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。
有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。
3、音频压缩技术的标准化和MPEG-1
由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些着名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如G.711、G.721、G.728等标准,并逐渐受到业界的认同。
在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2),层Ⅲ(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。
最新进展
1、多声道音频信号压缩与DolbyAC-3
随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。
更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIR Recommendation 775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。
(1)Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。Dolby AC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。
Dolby AC-3是一种感知型压缩编码技术。
在Dolby AC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为10.66毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果; TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每5.33毫秒进行一次;在瞬变条件下,TDAC长度被等分为256 点,这样DolbyAC-3的频域分辨率为93.75Hz,时域最小分辨率为2.67毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC -3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒31.25帧。
通过以上叙述可见,在Dolby AC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。
可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。
(2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIR Rec.775做到与双声道、单声道形式的向下兼容,还能够与Dolby Surround形式兼容。
在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。
然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。
(3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1 所示。可见,多声道环绕声音频压缩技术标准亟待统一。