导航:首页 > 文件处理 > 声音压缩原理技术

声音压缩原理技术

发布时间:2022-09-07 20:14:27

❶ 录音 混音 中 压缩的意思 原理 请说的透彻明白点 谢谢

对人声进行频率均衡处理时,为突出某一音感而进行的频段提升,都尽量使用曲线平缓的宽频带均衡。这是为了使人声鼻音、乐音、齿音三部分的频谱分布均匀连贯,以使其发音自然、顺畅。从理论上讲,应使人声在发任何音时,其响度都保持恒定。
混响效果主要是用于增加音源的融合感。自然音源的延时声阵列非常密集、复杂,所以模拟混响效果的程序也复杂多变。
如果用COOL EDIT PRO的时候,里边有多个音轨,第一音轨用伴奏,第二音轨可以用来录人声,第二音轨录制完成后,要对人声进行编辑处理,比如:消除杂音(消除电流声音等),人声压限(使每一句的人声听起来力度都一样,不会有忽高忽低的感觉),人声均衡(对鼻音、齿音处理,还可以将人声的高音进行处理,增加穿透力),添加混响(原人声录制好以后,声音太过于干涩,加了不同的混响效果,就能相对变得圆润)。以上程序完成并保存后,回到多轨界面,根据听到的效果,对音乐和人声进行混缩,可以混缩为新的音轨,另外,此时的人声和音乐声音都可以在多轨界面进行调整,直到你认为人声和音乐充分融合。
不过,对人声的处理相对复杂,最好有各好点的耳机。多练,多录,感觉就有了。

❷ MP3的压缩原理是什么

其实音频压缩技术很多,MP3压缩技术并不是最好的。但现在看来它仍然是主流。
音乐信号中有许多冗余成分,其中包括间隔和一些人耳分辨不出的信息(如混杂在较强背景中的弱信号)。CD声音不经压缩,采用44.1kHz的固定速率采样,可以保证最大动态音乐的良好再现,当然,信息量较少处的数据量也是相同的,因而存在压缩的可能性。音响频宽为20~20kHz(顶级CDPlayer可向下延伸至2Hz)已成为目前的音乐标准。MP3为降低声音失真采取了名为"感官编码技术"的编码算法:编码时先对音频文件进行频谱分析然,然后用过滤器率掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然他是一种有损压缩,但是它的最大优势是一极小的声音失真换来了较高的压缩比。且现在的MP3采用与杜比AC-3相似的变压缩比率(VBR)压缩技术,采样的压缩比率依音乐中信息多寡,并利用人耳的掩蔽效应来减少冗余数据。

❸ 什么是mp5

现在的MP5 貌似是指可以直接播放Real格式文件的播放器
而真正的MP5见:http://www.dindinshop.com/html/as/article/0712241601026808.html

什么是MP5
语音压缩技术也在目前的消费性产品占有很重要的地位,举凡由网路电话到玩具等都可现其应用,而也根据不同的应用范围发展出不同的技术。
MP5是MPEG Layer 5的简称,它是由国内科技厂商自行开发出的算法。
而MP5音乐是一种音效档格式,它其实是将可以将一首完整的wav、mp3或是cda的声音档,经由MP5的压缩技术,产生压缩的比例大约1:10的音乐声音档。

一般的声音、歌曲所包含的频率除了人类听得见的,其实还有人类听不见的。
而MP5压缩算法就是预先替使用者过滤掉这些无法感知的声音,并大幅减少声音数位化后所需的储存空间。
用MP5压缩算法来处理音乐,是属于一种特殊的压缩方式,也因为如此,才能达到高压缩比的目的。
有了MP5格式的问世,下载一首普通的歌曲不再动辄需要半小时,而只需要短短的两三分钟。
MP5音乐档的优点相当多,因为档案体积小,所以更能利用在网路传输上。
MP5纯数位化与纯资料电脑的可携性、音乐资料的可分割性也是传统CD忘尘莫及的。
单就MP5传播的方式来看,使用可携式的MP5播放设备来重播音乐档,数位化的音乐播放方式,操作起来也比传统CD随身听更便利,不仅选曲较CD更快、也不须担心因为震动导致跳针,因为是纯数位的,所以也比CD更省电,而且体积也可以比CD更小、更轻。

两层意思。第一种代表一种音乐格式。第二种是指一种武器。

而MP5音乐是一种音效档格式,它其实是将可以将一首完整的wav、mp3或是cda的声音档,经由MP5的压缩技术,产生压缩的比例大约1:10的音乐声音档。

大家应该知道狗的耳朵可以听到很远的火车声,或是在隔三条街外另一只狗叫汪汪声,但人类却无法听见,这是因为人的耳朵与狗的耳朵差别在于,狗耳朵能够听到比人更高频率的声音。

一般的声音、歌曲所包含的频率除了人类听得见的,其实还有人类听不见的。

人类的听觉有其先天的限制。

一般而言,人耳无查觉的声音讯号有两种,一是较高或过低的频率,二是加强讯号过的弱音乐,若把声音中这些人耳听不见或无法感知的讯号滤除,可大幅减少声音数位化后所需的储存空间。

而MP5压缩算法就是预先替使用者过滤掉这些无法感知的声音,并大幅减少声音数位化后所需的储存空间。

用MP5压缩算法来处理音乐,是属于一种特殊的压缩方式,也因为如此,才能达到高压缩比的目的。

而使用这种特殊的压缩结果是,还原音效时难免会造成少许失真,但这些失真是在人耳可以接受的范围内,不过压缩比过于提高时,产生的失真将会较多。

而MP5压缩技术就是将人类耳朵听不见的声音频率给消灭掉以达到压缩的目的。

因此原始声音的某些部份被丢掉了,声音档案大小也因此被缩减,这就是MP5压缩技术的原理。

MP5使用了特殊的压缩技术,让我们还是不容易察觉出来的,因为它的压缩之后让人听起来像是没有经过压缩一样。

MP5将wav、mp3或是cda的歌曲压缩成短小而易于管理的音乐文件,在不损坏声音质量的前提下,一个40多兆的WAV音乐文件可被压缩成4兆的MP5歌曲;一张只能存储十几首歌曲的CD光盘,能存放一百多首MP5数位音乐,而音质几乎与MP3音乐没有区别。

MP5 音乐格式

语音压缩技术也在目前的消费性产品占有很重要的地位,举凡由网路电话到玩具等都可现其应用,而也根据不同的应用范围发展出不同的技术。

MP5是MPEG Layer 5的简称,它是由国内科技厂商自行开发出的算法。

而MP5音乐是一种音效档格式,它其实是将可以将一首完整的wav、mp3或是cda的声音档,经由MP5的压缩技术,产生压缩的比例大约1:10的音乐声音档。

大家应该知道狗的耳朵可以听到很远的火车声,或是在隔三条街外另一只狗叫汪汪声,但人类却无法听见,这是因为人的耳朵与狗的耳朵差别在于,狗耳朵能够听到比人更高频率的声音。

一般的声音、歌曲所包含的频率除了人类听得见的,其实还有人类听不见的。

人类的听觉有其先天的限制。

一般而言,人耳无查觉的声音讯号有两种,一是较高或过低的频率,二是加强讯号过的弱音乐,若把声音中这些人耳听不见或无法感知的讯号滤除,可大幅减少声音数位化后所需的储存空间。

而MP5压缩算法就是预先替使用者过滤掉这些无法感知的声音,并大幅减少声音数位化后所需的储存空间。

用MP5压缩算法来处理音乐,是属于一种特殊的压缩方式,也因为如此,才能达到高压缩比的目的。

而使用这种特殊的压缩结果是,还原音效时难免会造成少许失真,但这些失真是在人耳可以接受的范围内,不过压缩比过于提高时,产生的失真将会较多。

而MP5压缩技术就是将人类耳朵听不见的声音频率给消灭掉以达到压缩的目的。

因此原始声音的某些部份被丢掉了,声音档案大小也因此被缩减,这就是MP5压缩技术的原理。

MP5使用了特殊的压缩技术,让我们还是不容易察觉出来的,因为它的压缩之后让人听起来像是没有经过压缩一样。

MP5将wav、mp3或是cda的歌曲压缩成短小而易于管理的音乐文件,在不损坏声音质量的前提下,一个40多兆的WAV音乐文件可被压缩成4兆的MP5歌曲;一张只能存储十几首歌曲的CD光盘,能存放一百多首MP5数位音乐,而音质几乎与MP3音乐没有区别。

过去,通过互联网下载一首完整的歌曲是个不能现实的想法,因为繁多的音乐格式和其庞大的档案体积,再再阻碍着数位音乐在网路上的传播。

但是有了MP5格式的问世,下载一首普通的歌曲不再动辄需要半小时,而只需要短短的两三分钟。

MP5的优点不仅如此,经过压缩后的音乐之播放音质听起来不比MP3差。

MP5使用“特殊的压缩算法”过滤掉人类无法听到的声音以获取更多储存空间,因此,以MP5技术压缩后的音乐,严格来说应该会比MP3稍差,只是使听者无法察觉而已。

MP5音乐档的优点相当多,因为档案体积小,所以更能利用在网路传输上。

MP5纯数位化与纯资料电脑的可携性、音乐资料的可分割性也是传统CD忘尘莫及的。

基本上使用传统CD会发现一些问题。

比如说一张CD只喜欢其中几首歌,但必须连其他不喜欢的歌曲一起合并购买,不仅浪费金钱,重播欣赏时也造成困扰。

有了MP5音乐档的帮助后,使用者还可以自己制作MP5音乐合辑,其便利性也是传统CD所没有的。

单就MP5传播的方式来看,使用可携式的MP5播放设备来重播音乐档,数位化的音乐播放方式,操作起来也比传统CD随身听更便利,不仅选曲较CD更快、也不须担心因为震动导致跳针,因为是纯数位的,所以也比CD更省电,而且体积也可以比CD更小、更轻。

❹ 音频压缩原理

音频压缩的原理
转自http://forums.dearhoney.idv.tw/viewtopic.php?t=24378

引用:
音讯资料因为其资料内容的特性,以传统的压缩法难达到很高的压缩率,不过我们人耳并没有无限的时间分辨率和频率分辨率,其实原始的音乐讯号中包含了很多我们听不到的资料,把这些对我们来讲其实无意义的资讯给去掉,这样就可以达到很高的压缩率。这种利用人类 感官知觉的特性作的失真压缩法,就叫做 perceptual coding。
人耳的生理结构,由外耳的耳壳收集外界的声波到达中耳的耳膜产生震动,经由三块小骨连接前庭窗传入内耳,其中由于耳壳的内凹形状,外耳道的长度和宽度.. 等等生理的构造,会对不同频率产生共振升压的效果,尤其是 2~5Khz 的频率,会在这个过程中被放大。人耳听觉频率的范围,大约是 20~20KHz,音量范围则是 130dB SPL,大于 130dB 会产生痛苦的感觉,小于 0dB 则会被当成是静音。如上所述,人耳对 2~5KHz 的频率最敏感,越往高频感觉越不敏锐,音量要超过一定的界限以上查能被我们人耳察觉,这个最低可以听闻的界限,叫做 ATH(absolute threshold of hearing)。内耳的耳蜗有许多绒毛细胞,分别会对不同的频率产生反应,将基底膜淋巴液的波动转换成神经的电流讯号,传达给大脑。也就是说耳蜗的作用就像一个频谱分析仪,把声波转换成不同频率的讯号,每一个特定位置的绒毛细胞会受特定频率的刺激,但是当基底膜传导波动时其邻近周围的绒毛细胞也会受到刺激。这也就是说如果有一个频率的音量很大,在它附近同时有一个比较弱的频率的话,比较弱的频率的声音就会被比较强的声音给遮蔽掉,我们人耳没有办法分办出有另一个比较弱的频率的声音存在。这个遮蔽的作用叫 frquency masking。另外从基底膜受到声音震动到达稳定状态,还有声音结束后完全停止,中间都需要一段时间。所以如果有一个很大声的声音出现,在这个声音开始之前,到这个声音结束之后,有一段时间我们是听不到其他声音的,这种遮蔽效应,我们称为 temporal masking,之前的叫 pre-masking,之后的叫 post-masking。
前面提到耳蜗就像一部频谱分析仪,或者说像一个 band pass filter,会把声音分成许多不同的次频带,每个频带里都有一个中心频率,越往两边遮蔽的效果就越弱,在同一个频带里面的频率会互相影响,我们对他们的感知特性也十分的接近,这种人耳知觉特性的频带,我们称为 critical band。critical band 的宽度并不是都相等的,低频的部分比较窄,高频的部分则比较宽,总共分成 26 个 critical band。
除了人耳的生理结构特性以外,大脑的作用也占了一个很重要的角色。我们都知道音高是由基音决定,而音色是由泛音决定,我们很惊讶的发现,人类的大脑会自动补上基音,即使这个基音并不存在。譬如说电话的频宽只有 300~3200Hz,但是当我们听一个基音在 120Hz 的男性讲电话的时候,我们还是可以听出他的正确的音高,不会把男生听成女生。大脑是如何运用复杂的计算去重建这个不存在的基音,我们目前尚无法得知。

经过长期的实验和观察,我们可将人耳的听觉特性定性,建立一个人耳的听觉模型,叫做 psychoacoustic model。有了这些对人耳知觉特性的了解,我们就可以根据这些理论来压缩音讯资料,把我们听不到的声音去掉。
说是去掉,实际上是怎么做的呢?
要将无限的连续的类比讯号转变为有限的离散的数位资料,中间必须经过取样和量化的手续。譬如说现在量化的位阶只有 0~8 九个数字,每一个位阶的间隔大小是一格,对一个 4.9 的讯号作量化,得到的数字是 5,和原来 4.9 相差 0.1,这个误差叫做量化噪音。假设我们把量化的位阶减少到 5 个,分别等于原来 0~8 的 0, 2, 4, 6, 8 这几个数字,位阶的间隔大小扩大变成二格,此时再对 4.9 量化,量化的结果是 4,误差扩大到 0.9,也就是说量化的位阶越少,量化的间隔就越大,量化噪音也就越大。
我们做一个实验,把 16bit 的声波档转为 8bit,当场丢掉一半的资讯,档案也就小了一半,最简单的失真压缩不过我们观察频谱发现,减少量化的 bit 数产生的量化噪音,会造成全频带都水平上升一定杂讯,你如果听这个 8bit 的声波档,会发现背景充满沙沙沙的噪音,这就是因为量化误差产生的量化噪音。
那我们会想,这样全频带都减少一定的 bit 数太没有效率,为什么不把他分成好几个频带(critical band),再根据人耳的心理声学模型的遮蔽效应,对不同频带分配不同的 bit 数,让各个频带产生的量化噪音低于遮蔽效应的曲线以下,这样这些产生的量化噪音我们就听不到,对知觉来说等于是无失真压缩,这样岂不更好?

所以我们就把压缩的工作分成两个部分,一个部分将原来的 PCM data 经过 band pass filter 分成好几个 subband 次频带,另一个部分就是心理声学模型,分析频谱,找出遮蔽效应的曲线,然后根据这个曲线,对每个 subband 分别量化,决定分配的 bit 数,让产生的量化噪讯低于遮蔽效应的曲线,使量化的失真不会被人耳听到,这样就大功告成了

然后接下来要说的就是这个最复杂的心理声学模型是怎么工作的.... ^^;

怎么讲一讲变成这麼长 ^^;;
都还没进入主题...
我是要解释什么是 scale factor,这个牵扯到量化的过程,还有 short block 和 long block,这个牵扯到心理声学模型的判断和 MDCT window 大小的转换,主要目的是解决 pre-echo 的问题,结果越讲越多... ><
看的人就忍耐一下吧... -_-;;;

前面说到心理声学模型是如何工作的。ISO MPEG1 Audio 提供了两个心理声学模型,分别是 psychoacoustic model 1 和 2,model 2 比 model 1 要来得复杂,但是判断的效果较好。两个声学模型可以用在任何一个 layer,layer 1~3(MPEG1 layer 3 = MP3)。不过我们通常是将 model 1 用在 MP1 和 MP2,model 2 用在 MP3。不过当然也有例外,譬如说有一个特殊版本的 toolame(压 MP1, MP2 最好的 encoder)就是改用 model 2 的心理声学模型而不用 model 1。
MPEG1 Audio 压缩的时候一边是用一个 polyphase filter bank,将 PCM data 分成好几个"等宽的" subband 等待进一步量化压缩,一边是 psychoacoustic model,使用 512(MP1)或 1024(MP2/MP3)point(取 512/1024 个 sample 计算,或者说 window size=512/1024)的 FFT 转换,将 PCM data 转换到频率域,进行频谱分析。之所以另外使用 FFT 来分析,是因为 FFT 有比较好的频率分辨率,计算各个频率的遮蔽效应时会比较精确。然后 psychoacoustic model 会将频率按照 critical band(人耳听觉特性的频带)分为好几组,计算各个 critical band 的遮蔽曲线。在计算遮蔽曲线时,第一件要做的工作是区分哪些频率的声音是 tone,哪些频率的声音是 noise。为什么要这麼区分呢?因为根据实验发现这两种声音的遮蔽能力不一样,noise 具有比 tone 更强的遮蔽效应。这边会提到两个名词,一个是 TMN(Tone Mask Noise),tone 遮蔽 noise 的能力,单位是 dB,比较弱,另一个是 NMT(Noise Mask Tone),noise 遮蔽 tone 的能力,比较强。这两个名词很眼熟吗?MP+/MPC 就有提供让使用者修改这两个参数的设定。调降这两个参数,会减低 tone 和 noise 的遮蔽能力,整个遮蔽曲线会往下降,可以容忍的量化噪音就比较低,量化噪音必须减少,分配的 bit 数就必须增加,所以 MP+/MPC 调低这两个参数,bitrate 会往上窜升,但是量化杂讯也会随之减少。

在判断哪些声音是 tone,哪些声音是 noise,model 1 和 model 2 采用不同的方法。model 1 是寻找区域范围内,音量最大的频率,把这个频率当作 tone,因为 tone 通常是一定的区域范围内音量最大的。其他剩下的部分就当成是 noise,加起来以一个单一的频率代表。
model 2 的作法则不是去区分 tone 和 non-tone(noise),而是给每个频率一个 tone index,由 0~1,index 数字越大,代表这个频率越像 tone,根据这个 index 的比例大小,分别计算他们的遮蔽影响力,这样是不是更精确呢。那要怎么判断某个频率有多像 tone 呢? model 2 是用 predict 的方法。predict 的意思是以现在的状态,去预测下一个状态是什么。在这里 model 2 会储存过去的两个分析过的 window 频谱,根据频谱的变化,来判断哪些频率有多像 tone。因为 tone 的声音会具有可预测性,前后的变化会有高度的关联性,不会随机的杂乱跳动。根据前后的频谱变化,model 2 更可以准确的分办出 tone 和 noise。

找出 tone 和 noise 以后,接着把不重要没有意义的 tone/noise 去掉,譬如说两个 tone 靠近,一强一弱,或是低于 ATH 绝对听觉极限以下的 tone/noise,都可以把他去掉。然后计算剩下来的 tone/noise 的遮蔽效应,求出每个 critical band 的遮蔽曲线,最后在合并这些曲线,找出全体的遮蔽曲线。
实际上 psychoacoustic model 会计算一个数值,然后把这个数值传给量化阶段的程式,让量化阶段的程式知道这个频带可以允许的量化噪音是多少,该分配多少的 bit 数。这个传给量化程式的参数叫做 SMR(Signal to Mask Ratio)。
很眼熟的名词对不对
SMR=SNR-NMR
MP+/MPC/Lame 可以让你自行设定 minimum SMR 的底线是多少。
前面提过,MPEG1 Audio 在分成好几个 subband 准备做量化的时候,用的是"等宽"的 filter bank,这和我们人耳特性的 critical band 不同,由下图可以看出,低频的部分一个 subband,包含了好几个 critical band。到了高频的时候,好几个 subband 包含在一个 critical band 里面。这样心理声学模型计算出来的各个 critical band 的 SMR 要怎么给呢?
model 1 是取 subband 涵盖的范围中,最小的 SMR。这麼做在低频的时候,会将好几个 critical band 的 SMR 取其最小的一个给 subband,因为 subband 包含了好几个 critical band,如果用这几个 critical band 中最大的 SMR,将会有部分频率的遮蔽效应会估计错误,所以为了妥协,只好取最小的。高频的时候则是好几个 subband 共用一个 SMR。model 1 有一个致命伤,就是高频的时候,前面我们说过 model 1 每个 critical band 的 noise 是以一个总和集中的频率代表,现在这个 critical band 横跨好几个 subband,以这个中央代表的 noise 频率计算出来的 SMR,就无法适用在每个 subband 里面。(距离中央越远的就越不正确)
model 2 低频的时候取最小的 SMR,和 model 1 一样,高频的时候则是取 critical band 好几个 SMR 的平均值给 subband。model 2 不用集中式的 noise,而是用 tone index 的方式来计算 tone 和 noise 的遮蔽效应,所以在高频的时候会比 model 1 精确。

好了,心理声学模型不能再讲下去了,头晕了... @_@

图... 有机会再补 ^^;

终于进入主题了:MDCT 和 Quantization(量化)。
前面提到我们将 PCM data 分成好几个 subband 等待心理声学模型的判断,做进一步的量化压缩,这种压缩法我们叫做 subband coding。这个 filter 我们用的是 polyphase filter bank,将 PCM data 分成 32 个等宽的 subband。这个 ployphase filter bank 有几个缺点:
1. 它是有失真的 filter,也就是说,还没有做会失真的量化步骤,经过 filtering 以后的 subsample 立刻将它还原回 PCM data,结果就已经和原来不一样了。不过这个失真很小(小于 0.07dB)所以对品质不会有太大的伤害。
2. 它是等宽的频带,不符合人耳听觉特性的 critical band,对后续量化阶段的处理不利
3. 它的截止点平缓,所以当输入频率很靠近截止点的时候,相邻的两个 subband 会发生 aliasing(或者说 overlap,.....请看图...有机会再补....-_-;;)

MP1 一个 frame 384 个 sample,MP2 和 MP3 用 1152 个 sample,而且 MP3 会将 polyphase filter bank 切出来的 32 个 subband 的 sample,再用 MDCT 转换,进一步划分成更细的频带,提高对频率的分辨率。这个将原本资料转换到另一个空间之后再进行压缩的方法,我们称为 transform coding。因为MP3 混合了 subband filterbank 和 MDCT,所以我们把 MP3 的这个 filtering 的过程称为 Hybird Filterbank。
MDCT 之后,可以运用 butterfly 的计算,消除 polyphase filter bank 产生的 aliasing。
不过成也 MDCT 败也 MDCT,经过这个 MDCT 转换之后,资料会完全丧失时间的资讯。什么是丧失时间资讯?我们回头来说 FFT。
做 FFT 计算的时候,window size 越大(取进来计算的 sample 越多),对频率的分解能越强,频率的计算越精确。但是这些 PCM data 的 sample 是照时间排列的,对 44.1KHz 的 PCM 一次取 32768 个 sample 进来计算,如果不用 overlap,则你的频率分辨率(ie. spectral line resolution)是 1.346Hz,而时间分辨率只有 1sec * 32768/44100 = 743.04msec,你看不到小于 735.61msec 的频率变化的过程。频率分辨率和时间分辨率两个量无法同时求得精确的值,时间越精确(取进来计算的 sample 越少),频率解析就越差,频率越精确(取进来计算的 sample 越多),时间解析就越差。
MP3 经由 polyphase filter bank 之后转 MDCT 的过程如下
1. 1152 个 PCM sample 分成两个部分,各 576 个 sample,称为一个 granule。
2. 这 576 个 sample 送进 polyphase filter bank,输出 32 sample(按频率顺序)x 18 组(按时间排序)
3. 重排为 18 个 sample(按时间排序)x 32 组(按频率排序)
4. 每一组中的 18 个 sample 为时间顺序,加上前面一次转换的 18 个 sample,总共 36 个 sample 送进去做 MDCT 转换(所以 MDCT window 有 50% 的 overlap 重叠)
5. 转出来为 18 个 sepctral line(按频率排序)x 32 组(按频率排序)

好复杂吗? ^^;
总之 MDCT 转换完以后,时间资讯就不见了(每一个都是 spectral line,都是频率资讯,不过频率资讯更细了)。
丢掉时间资讯会有什么影响呢?
假设现在转换的这一块声音区块前面是很微弱的声音,到后面突然出现音量急遽升高的情形,譬如说鼓手突然开始打鼓,这种波形我们称为“attack”:突然拉起的波形。遇到这种情况心理声学模型会很笨的认为这个区块里面有很强的 masker,可以提供很高的遮蔽曲线,所以可以允许较大的量化失真,因此量化的步骤就会给比较少的 bit。MDCT 一次转换就是取 576 个 sample,这个 block 的长度,同时也就是时间的长度,所以一次死就死全部的 block,量化失真产生的 noise 会扩散到整个 block 的长度范围(也就是时间范围),所以前面声音很微弱的区段,也会发生这些量化噪音,想当然尔,原来微弱的音量根本无法遮蔽掉这些量化噪音,如果后面大音量区段的 pre-masking 前遮蔽曲线也不够遮蔽这些 noise,我们就会听到这些量化噪音了,那么心理声学模型也就破功了。
这种压缩瑕疵叫做 pre-echo。

这个道理类似 JPEG 图档的压缩瑕疵,JPEG 一次转换是拿 8x8 的区块去做 DCT 转换,遇到区块内包含锐利的边缘、线条(有很多的高频成分)的时候,经过 DCT 转换,高频的量化失真会扩散到整个 8x8 的像素区块,所以我们常常看到 JPEG 或 MPEG 档案画面上锐利线条的周围(譬如说文字的周围)会有那种斑斑点点,破碎的压缩瑕疵,这就是因为一次死死全部,整个区块都完蛋的关系。

MP+/MPC 因为不用 transform coding,不做 MDCT 转换,所以他的 pre-echo 的问题比较小,观察 MPC 压出来的波形,几乎看不到 pre-echo 的压缩瑕疵。
一个相反的例子,MPEG2 AAC/MPEG4 AAC 完全不用 subband filterbank,直接做 MDCT 转换(前置有一个 gain-control),不过 AAC 有一套对付 pre-echo 的 tool(或者叫 mole)叫做 TNS,可以用来解决 pre-echo 的问题。

这个,越扯越远,写不完了 ><
解决 pre-echo 的方法下次继续....

❺ wav转换成mp3的原理是什么

MP3就是一种音频压缩技术,他是利用 MPEG Audio Layer 3 的技术,丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小。将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的file,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。

作为一种有损压缩技术,反复的压缩转换肯定会加剧原音频文件的失真,同样,存在于原音频文件中的水印随着失真也就可以理解了。

当然,针对这种水印失真也有一定的解决办法,比如:用一些抗干扰失真能力强的算法来把水印均匀调制到音频文件的各个部分~
这类算法也是当前数字签名技术的一个研究热点

❻ 音频视频压缩技术概述

数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。

1、音频压缩技术的出现及早期应用

音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1KHz,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。

对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用)等系统中都使用了音频压缩技术。

2、音频压缩算法的主要分类及典型代表

一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。

(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括 G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、 G.722、Apt-X等。

(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。

由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。

子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有着名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。

(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显着改善,而相应付出的代价则是计算复杂度的提高。

变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。

有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。

3、音频压缩技术的标准化和MPEG-1

由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些着名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如G.711、G.721、G.728等标准,并逐渐受到业界的认同。

在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2),层Ⅲ(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。

最新进展

1、多声道音频信号压缩与DolbyAC-3

随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。

更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIR Recommendation 775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。

(1)Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。Dolby AC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。

Dolby AC-3是一种感知型压缩编码技术。

在Dolby AC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为10.66毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果; TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每5.33毫秒进行一次;在瞬变条件下,TDAC长度被等分为256 点,这样DolbyAC-3的频域分辨率为93.75Hz,时域最小分辨率为2.67毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC -3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒31.25帧。

通过以上叙述可见,在Dolby AC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。

可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。

(2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIR Rec.775做到与双声道、单声道形式的向下兼容,还能够与Dolby Surround形式兼容。

在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。

然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。

(3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1 所示。可见,多声道环绕声音频压缩技术标准亟待统一。

❼ mp3格式 压缩原理

MP3的压缩方式与诸如Zip、RAR、aiz等我们所熟知的一般压缩方法截然不同的、非常复杂的算法。主要采用非破坏性压缩方式。

- 非破坏压缩方式
在数字压缩和复原过程中,音质没有任何改变或损失的方式将在“韩文”操作系统中制作的文件采用 ZIP压缩方式进行互联网发送时, 如果在ZIP压缩或复原过程中产生数字变化或者损失时,接收文件的人就无法读懂文件信息。而这种非破坏的压缩相当简单。

对于连续相同数字,主要采用1和重复次来表示。
比如数字“1222222334”,首先将该这数字压缩成“12 ?63-34”形式。原来的数字是11位,而压缩后减少为8位数。数字压缩表现形式是“2-6”,2重复6次,“3-3”也是3重复3次。 相同数字重复次
数越多压缩效率越高。
首先我们比较一下对“韩文”文件和WINDOWS专用Wave音频文件的压缩结果。结果“韩文”(存在程 度上的差异)文件容量减少了1/3以上,而数字wave音频文件容量的减少额度不大。因为与音频类似 的多媒体数据与一般文件或执行文件有所不同,它的连续数字较少,因此压缩效率也有相当程度的 下降。

因此音频文件一般不采用非破坏性方法,而采用其它具有复杂算法的破坏性压缩方式。
-破坏的压缩方式

删除不必要数字的压缩方式,压缩1次后复原比较困难,但是其压缩率却很高。
一般音频文件或执行文件在数据复原方面要求比较苛刻时,就不能使用反向数字压缩,此时会在音 质或话质有一些损失降低,这样的JPEG或MPEG就属于破坏压缩方式。
对于MP3来说,是以什么方式压缩呢?我们可以设想一下在街上和朋友交谈的情景。在没有车通过的 时候低声交谈就可以与朋友达到交流的目的,而卡车经过的一瞬间,由于噪音的干扰,朋友的声音 根本听不清楚。卡车开过去后,有一段时间耳朵中会残留马达的余音。同样,当音乐的声音很大时,人们有时会根本听不到细小的声音。这种现象是人的大脑在分析声音过程中对输入声波的过滤作用。
“MP3”提前分析数字音频,就像人类大脑的过滤部分提前过滤压缩的方式一样。所以支持CD级音质的同时,也可以相当程度地提高压缩效率,事实上,对于非音频专家,区分压缩前后的数字音频和MP3是很难的,其原因也正是如此。这种压缩方式称之为音频数据感知编码压缩。

MP3模拟音频数据感知编码压缩过程
模拟音频 ->AD转换 -> 数字PCM型-> 将20HZ与20KHZ之间的频率分解为32个层次->其中的每一个阶层又进一步细分为18个阶层(总576个层次)-> 在各细分层次对于振幅最高的音频信号作为选择信息->过滤其它音频信息->细分的576部分强音信息集中在一起再合成 -> 完成MP3文件。

❽ 常见的声音压缩标准有哪些它们分别采用什么压缩方法(试举3例)

mp3
MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。

ape
APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后,你还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。APE的文件大小大概为CD的一半,但是随着宽带的普及,APE格式受到了许多音乐爱好者的喜爱,特别是对于希望通过网络传输音频CD的朋友来说,APE可以帮助他们节约大量的资源。
wma
WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。
在64kbps的数据速率时,在13000-20000Hz频率段就能保留了大部分信息。
但64kbps的WMA的低频表现实在有点令人失望,听上去比较硬,如同加入了哇声效果般,感觉非常不好,当然比同比特64K的mp3要好感觉声音更集中。听觉上64WMA的表现基本接近128kbps mp3的音质水平,但没有达到。96K的wma略好于128K的mp3,WMA在高于128以上的各种比特率表现相差不大,高频和泛音都很丰富,一般人听不出WMA128Kbps以上的音质和音色的差异,总体感觉WMA的声音偏硬,适合流行摇滚,如果是古典或者纯人声的话,感觉有点生硬,在低于128K时,WMA对于MP3拥有绝对优势!128以上的WMA相比MP3会有薄的感觉。
在128kbps及以下码流的试听中WMA完全超过了MP3格式,低码流之王不是浪得虚名的。但是当码流上升到128kbp以后,WMA的音质却并没有如MP3一样随着码流的提高而大大提升。
flac
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。FLAC是一套着名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3 及 AAC,它不会破任何原有的音频资讯,所以可以还原音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。
简而言之,FLAC与MP3相仿,但是是无损压缩的,也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似,但是FLAC将给你更大的压缩比率,因为FLAC是专门针对音频的特点设计的压缩方式,并且你可以使用播放器播放FLAC压缩的文件,就象通常播放你的MP3文件一样(现在已经有许多汽车播放器和家用音响设备支持FLAC,在FLAC的网站上你可以找到这些设备厂家的连接)。
FLAC是免费的并且支持大多数的操作系统,包括Windows,“unix” (Linux, *BSD,Solaris,OS X,IRIX),BeOS,OS/2,和Amiga。并且FLAC提供了在开发工具autotools,MSVC,Watcom C,和Project Builder上的build系统。

阅读全文

与声音压缩原理技术相关的资料

热点内容
压缩空气软管制作方法 浏览:907
天河三号算法 浏览:924
php队列教程 浏览:632
洪水命令 浏览:529
安卓怎么弄成苹果在线 浏览:435
谷歌web服务器地址 浏览:898
安卓锁屏图片如何删除 浏览:719
python3多进程编程 浏览:714
证明代码是程序员写的 浏览:397
算法错误发现办法 浏览:410
河南省医院挂号是哪个app 浏览:629
冬日恋歌哪个APP能看 浏览:673
委内瑞拉加密货 浏览:10
程序员写日记哪个软件好 浏览:108
加密机操作手册 浏览:860
dos命令自动关闭 浏览:328
心田花开app在哪里评价 浏览:449
求索记录频道哪个app可以看 浏览:730
金梅瓶pdf下载 浏览:985
机器软件用什么编程 浏览:845