音頻壓縮計算_怎麼計算音頻文件的壓縮率

『壹』 MP3文件的大小怎麼計算的

數據量（位元組/秒）=（采樣頻率（Hz）×采樣位數（bit）×聲道數）/8

利用 MPEG Audio Layer 3 的技術，將音樂以1:10 甚至 1:12 的壓縮率，壓縮成容量較小的文件，而對於大多數用戶來說重放的音質與最初的不壓縮音頻相比沒有明顯的下降。

它是在1991年由位於德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發明和標准化的。用MP3形式存儲的音樂就叫作MP3音樂，能播放MP3音樂的機器就叫作MP3播放器。

(1)音頻壓縮計算擴展閱讀：

MP3的功能越來越多，它與PDA、手機一樣，都向多功能方面發展，盡可能吸收其它產品的功能，以便增加產品賣點。

1、可移動硬碟：電腦直接把MP3識別為一個移動存儲器，可存放音樂以外的各種文件。

2、固件升級：解決發布產品後的己知軟體、硬體故障，增加新功能。

3、文件夾瀏覽：按文件夾方式存儲不同的歌曲，並且以此為單位播放，無須所有MP3都放於同一目錄下面，提高管理易用性。

4、多國語言：主要支持中文簡體、中文繁體、韓文、日文、英文，某些機型甚至有26國語言。

『貳』音頻視頻壓縮技術概述

數字技術的出現與應用為人類帶來了深遠的影響，人們如今已生活在一個幾乎數字化的世界之中，而數字音頻技術則稱得上是應用最為廣泛的數字技術之一，CD、 VCD等早已走進千家萬戶，數字化廣播正在全球范圍內逐步得到開展，正是這些與廣大消費者密切相關的產品及應用成為了本文將要介紹的主題：數字音頻壓縮技術得以產生和發展的動力。

1、音頻壓縮技術的出現及早期應用

音頻壓縮技術指的是對原始數字音頻信號流（PCM編碼）運用適當的數字信號處理技術，在不損失有用信息量，或所引入損失可忽略的條件下，降低（壓縮）其碼率，也稱為壓縮編碼。它必須具有相應的逆變換，稱為解壓縮或解碼。音頻信號在通過一個編解碼系統後可能引入大量的雜訊和一定的失真。

數字信號的優勢是顯而易見的，而它也有自身相應的缺點，即存儲容量需求的增加及傳輸時信道容量要求的增加。以CD為例，其采樣率為44.1KHz，量化精度為16比特，則1分鍾的立體聲音頻信號需占約10M位元組的存儲容量，也就是說，一張CD唱盤的容量只有1小時左右。當然，在帶寬高得多的數字視頻領域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢？研究發現，直接採用PCM碼流進行存儲和傳輸存在非常大的冗餘度。事實上，在無損的條件下對聲音至少可進行4：1壓縮，即只用25％的數字量保留所有的信息，而在視頻領域壓縮比甚至可以達到幾百倍。因而，為利用有限的資源，壓縮技術從一出現便受到廣泛的重視。

對音頻壓縮技術的研究和應用由來已久，如A律、u律編碼就是簡單的准瞬時壓擴技術，並在ISDN話音傳輸中得到應用。對語音信號的研究發展較早，也較為成熟，並已得到廣泛應用，如自適應差分PCM（ADPCM）、線性預測編碼（LPC）等技術。在廣播領域，NICAM（Near Instantaneous Companded Audio Multiplex - 准瞬時壓擴音頻復用）等系統中都使用了音頻壓縮技術。

2、音頻壓縮演算法的主要分類及典型代表

一般來講，可以將音頻壓縮技術分為無損（lossless）壓縮及有損（lossy）壓縮兩大類，而按照壓縮方案的不同，又可將其劃分為時域壓縮、變換壓縮、子帶壓縮，以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術，其演算法的復雜程度（包括時間復雜度和空間復雜度）、音頻質量、演算法效率（即壓縮比例），以及編解碼延時等都有很大的不同。各種壓縮技術的應用場合也因之而各不相同。

（1）時域壓縮（或稱為波形編碼）技術是指直接針對音頻PCM碼流的樣值進行處理，通過靜音檢測、非線性量化、差分等手段對碼流進行壓縮。此類壓縮技術的共同特點是演算法復雜度低，聲音質量一般，壓縮比小（CD音質> 400kbps），編解碼延時最短（相對其它技術）。此類壓縮技術一般多用於語音壓縮，低碼率應用（源信號帶寬小）的場合。時域壓縮技術主要包括 G.711、ADPCM、LPC、CELP，以及在這些技術上發展起來的塊壓擴技術如NICAM、子帶ADPCM（SB-ADPCM）技術如G.721、 G.722、Apt-X等。

（2）子帶壓縮技術是以子帶編碼理論為基礎的一種編碼方法。子帶編碼理論最早是由Crochiere等於1976年提出的。其基本思想是將信號分解為若乾子頻帶內的分量之和，然後對各子帶分量根據其不同的分布特性採取不同的壓縮策略以降低碼率。通常的子帶壓縮技術和下面介紹的變換壓縮技術都是根據人對聲音信號的感知模型（心理聲學模型），通過對信號頻譜的分析來決定子帶樣值或頻域樣值的量化階數和其它參數選擇的，因此又可稱為感知型（Perceptual）壓縮編碼。這兩種壓縮方式相對時域壓縮技術而言要復雜得多，同時編碼效率、聲音質量也大幅提高，編碼延時相應增加。一般來講，子帶編碼的復雜度要略低於變換編碼，編碼延時也相對較短。

由於在子帶壓縮技術中主要應用了心理聲學中的聲音掩蔽模型，因而在對信號進行壓縮時引入了大量的量化雜訊。然而，根據人類的聽覺掩蔽曲線，在解碼後，這些雜訊被有用的聲音信號掩蔽掉了，人耳無法察覺；同時由於子帶分析的運用，各頻帶內的雜訊將被限制在頻帶內，不會對其它頻帶的信號產生影響。因而在編碼時各子帶的量化階數不同，採用了動態比特分配技術，這也正是此類技術壓縮效率高的主要原因。在一定的碼率條件下，此類技術可以達到「完全透明」的聲音質量（EBU音質標准）。

子帶壓縮技術目前廣泛應用於數字聲音節目的存儲與製作和數字化廣播中。典型的代表有著名的MPEG-1層Ⅰ、層Ⅱ（MUSICAM），以及用於Philips DCC中的PASC（Precision Adaptive Subband Coding，精確自適應子帶編碼）等。

（3）變換壓縮技術與子帶壓縮技術的不同之處在於該技術對一段音頻數據進行「線性」的變換，對所獲得的變換域參數進行量化、傳輸，而不是把信號分解為幾個子頻段。通常使用的變換有DFT、DCT（離散餘弦變換）、MDCT等。根據信號的短時功率譜對變換域參數進行合理的動態比特分配可以使音頻質量獲得顯著改善，而相應付出的代價則是計算復雜度的提高。

變換域壓縮具有一些不完善之處，如塊邊界影響、預回響、低碼率時聲音質量嚴重下降等。然而隨著技術的不斷進步，這些缺陷正逐步被消除，同時在許多新的壓縮編碼技術中也大量採用了傳統變換編碼的某些技術。

有代表性的變換壓縮編碼技術有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。

3、音頻壓縮技術的標准化和MPEG-1

由於數字音頻壓縮技術具有廣闊的應用范圍和良好的市場前景，因而一些著名的研究機構和大公司都不遺餘力地開發自己的專利技術和產品。這些音頻壓縮技術的標准化工作就顯得十分重要。CCITT（現ITU-T）在語音信號壓縮的標准化方面做了大量的工作，制訂了如G.711、G.721、G.728等標准，並逐漸受到業界的認同。

在音頻壓縮標准化方面取得巨大成功的是MPEG-1音頻（ISO/IEC11172-3）。在MPEG-1中，對音頻壓縮規定了三種模式，即層Ⅰ、層Ⅱ（即MUSICAM，又稱MP2），層Ⅲ（又稱MP3）。由於在制訂標准時對許多壓縮技術進行了認真的考察，並充分考慮了實際應用條件和演算法的可實現性（復雜度），因而三種模式都得到了廣泛的應用。VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ；而MUSICAM由於其適當的復雜程度和優秀的聲音質量，在數字演播室、DAB、DVB等數位元組目的製作、交換、存儲、傳送中得到廣泛應用；MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術，在當時的技術條件下，MP3的復雜度顯得相對較高，編碼不利於實時，但由於MP3在低碼率條件下高水準的聲音質量，使得它成為軟解壓及網路廣播的寵兒。可以說，MPEG-1音頻標準的制訂方式決定了它的成功，這一思路甚至也影響到後面將要談到的MPEG-2和MPEG-4音頻標準的制訂。

最新進展

1、多聲道音頻信號壓縮與DolbyAC-3

隨著技術的不斷進步和生活水準的不斷提高，原有的立體聲形式已不能滿足受眾對聲音節目的欣賞要求，具有更強定位能力和空間效果的三維聲音技術得到蓬勃發展。而在三維聲音技術中最具代表性的就是多聲道環繞聲技術。

更准確地說，環繞聲應該是一種聲音恢復形式，其新技術的含量實際表現在隨著這種形式發展起來的一些數字壓縮標准上。環繞聲技術發展至今已相當成熟，已日漸成為未來聲音形式的主流。有鑒於此，1992年CCIR（ITU-R）以建議的形式約定了多聲道聲音系統的結構及向下兼容變換的標准，即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式，而在對環繞聲壓縮的研究上也產生了許多專利技術，如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。這些技術在不同的場合，尤其是在影劇院、家庭影院系統，及將來的高清晰度電視（HDTV）等系統中得到廣泛的應用。

（1）Dolby AC-3技術是由美國杜比實驗室主要針對環繞聲開發的一種音頻壓縮技術。在5.1聲道的條件下，可將碼率壓縮至384kbps，壓縮比約為10：1。Dolby AC-3最初是針對影院系統開發的，但目前已成為應用最為廣泛的環繞聲壓縮技術之一。

Dolby AC-3是一種感知型壓縮編碼技術。

在Dolby AC-3中，音頻輸入以音頻塊為單位，塊長度為512個樣值，在48KHz采樣率時即為10.66毫秒，各聲道單獨處理；音頻輸入在經過3Hz高通濾波器去除直流成分後，通過另一高頻帶通濾波器以檢測信號的瞬變情況，並用它來控制TDAC變換的長度，以期在頻域解析度和時域解析度之間得到最好的折中效果； TDAC變換的長度一般為512點，而數據塊之間的重疊長度為256點，即TDAC每5.33毫秒進行一次；在瞬變條件下，TDAC長度被等分為256 點，這樣DolbyAC-3的頻域解析度為93.75Hz，時域最小解析度為2.67毫秒；在圖1中的定點/浮點轉換類似於MPEG-1中比例因子計算的作用，主要是為了獲得寬的動態范圍，而在分離後的指數部分經編碼後則構成了整個信號大致的頻譜，又被稱為頻譜包絡；比特分配主要是通過計算解碼後的頻譜包絡（視為功率譜密度）和掩蔽曲線的相關性來進行的；由於比特分配中採用了前/後向混合自適應比特分配以及公共比特池等技術，因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配；在對尾數的量化過程中，可對尾數進行抖晃處理，抖晃所使用的偽隨機數發生器可在不同的平台上獲得相同的結果；AC -3的幀結構由同步字、CRC、同步信息（SI）、碼流信息（BSI）、音頻塊和附加數據等組成，幀長度與TDAC變換的長度有關，在長度為512點時，幀長為32毫秒，即每秒31.25幀。

通過以上敘述可見，在Dolby AC-3中，使用了許多先進的、行之有效的壓縮技術。如前/後向混合自適應比特分配、公共比特池、TDAC濾波、頻譜包絡編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術對其它的多聲道環繞聲壓縮技術的發展都產生了一定的影響。

可以說，AC-3的出現是杜比公司幾十年來在聲音降噪及編碼技術方面的結晶（從一定的角度來看，編碼技術實際上就是降低編碼雜訊影響的技術），在技術上它具有很強的優勢。因而即使作為一項專利技術，DolbyAC-3仍然在影院系統、HDTV、消費類電子產品（如LD、DVD）及直播衛星等方面獲得了廣泛的應用，得到了眾多廠商的支持，成為業界事實上的標准。

（2）MPEG-2BC（後向兼容方式），即ISO/IEC13818- 3，是另一種多聲道環繞聲音頻壓縮技術。早在1992年初，該方面的討論工作便已初步開展，並於94年11月正式獲得通過。MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基礎上發展起來的。與MPEG-1相比較，MPEG-2BC主要在兩方面做了重大改進。一是支持多聲道聲音形式，二是為某些低碼率應用場合，如多語聲節目、體育比賽解說等而進行的低采樣率擴展。同時，標准規定的碼流形式還可與MPEG-1的第1和第2層做到前、後向兼容，並可依據CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容，還能夠與Dolby Surround形式兼容。

在MPEG-2BC中，由於考慮到其前、後向兼容性以及環繞聲音形式的新特點，在壓縮演算法中除承襲了MPEG-1的絕大部分技術外，為在低碼率條件下進一步提高聲音質量，還採用了多種新技術。如動態傳輸通道切換、動態串音、自適應多聲道預測、中央聲道部分編碼(Phantom Coding of Center)、預編碼(Predistortion)等。

然而，MPEG-2BC的發展和應用並不如MPEG-1那樣一帆風順。通過對一些相關論文的比較可以發現，MPEG-2BC的編碼框圖在標准化過程中發生了重大的變化，上述的許多新技術都是在後期引入的。事實上，正是與 MPEG-1的前、後向兼容性成為MPEG-2BC最大的弱點，使得MPEG-2BC不得不以犧牲碼率的代價來換取較好的聲音質量。一般情況下，MPEG -2BC需640kbps以上的碼率才能基本達到EBU「無法區分」聲音質量要求。由於MPEG-2BC標准化的進程過快，其演算法自身仍存在一些缺陷。這一切都成為MPEG-2BC在世界范圍內得到廣泛應用的障礙。

（3）DVD（DigitalVersatileDisk）是新一代的多媒體數據存儲和交換的標准。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上，AC-3和MPEG-2BC之間的爭奪十分激烈，最後達成的協議如表1 所示。可見，多聲道環繞聲音頻壓縮技術標准亟待統一。

『叄』音頻文件存儲容量計算

公式對的，但是計算是錯的，正確計算應該是：

44.1*1000*16*2*5.5*60/8/1024/1024≈55.52MB。

不經過壓縮，聲音數據量的計算公式為：

數據量（位元組/秒）=（采樣頻率（Hz）×采樣位數（bit）×聲道數）/8

(3)音頻壓縮計算擴展閱讀：

舉例：

1、請計算對於5分鍾雙聲道、16位采樣位數、44.1kHz采樣頻率聲音的不壓縮數據量是多少？

根據公式：數據量=（采樣頻率×采樣位數×聲道數×時間）/8

得，數據量（MB）=[44.1×1000×16×2×(5×60)] /(8×1024×1024)=50.47MB

計算時要注意幾個單位的換算細節：

時間單位換算：1分=60秒

采樣頻率單位換算：1kHz=1000Hz

數據量單位換算：1MB=1024×1024=1048576B

『肆』怎麼計算音頻文件的壓縮率

直接查看就可以。壓縮率就是壓縮後文件大小(以常見的mp3為例)和壓縮前文件(音頻處理的壓縮前文件，一般用無損文件，比如cd wav文件)大小的比率。mp3一般是1: 10。

在使用 Adobe Photoshop之類的圖像處理軟體保存時，可供選擇的JPEG文件的壓縮率是1-12，數值越低，圖像文件就越小，其壓縮率越高，對照片質量的影響就越大。

(4)音頻壓縮計算擴展閱讀：

圖像壓縮方式：

在圖像質量以及佔用存儲卡或電腦硬碟的存儲空間方面，文件格式的選擇具有很重的角色。需要注意的重要一點是，當保存圖像的時候，有些格式會自動壓縮文件。

圖像壓縮有兩種形式：有損壓縮和無損壓縮。有損壓縮格式壓縮的圖像信息通常都會有損失，導致圖像的質量下降，文件壓縮得越小，損失的信息就越多。

『伍』關於音頻壓縮比碼率

應該是沒有
具體的計算吧但是這么想。電腦上最高質量保真的格式是pcm編碼他的碼率是1411.2kbps之間比較下吧。還有這個本身就有問題。cd音質就雙聲道128kbps？胡鬧！就算是最高碼率的MP3
320kbps和cd之間還差的很遠呢

『陸』聲音文件存儲量的計算公式

不經過壓縮，聲音數據量的計算公式為：

數據量（位元組/秒）=（采樣頻率（Hz）×采樣位數（bit）×聲道數）/8

(6)音頻壓縮計算擴展閱讀

AAC實際上高級音頻編碼的縮寫。AAC是由Fraunhofer IIS-A、杜比和AT&T共同開發的一種音頻格式，它是MPEG-2規范的一部分。AAC所採用的運演算法則與MP3的運演算法則有所不同，AAC通過結合其他的功能來提高編碼效率。

AAC的音頻演算法在壓縮能力上遠遠超過了以前的一些壓縮演算法（比如MP3等）。它還同時支持多達48個音軌、15個低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率。總之，AAC可以在比MP3文件縮小30%的前提下提供更好的音質。

數字音頻以音質優秀、傳播無損耗、可進行多種編輯和轉換而成為主流，並且應用於各個方面。

常見到的MP3、WMA、OGG被稱為有損壓縮，有損壓縮顧名思義就是降低音頻采樣頻率與比特率，輸出的音頻文件會比原文件小。

另一種音頻壓縮被稱為無損壓縮，能夠在100%保存原文件的所有數據的前提下，將音頻文件的體積壓縮的更小，而將壓縮後的音頻文件還原後，能夠實現與源文件相同的大小、相同的碼率。

無損壓縮格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、TTA、Tak、TAC、La、OptimFROG、Shorten，而常見的、主流的無損壓縮格式有APE、FLAC、TTA、TAK。

WAV一般CD可以抓取該格式音樂。但是由於體積較大且屬於未壓縮的原始音頻，所以一般可壓縮轉換為體積較小的FLAC或者APE。註：wav仍然屬於無損格式，後兩者則為無損壓縮格式

『柒』數字音頻壓縮的主要基本演算法有哪些

WAV：無損
是微軟公司開發的一種聲音文件格式，它符合 PIFFResource Interchange File Format 文件規范，用於保存WINDOWS平台的音頻信息資源，被WINDOWS平台及其應用程序所支持。「*.WAV」格式支持MSADPCM、CCITT A LAW等多種壓縮演算法，支持多種音頻位數、采樣頻率和聲道，標准格式的WAV文件和CD格式一樣，也是44.1K的采樣頻率，速率88K/秒，16位量化位數，看到了吧，WAV格式的聲音文件質量和CD相差無幾，也是目前PC機上廣為流行的聲音文件格式，幾乎所有的音頻編輯軟體都「認識」WAV格式。
這里順便提一下由蘋果公司開發的AIFF（Audio Interchange File Format）格式和為UNIX系統開發的AU格式，它們都和和WAV非常相像，在大多數的音頻編輯軟體中也都支持它們這幾種常見的音樂格式。
MP3：流行
MP3格式誕生於八十年代的德國，所謂的MP3也就是指的是MPEG標准中的音頻部分，也就是MPEG音頻層。根據壓縮質量和編碼處理的不同分為3層，分別對應「*.mp1"/「*.mp2」/「*.mp3」這3種聲音文件。需要提醒大家注意的地方是：MPEG音頻文件的壓縮是一種有損壓縮，MPEG3音頻編碼具有10：1~12：1的高壓縮率，同時基本保持低音頻部分不失真，但是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質量來換取文件的尺寸，相同長度的音樂文件，用＊.mp3格式來儲存，一般只有＊.wav文件的1/10，而音質要次於CD格式或WAV格式的聲音文件。由於其文件尺寸小，音質好；所以在它問世之初還沒有什麼別的音頻格式可以與之匹敵，因而為＊.mp3格式的發展提供了良好的條件。直到現在，這種格式還是風靡一時，作為主流音頻格式的地位難以被撼動。但是樹大招風，MP3音樂的版權問題也一直是找不到辦法解決，因為MP3沒有版權保護技術，說白了也就是誰都可以用。
MP3格式壓縮音樂的采樣頻率有很多種，可以用64Kbps或更低的采樣頻率節省空間，也可以用320Kbps的標准達到極高的音質。我們用裝有Fraunhofer IIS Mpeg Lyaer3的 MP3編碼器（現在效果最好的編碼器）MusicMatch Jukebox 6.0在128Kbps的頻率下編碼一首3分鍾的歌曲，得到2.82MB的MP3文件。採用預設的CBR（固定采樣頻率）技術可以以固定的頻率采樣一首歌曲，而VBR（可變采樣頻率）則可以在音樂「忙」的時候加大采樣的頻率獲取更高的音質，不過產生的MP3文件可能在某些播放器上無法播放。我們把VBR的級別設定成為與前面的CBR文件的音質基本一樣，生成的VBR MP3文件為2.9MB。
MIDI：作曲家最愛
經常玩音樂的人應該常聽到MIDI（Musical Instrument Digital Interface）這個詞，MIDI允許數字合成器和其他設備交換數據。MID文件格式由MIDI繼承而來。MID文件並不是一段錄制好的聲音，而是記錄聲音的信息，然後在告訴音效卡如何再現音樂的一組指令。這樣一個MIDI文件每存1分鍾的音樂只用大約5～10KB。今天，MID文件主要用於原始樂器作品，流行歌曲的業余表演，游戲音軌以及電子賀卡等。＊.mid文件重放的效果完全依賴音效卡的檔次。＊.mid格式的最大用處是在電腦作曲領域。＊.mid文件可以用作曲軟體寫出，也可以通過音效卡的 MIDI口把外接音序器演奏的樂曲輸入電腦里，製成＊.mid文件。
WMA：最具實力
WMA (Windows Media Audio) 格式是來自於微軟的重量級選手，後台強硬，音質要強於MP3格式，更遠勝於RA格式，它和日本YAMAHA公司開發的VQF格式一樣，是以減少數據流量但保持音質的方法來達到比MP3壓縮率更高的目的，WMA的壓縮率一般都可以達到1：18左右，WMA的另一個優點是內容提供商可以通過DRM（Digital Rights Management）方案如Windows Media Rights Manager 7加入防拷貝保護。這種內置了版權保護技術可以限制播放時間和播放次數甚至於播放的機器等等，這對被盜版攪得焦頭亂額的音樂公司來說可是一個福音，另外 WMA還支持音頻流(Stream) 技術，適合在網路上在線播放，作為微軟搶占網路音樂的開路先鋒可以說是技術領先、風頭強勁，更方便的是不用象MP3那樣需要安裝額外的播放器，而 Windows操作系統和Windows Media Player的無縫捆綁讓你只要安裝了windows操作系統就可以直接播放WMA音樂，新版本的Windows Media Player7.0更是增加了直接把CD光碟轉換為WMA聲音格式的功能，在新出品的操作系統Windows XP中，WMA是默認的編碼格式，大家知道Netscape的遭遇，現在「狼」又來了。WMA這種格式在錄制時可以對音質進行調節。同一格式，音質好的可與CD媲美，壓縮率較高的可用於網路廣播。雖然現在網路上還不是很流行，但是在微軟的大規模推廣下已經是得到了越來越多站點的承認和大力支持，在網路音樂領域中直逼＊.mp3，在網路廣播方面，也正在瓜分Real打下的天下。因此，幾乎所有的音頻格式都感受到了WMA格式的壓力。
RealAudio：流動旋律
RealAudio主要適用於在網路上的在線音樂欣賞，現在大多數的用戶仍然在使用56Kbps或更低速率的Modem，所以典型的回放並非最好的音質。有的下載站點會提示你根據你的Modem速率選擇最佳的Real文件。現在real的的文件格式主要有這么幾種：有RA（RealAudio）、 RM（RealMedia，RealAudio G2）、RMX（RealAudio Secured），還有更多。這些格式的特點是可以隨網路帶寬的不同而改變聲音的質量，在保證大多數人聽到流暢聲音的前提下，令帶寬較富裕的聽眾獲得較好的音質。
近來隨著網路帶寬的普遍改善，Real公司正推出用於網路廣播的、達到CD音質的格式。如果你的RealPlayer軟體不能處理這種格式，它就會提醒你下載一個免費的升級包。許多音樂網站提供了歌曲的Real格式的試聽版本。現在最新的版本是RealPlayer 11。
VQF：無人問津
雅馬哈公司另一種格式是＊.vqf，它的核心是減少數據流量但保持音質的方法來達到更高的壓縮比，可以說技術上也是很先進的，但是由於宣傳不力，這種格式難有用武之地。＊.vqf可以用雅馬哈的播放器播放。同時雅馬哈也提供從＊.wav文件轉換到＊.vqf文件的軟體。此文件缺少特點外加缺乏宣傳，現在幾乎已經宣布死刑了。
OGG：新生代音頻格式
ogg格式完全開源，完全免費，和mp3不相上下的新格式。與MP3類似，OGGVorbis也是對音頻進行有損壓縮編碼，但通過使用更加先進的聲學模型去減少損失，因此，相同碼率編碼的OGGVorbis比MP3音質更好一些，文件也更小一些。另外，MP3格式是受專利保護的。發布或者銷售MP3編碼器、MP3解碼器、MP3格式音樂作品，都需要付專利使用費。而OGGVorbis就完全沒有這個問題。目前，OGGVorbis雖然還不普及，但在音樂軟體、游戲音效、便攜播放器、網路瀏覽器上都得到廣泛支持。
FLAC：自由無損音頻格式
FLAC即是Free Lossless Audio Codec的縮寫，中文可解為無損音頻壓縮編碼。FLAC是一套著名的自由音頻壓縮編碼，其特點是無損壓縮。不同於其他有損壓縮編碼如MP3 及AAC，它不會破壞任何原有的音頻資訊，所以可以還原音樂光碟音質。現在它已被很多軟體及硬體音頻產品所支持。FLAC是免費的並且支持大多數的操作系統，包括 Windows，基於Unix內核而開發的系統 (Linux， *BSD，Solaris，OSX，IRIX)，BeOS，OS/2，Amiga。並且FLAC提供了在開發工具 autotools，MSVC，Watcom C，ProjectBuilder上的build系統。
APE：最有前途的網路無損格式
APE是目前流行的數字音樂文件格式之一。與MP3這類有損壓縮方式不同，APE是一種無損壓縮音頻技術，也就是說當你將從音頻CD上讀取的音頻數據文件壓縮成APE格式後，你還可以再將APE格式的文件還原，而還原後的音頻文件與壓縮前的一模一樣，沒有任何損失。APE的文件大小大概為CD的一半，但是隨著寬頻的普及，APE格式受到了許多音樂愛好者的喜愛，特別是對於希望通過網路傳輸音頻CD的朋友來說，APE可以幫助他們節約大量的資源。
作為數字音樂文件格式的標准，WAV格式容量過大，因而使用起來很不方便。因此，一般情況下我們把它壓縮為MP3或 WMA 格式。壓縮方法有無損壓縮，有損壓縮，以及混成壓縮。MPEG， JPEG就屬於混成壓縮，如果把壓縮的數據還原回去，數據其實是不一樣的。當然，人耳是無法分辨的。因此，如果把 MP3， OGG格式從壓縮的狀態還原回去的話，就會產生損失。
然而APE壓縮格式即使還原，也能毫無損失地保留原有音質。所以，APE可以無損失高音質地壓縮和還原。當然，目前只能把音樂CD中的曲目和未壓縮的WAV文件轉換成APE格式，MP3文件還無法轉換為APE格式。事實上APE的壓縮率並不高，雖然音質保持得很好，但是壓縮後的容量也沒小多少。一個34MB的WAV文件，壓縮為APE格式後，仍有17MB左右。對於一整張CD來說，壓縮省下來的容量還是可觀的。
APE的本質，其實它是一種無損壓縮音頻格式。龐大的WAV音頻文件可以通過Monkey's Audio這個軟體壓縮為APE。很多時候它被用做網路音頻文件傳輸，因為被壓縮後的APE文件容量要比WAV源文件小一半多，可以節約傳輸所用的時間。更重要的是，通過Monkey's Audio解壓縮還原以後得到的WAV文件可以做到與壓縮前的源文件完全一致。所以APE被譽為「無損音頻壓縮格式」，Monkey''s Audio被譽為「無損音頻壓縮軟體」。與採用WinZip或者WinRAR這類專業數據壓縮軟體來壓縮音頻文件不同，壓縮之後的APE音頻文件是可以直接被播放的。Monkey's Audio會向Winamp中安裝一個「in_APE.dll」插件，從而使Winamp也具備播放APE文件的能力。同樣foobar2000，以及千千靜聽也能支持APE的播放。

『捌』音頻數據計算

數據量（位元組/秒）= (采樣頻率（Hz）*采樣位數（bit）*聲道數)/ 8 音效卡對聲音的處理質量可以用三個基本參數來衡量，即采樣頻率、采樣位數和聲道數。

采樣頻率是指單位時間內的采樣次數。采樣頻率越大，采樣點之間的間隔就越小，數字化後得到的聲音就越逼真，但相應的數據量就越大。音效卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采樣頻率。

一般獲取音頻數據的方法是：採用固定的時間間隔，對音頻電壓采樣（量化），並將結果以某種解析度（例如：CDDA每個采樣為16比特或2位元組）存儲。

采樣的時間間隔可以有不同的標准，如CDDA採用每秒44100次；DVD採用每秒48000或96000次。因此，采樣率，解析度和聲道數目（例如立體聲為2聲道）是音頻文件格式的關鍵參數。

(8)音頻壓縮計算擴展閱讀

在電腦上錄音的本質就是把模擬聲音信號轉換成數字信號。反之，在播放時則是把數字信號還原成模擬聲音信號輸出。

採集卡的位是指採集卡在採集和播放聲音文件時所使用數字聲音信號的二進制位數。採集卡的位客觀地反映了數字聲音信號對輸入聲音信號描述的准確程度。8位代表2的8次方--256，16位則代表2的16次方--64K。

有損文件格式是基於聲學心理學的模型，除去人類很難或根本聽不到的聲音，例如：一個音量很高的聲音後面緊跟著一個音量很低的聲音。MP3就屬於這一類文件。

無損的音頻格式（例如FLAC）壓縮比大約是2：1，解壓時不會產生數據/質量上的損失，解壓產生的數據與未壓縮的數據完全相同。如需要保證音樂的原始質量，應當選擇無損音頻編解碼器。例如，用免費的FLAC無損音頻編解碼器你可以在一張DVD-R碟上存儲相當於20張CD的音樂。

有損壓縮應用很多，但在專業領域使用不多。有損壓縮具有很大的壓縮比，提供相對不錯的聲音質量。

『玖』音頻壓縮原理

音頻壓縮的原理
轉自http://forums.dearhoney.idv.tw/viewtopic.php?t=24378

引用:
音訊資料因為其資料內容的特性，以傳統的壓縮法難達到很高的壓縮率，不過我們人耳並沒有無限的時間解析度和頻率解析度，其實原始的音樂訊號中包含了很多我們聽不到的資料，把這些對我們來講其實無意義的資訊給去掉，這樣就可以達到很高的壓縮率。這種利用人類感官知覺的特性作的失真壓縮法，就叫做 perceptual coding。
人耳的生理結構，由外耳的耳殼收集外界的聲波到達中耳的耳膜產生震動，經由三塊小骨連接前庭窗傳入內耳，其中由於耳殼的內凹形狀，外耳道的長度和寬度.. 等等生理的構造，會對不同頻率產生共振升壓的效果，尤其是 2~5Khz 的頻率，會在這個過程中被放大。人耳聽覺頻率的范圍，大約是 20~20KHz，音量范圍則是 130dB SPL，大於 130dB 會產生痛苦的感覺，小於 0dB 則會被當成是靜音。如上所述，人耳對 2~5KHz 的頻率最敏感，越往高頻感覺越不敏銳，音量要超過一定的界限以上查能被我們人耳察覺，這個最低可以聽聞的界限，叫做 ATH（absolute threshold of hearing）。內耳的耳蝸有許多絨毛細胞，分別會對不同的頻率產生反應，將基底膜淋巴液的波動轉換成神經的電流訊號，傳達給大腦。也就是說耳蝸的作用就像一個頻譜分析儀，把聲波轉換成不同頻率的訊號，每一個特定位置的絨毛細胞會受特定頻率的刺激，但是當基底膜傳導波動時其鄰近周圍的絨毛細胞也會受到刺激。這也就是說如果有一個頻率的音量很大，在它附近同時有一個比較弱的頻率的話，比較弱的頻率的聲音就會被比較強的聲音給遮蔽掉，我們人耳沒有辦法分辦出有另一個比較弱的頻率的聲音存在。這個遮蔽的作用叫 frquency masking。另外從基底膜受到聲音震動到達穩定狀態，還有聲音結束後完全停止，中間都需要一段時間。所以如果有一個很大聲的聲音出現，在這個聲音開始之前，到這個聲音結束之後，有一段時間我們是聽不到其他聲音的，這種遮蔽效應，我們稱為 temporal masking，之前的叫 pre-masking，之後的叫 post-masking。
前面提到耳蝸就像一部頻譜分析儀，或者說像一個 band pass filter，會把聲音分成許多不同的次頻帶，每個頻帶里都有一個中心頻率，越往兩邊遮蔽的效果就越弱，在同一個頻帶裡面的頻率會互相影響，我們對他們的感知特性也十分的接近，這種人耳知覺特性的頻帶，我們稱為 critical band。critical band 的寬度並不是都相等的，低頻的部分比較窄，高頻的部分則比較寬，總共分成 26 個 critical band。
除了人耳的生理結構特性以外，大腦的作用也佔了一個很重要的角色。我們都知道音高是由基音決定，而音色是由泛音決定，我們很驚訝的發現，人類的大腦會自動補上基音，即使這個基音並不存在。譬如說電話的頻寬只有 300~3200Hz，但是當我們聽一個基音在 120Hz 的男性講電話的時候，我們還是可以聽出他的正確的音高，不會把男生聽成女生。大腦是如何運用復雜的計算去重建這個不存在的基音，我們目前尚無法得知。

經過長期的實驗和觀察，我們可將人耳的聽覺特性定性，建立一個人耳的聽覺模型，叫做 psychoacoustic model。有了這些對人耳知覺特性的了解，我們就可以根據這些理論來壓縮音訊資料，把我們聽不到的聲音去掉。
說是去掉，實際上是怎麼做的呢？
要將無限的連續的類比訊號轉變為有限的離散的數位資料，中間必須經過取樣和量化的手續。譬如說現在量化的位階只有 0~8 九個數字，每一個位階的間隔大小是一格，對一個 4.9 的訊號作量化，得到的數字是 5，和原來 4.9 相差 0.1，這個誤差叫做量化噪音。假設我們把量化的位階減少到 5 個，分別等於原來 0~8 的 0, 2, 4, 6, 8 這幾個數字，位階的間隔大小擴大變成二格，此時再對 4.9 量化，量化的結果是 4，誤差擴大到 0.9，也就是說量化的位階越少，量化的間隔就越大，量化噪音也就越大。
我們做一個實驗，把 16bit 的聲波檔轉為 8bit，當場丟掉一半的資訊，檔案也就小了一半，最簡單的失真壓縮不過我們觀察頻譜發現，減少量化的 bit 數產生的量化噪音，會造成全頻帶都水平上升一定雜訊，你如果聽這個 8bit 的聲波檔，會發現背景充滿沙沙沙的噪音，這就是因為量化誤差產生的量化噪音。
那我們會想，這樣全頻帶都減少一定的 bit 數太沒有效率，為什麼不把他分成好幾個頻帶（critical band），再根據人耳的心理聲學模型的遮蔽效應，對不同頻帶分配不同的 bit 數，讓各個頻帶產生的量化噪音低於遮蔽效應的曲線以下，這樣這些產生的量化噪音我們就聽不到，對知覺來說等於是無失真壓縮，這樣豈不更好？

所以我們就把壓縮的工作分成兩個部分，一個部分將原來的 PCM data 經過 band pass filter 分成好幾個 subband 次頻帶，另一個部分就是心理聲學模型，分析頻譜，找出遮蔽效應的曲線，然後根據這個曲線，對每個 subband 分別量化，決定分配的 bit 數，讓產生的量化噪訊低於遮蔽效應的曲線，使量化的失真不會被人耳聽到，這樣就大功告成了

然後接下來要說的就是這個最復雜的心理聲學模型是怎麼工作的.... ^^;

怎麼講一講變成這麼長 ^^;;
都還沒進入主題...
我是要解釋什麼是 scale factor，這個牽扯到量化的過程，還有 short block 和 long block，這個牽扯到心理聲學模型的判斷和 MDCT window 大小的轉換，主要目的是解決 pre-echo 的問題，結果越講越多... ><
看的人就忍耐一下吧... -_-;;;

前面說到心理聲學模型是如何工作的。ISO MPEG1 Audio 提供了兩個心理聲學模型，分別是 psychoacoustic model 1 和 2，model 2 比 model 1 要來得復雜，但是判斷的效果較好。兩個聲學模型可以用在任何一個 layer，layer 1~3（MPEG1 layer 3 = MP3）。不過我們通常是將 model 1 用在 MP1 和 MP2，model 2 用在 MP3。不過當然也有例外，譬如說有一個特殊版本的 toolame（壓 MP1, MP2 最好的 encoder）就是改用 model 2 的心理聲學模型而不用 model 1。
MPEG1 Audio 壓縮的時候一邊是用一個 polyphase filter bank，將 PCM data 分成好幾個"等寬的" subband 等待進一步量化壓縮，一邊是 psychoacoustic model，使用 512（MP1）或 1024（MP2/MP3）point（取 512/1024 個 sample 計算，或者說 window size=512/1024）的 FFT 轉換，將 PCM data 轉換到頻率域，進行頻譜分析。之所以另外使用 FFT 來分析，是因為 FFT 有比較好的頻率解析度，計算各個頻率的遮蔽效應時會比較精確。然後 psychoacoustic model 會將頻率按照 critical band（人耳聽覺特性的頻帶）分為好幾組，計算各個 critical band 的遮蔽曲線。在計算遮蔽曲線時，第一件要做的工作是區分哪些頻率的聲音是 tone，哪些頻率的聲音是 noise。為什麼要這麼區分呢？因為根據實驗發現這兩種聲音的遮蔽能力不一樣，noise 具有比 tone 更強的遮蔽效應。這邊會提到兩個名詞，一個是 TMN（Tone Mask Noise），tone 遮蔽 noise 的能力，單位是 dB，比較弱，另一個是 NMT（Noise Mask Tone），noise 遮蔽 tone 的能力，比較強。這兩個名詞很眼熟嗎？MP+/MPC 就有提供讓使用者修改這兩個參數的設定。調降這兩個參數，會減低 tone 和 noise 的遮蔽能力，整個遮蔽曲線會往下降，可以容忍的量化噪音就比較低，量化噪音必須減少，分配的 bit 數就必須增加，所以 MP+/MPC 調低這兩個參數，bitrate 會往上竄升，但是量化雜訊也會隨之減少。

在判斷哪些聲音是 tone，哪些聲音是 noise，model 1 和 model 2 採用不同的方法。model 1 是尋找區域范圍內，音量最大的頻率，把這個頻率當作 tone，因為 tone 通常是一定的區域范圍內音量最大的。其他剩下的部分就當成是 noise，加起來以一個單一的頻率代表。
model 2 的作法則不是去區分 tone 和 non-tone（noise），而是給每個頻率一個 tone index，由 0~1，index 數字越大，代表這個頻率越像 tone，根據這個 index 的比例大小，分別計算他們的遮蔽影響力，這樣是不是更精確呢。那要怎麼判斷某個頻率有多像 tone 呢？ model 2 是用 predict 的方法。predict 的意思是以現在的狀態，去預測下一個狀態是什麼。在這里 model 2 會儲存過去的兩個分析過的 window 頻譜，根據頻譜的變化，來判斷哪些頻率有多像 tone。因為 tone 的聲音會具有可預測性，前後的變化會有高度的關聯性，不會隨機的雜亂跳動。根據前後的頻譜變化，model 2 更可以准確的分辦出 tone 和 noise。

找出 tone 和 noise 以後，接著把不重要沒有意義的 tone/noise 去掉，譬如說兩個 tone 靠近，一強一弱，或是低於 ATH 絕對聽覺極限以下的 tone/noise，都可以把他去掉。然後計算剩下來的 tone/noise 的遮蔽效應，求出每個 critical band 的遮蔽曲線，最後在合並這些曲線，找出全體的遮蔽曲線。
實際上 psychoacoustic model 會計算一個數值，然後把這個數值傳給量化階段的程式，讓量化階段的程式知道這個頻帶可以允許的量化噪音是多少，該分配多少的 bit 數。這個傳給量化程式的參數叫做 SMR（Signal to Mask Ratio）。
很眼熟的名詞對不對
SMR=SNR-NMR
MP+/MPC/Lame 可以讓你自行設定 minimum SMR 的底線是多少。
前面提過，MPEG1 Audio 在分成好幾個 subband 准備做量化的時候，用的是"等寬"的 filter bank，這和我們人耳特性的 critical band 不同，由下圖可以看出，低頻的部分一個 subband，包含了好幾個 critical band。到了高頻的時候，好幾個 subband 包含在一個 critical band 裡面。這樣心理聲學模型計算出來的各個 critical band 的 SMR 要怎麼給呢？
model 1 是取 subband 涵蓋的范圍中，最小的 SMR。這麼做在低頻的時候，會將好幾個 critical band 的 SMR 取其最小的一個給 subband，因為 subband 包含了好幾個 critical band，如果用這幾個 critical band 中最大的 SMR，將會有部分頻率的遮蔽效應會估計錯誤，所以為了妥協，只好取最小的。高頻的時候則是好幾個 subband 共用一個 SMR。model 1 有一個致命傷，就是高頻的時候，前面我們說過 model 1 每個 critical band 的 noise 是以一個總和集中的頻率代表，現在這個 critical band 橫跨好幾個 subband，以這個中央代表的 noise 頻率計算出來的 SMR，就無法適用在每個 subband 裡面。（距離中央越遠的就越不正確）
model 2 低頻的時候取最小的 SMR，和 model 1 一樣，高頻的時候則是取 critical band 好幾個 SMR 的平均值給 subband。model 2 不用集中式的 noise，而是用 tone index 的方式來計算 tone 和 noise 的遮蔽效應，所以在高頻的時候會比 model 1 精確。

好了，心理聲學模型不能再講下去了，頭暈了... @_@

圖... 有機會再補 ^^;

終於進入主題了：MDCT 和 Quantization（量化）。
前面提到我們將 PCM data 分成好幾個 subband 等待心理聲學模型的判斷，做進一步的量化壓縮，這種壓縮法我們叫做 subband coding。這個 filter 我們用的是 polyphase filter bank，將 PCM data 分成 32 個等寬的 subband。這個 ployphase filter bank 有幾個缺點：
1. 它是有失真的 filter，也就是說，還沒有做會失真的量化步驟，經過 filtering 以後的 subsample 立刻將它還原回 PCM data，結果就已經和原來不一樣了。不過這個失真很小（小於 0.07dB）所以對品質不會有太大的傷害。
2. 它是等寬的頻帶，不符合人耳聽覺特性的 critical band，對後續量化階段的處理不利
3. 它的截止點平緩，所以當輸入頻率很靠近截止點的時候，相鄰的兩個 subband 會發生 aliasing（或者說 overlap，.....請看圖...有機會再補....-_-;;）

MP1 一個 frame 384 個 sample，MP2 和 MP3 用 1152 個 sample，而且 MP3 會將 polyphase filter bank 切出來的 32 個 subband 的 sample，再用 MDCT 轉換，進一步劃分成更細的頻帶，提高對頻率的解析度。這個將原本資料轉換到另一個空間之後再進行壓縮的方法，我們稱為 transform coding。因為MP3 混合了 subband filterbank 和 MDCT，所以我們把 MP3 的這個 filtering 的過程稱為 Hybird Filterbank。
MDCT 之後，可以運用 butterfly 的計算，消除 polyphase filter bank 產生的 aliasing。
不過成也 MDCT 敗也 MDCT，經過這個 MDCT 轉換之後，資料會完全喪失時間的資訊。什麼是喪失時間資訊？我們回頭來說 FFT。
做 FFT 計算的時候，window size 越大（取進來計算的 sample 越多），對頻率的分解能越強，頻率的計算越精確。但是這些 PCM data 的 sample 是照時間排列的，對 44.1KHz 的 PCM 一次取 32768 個 sample 進來計算，如果不用 overlap，則你的頻率解析度（ie. spectral line resolution）是 1.346Hz，而時間解析度只有 1sec * 32768/44100 = 743.04msec，你看不到小於 735.61msec 的頻率變化的過程。頻率解析度和時間解析度兩個量無法同時求得精確的值，時間越精確（取進來計算的 sample 越少），頻率解析就越差，頻率越精確（取進來計算的 sample 越多），時間解析就越差。
MP3 經由 polyphase filter bank 之後轉 MDCT 的過程如下
1. 1152 個 PCM sample 分成兩個部分，各 576 個 sample，稱為一個 granule。
2. 這 576 個 sample 送進 polyphase filter bank，輸出 32 sample（按頻率順序）x 18 組（按時間排序）
3. 重排為 18 個 sample（按時間排序）x 32 組（按頻率排序）
4. 每一組中的 18 個 sample 為時間順序，加上前面一次轉換的 18 個 sample，總共 36 個 sample 送進去做 MDCT 轉換（所以 MDCT window 有 50% 的 overlap 重疊）
5. 轉出來為 18 個 sepctral line（按頻率排序）x 32 組（按頻率排序）

好復雜嗎？ ^^;
總之 MDCT 轉換完以後，時間資訊就不見了（每一個都是 spectral line，都是頻率資訊，不過頻率資訊更細了）。
丟掉時間資訊會有什麼影響呢？
假設現在轉換的這一塊聲音區塊前面是很微弱的聲音，到後面突然出現音量急遽升高的情形，譬如說鼓手突然開始打鼓，這種波形我們稱為「attack」：突然拉起的波形。遇到這種情況心理聲學模型會很笨的認為這個區塊裡面有很強的 masker，可以提供很高的遮蔽曲線，所以可以允許較大的量化失真，因此量化的步驟就會給比較少的 bit。MDCT 一次轉換就是取 576 個 sample，這個 block 的長度，同時也就是時間的長度，所以一次死就死全部的 block，量化失真產生的 noise 會擴散到整個 block 的長度范圍（也就是時間范圍），所以前面聲音很微弱的區段，也會發生這些量化噪音，想當然爾，原來微弱的音量根本無法遮蔽掉這些量化噪音，如果後面大音量區段的 pre-masking 前遮蔽曲線也不夠遮蔽這些 noise，我們就會聽到這些量化噪音了，那麼心理聲學模型也就破功了。
這種壓縮瑕疵叫做 pre-echo。

這個道理類似 JPEG 圖檔的壓縮瑕疵，JPEG 一次轉換是拿 8x8 的區塊去做 DCT 轉換，遇到區塊內包含銳利的邊緣、線條（有很多的高頻成分）的時候，經過 DCT 轉換，高頻的量化失真會擴散到整個 8x8 的像素區塊，所以我們常常看到 JPEG 或 MPEG 檔案畫面上銳利線條的周圍（譬如說文字的周圍）會有那種斑斑點點，破碎的壓縮瑕疵，這就是因為一次死死全部，整個區塊都完蛋的關系。

MP+/MPC 因為不用 transform coding，不做 MDCT 轉換，所以他的 pre-echo 的問題比較小，觀察 MPC 壓出來的波形，幾乎看不到 pre-echo 的壓縮瑕疵。
一個相反的例子，MPEG2 AAC/MPEG4 AAC 完全不用 subband filterbank，直接做 MDCT 轉換（前置有一個 gain-control），不過 AAC 有一套對付 pre-echo 的 tool（或者叫 mole）叫做 TNS，可以用來解決 pre-echo 的問題。

這個，越扯越遠，寫不完了 ><
解決 pre-echo 的方法下次繼續....

『拾』聲音文件大小計算方法

 音效卡對聲音的處理質量可以用三個基本參數來衡量，即采樣頻率、采樣位數和聲道數。
采樣頻率是指單位時間內的采樣次數。采樣頻率越大，采樣點之間的間隔就越小，數字化後得到的聲音就越逼真，但相應的數據量就越大。音效卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采樣頻率。
采樣位數是記錄每次采樣值數值大小的位數。采樣位數通常有8bits或16bits兩種，采樣位數越大，所能記錄聲音的變化度就越細膩，相應的數據量就越大。
采樣的聲道數是指處理的聲音是單聲道還是立體聲。單聲道在聲音處理過程中只有單數據流，而立體聲則需要左、右聲道的兩個數據流。顯然，立體聲的效果要好，但相應的數據量要比單聲道的數據量加倍。
不經過壓縮聲音數據量的計算公式為：
數據量（位元組/秒）= (采樣頻率（Hz）*采樣位數（bit）*聲道數)/ 8
其中，單聲道的聲道數為1，立體聲的聲道數為2。

 應用舉例
【例1】請計算對於5分鍾雙聲道、16位采樣位數、44.1kHz采樣頻率聲音的不壓縮數據量是多少？
解：
根據公式：
數據量=（采樣頻率×采樣位數×聲道數×時間）/8
得，數據量=[44.1×1000×16×2×（5×60）] /（8×1024×1024）
=50.47MB
因此，聲音的不壓縮數據量約為50.47MB。
計算時要注意幾個單位的換算細節：
時間單位換算：1分=60秒
采樣頻率單位換算：1kHz=1000Hz
數據量單位換算：1MB=1024×1024=1048576B

【例2】請計算對於雙聲道立體聲、采樣頻率為44.1kHz、采樣位數為16位的激光唱盤（CD-A），用一個650MB的CD-ROM可存放多長時間的音樂。
解：
已知音頻文件大小的計算公式如下：
文件的位元組數/每秒=采樣頻率（Hz）采樣位數（位）聲道數/8
根據上面的公式計算一秒鍾時間內，采樣頻率為44.1kHz、采樣位數為16位，雙聲道立體聲激光唱盤（CD-A）的不壓縮數據量。
(44.1×1000×16×2)/8=0.168MB/s
那麼，一個650MB的CD-ROM可存放的時間為（650/0.168）/（60×60）=1.07小時，答約1個小時即可。

思考題
如果采樣速率為22.05kHz，解析度為32位，單聲道，上述條件符合CD質量的紅皮書音頻標准，錄音的時間長度為10秒的情況下，文件的大小為多少?
參考答案：882KB。

導航:首頁 > 文件處理 > 音頻壓縮計算

音頻壓縮計算

與音頻壓縮計算相關的資料