❶ 壓縮文件為什麼有的容量比原文件小,它主要把什麼壓縮掉呢
因為有些文件格式相對較大。。比如BMP格式的圖片。壓縮比較基本上在100倍左右。。因此為了節省空間。。就需要對數據進行壓縮
1.什麼是數據壓縮
數據壓縮,通俗地說,就是用最少的數碼來表示信號。其作用是:能較快地傳輸各種信號,如傳真、Modem通信等;在現有的通信干線並行開通更多的多媒體業務,如各種增值業務;緊縮數據存儲容量,如CD-ROM、VCD和DVD等;降低發信機功率,這對於多媒體移動通信系統尤為重要。由此看來,通信時間、傳輸帶寬、存儲空間甚至發射能量,都可能成為數據壓縮的對象。
2.數據為何能被壓縮
首先,數據中間常存在一些多餘成分,既冗餘度。如在一份計算機文件中,某些符號會重復出現、某些符號比其他符號出現得更頻繁、某些字元總是在各數據塊中可預見的位置上出現等,這些冗餘部分便可在數據編碼中除去或減少。冗餘度壓縮是一個可逆過程,因此叫做無失真壓縮,或稱保持型編碼。
其次,數據中間尤其是相鄰的數據之間,常存在著相關性。如圖片中常常有色彩均勻的背影,電視信號的相鄰兩幀之間可能只有少量的變化影物是不同的,聲音信號有時具有一定的規律性和周期性等等。因此,有可能利用某些變換來盡可能地去掉這些相關性。但這種變換有時會帶來不可恢復的損失和誤差,因此叫做不可逆壓縮,或稱有失真編碼、摘壓縮等。
此外,人們在欣賞音像節目時,由於耳、目對信號的時間變化和幅度變化的感受能力都有一定的極限,如人眼對影視節目有視覺暫留效應,人眼或人耳對低於某一極限的幅度變化已無法感知等,故可將信號中這部分感覺不出的分量壓縮掉或「掩蔽掉」。這種壓縮方法同樣是一種不可逆壓縮。
對於數據壓縮技術而言,最基本的要求就是要盡量降低數字化的在碼事,同時仍保持一定的信號質量。不難想像,數據壓縮的方法應該是很多的,但本質上不外乎上述完全可逆的冗餘度壓縮和實際上不可逆的嫡壓縮兩類。冗餘度壓縮常用於磁碟文件、數據通信和氣象衛星雲圖等不允許在壓縮過程中有絲毫損失的場合中,但它的壓縮比通常只有幾倍,遠遠不能滿足數字視聽應用的要求。
在實際的數字視聽設備中,差不多都採用壓縮比更高但實際有損的媳壓縮技術。只要作為最終用戶的人覺察不出或能夠容忍這些失真,就允許對數字音像信號進一步壓縮以換取更高的編碼效率。摘壓縮主要有特徵抽取和量化兩種方法,指紋的模式識別是前者的典型例子,後者則是一種更通用的摘壓縮技術。
更加詳細的資料看這里吧。
http://www.kdntc.cn/nic/netstudy/wsjs/tongxin/shu/039.htm
-----------------------------
數據壓縮是通過減少計算機中所存儲數據或者通信傳播中數據的冗餘度,達到增大數據密度,最終使數據的存儲空間減少的技術。
數據壓縮在文件存儲和分布式系統領域有著十分廣泛的應用。數據壓縮也代表著尺寸媒介容量的增大和網路帶寬的擴展。
數據壓縮就是將字元串的一種表示方式轉換為另一種表示方式,新的表示方式包含相同的信息量,但是長度比原來的方式盡可能的短。
1. 數據壓縮與編碼
數據壓縮跟編碼技術聯系緊密,壓縮的實質就是根據數據的內在聯系將數據從一種編碼映射為另一種編碼。壓縮前的數據要被劃分為一個一個的基本單元。基本單元既可以是單個字元,也可以是多個字元組成的字元串。稱這些基本單元為源消息,所有的源消息構成源消息集。源消息集映射的結果為碼字集。可見,壓縮前的數據是源消息序列,壓縮後的數據是碼字序列。
若定義塊為固定長度的字元或字元串,可變長為長度可變的字元或字元串,則編碼可分為塊到塊編碼、塊到可變長編碼、可變長到塊編碼、可變長到可變長編碼等。應用最廣泛的ASCII編碼就是塊到塊編碼。
2. 數據壓縮的分類
數據壓縮按照映射是否固定可分為靜態數據壓縮和動態數據壓縮。靜態數據壓縮是指壓縮前源消息集到碼字集之間的映射是固定的,出現在被壓縮數據中的源消息每次都被映射為同一碼字。動態數據壓縮是指源消息集到碼字集的映射會隨著壓縮進度的變化而變化。靜態壓縮編碼需要兩步,先計算出源消息出現的頻率,確定源消息到碼字之間的映射;然後完成映射。動態數據壓縮則只需一步就能完成,它在壓縮過程中只對源消息集掃描一次。有些數據壓縮演算法是混合型的,綜合應用了靜態數據壓縮和動態數據壓縮技術。
3. 評價數據壓縮的標准
從實際應用來說,數據壓縮可從兩方面來衡量:數據壓縮速度和數據壓縮率。當數據壓縮應用於網路傳輸時,主要考慮速度快慢;當數據壓縮應用於數據存儲中,主要考慮壓縮率,即壓縮後數據的大小。當然這兩方面是相輔相成的。
常用的評價標准有冗餘度、平均源信息長度、壓縮率等。對於一種編碼方式是否為較好的編碼,主要看該編碼的冗餘度是否最小。
4. 常見的數據壓縮工具
現在操作簡單,使用方便,功能強大的數據壓縮工具有很多。最常見的是WinZip和WinRAR。
數據壓縮通過減少數據的冗餘度來減少數據在存儲介質上的存儲空間,而數據備份則通過增加數據的冗餘度來達到保護數據安全的目的。兩者在實際應用中常常結合起來使用。通常將要備份的數據進行壓縮處理,然後將壓縮後的數據用備份進行保護。當需要恢復數據時,先將備份數據恢復,再解壓縮。
由於計算機中的數據十分寶貴又比較脆弱,數據備份無論對國家、企業和個人來說都非常重要。數據備份能在較短的時間內用很小的代價,將有價值的數據存放到與初始創建的存儲位置相異的地方;當數據被破壞時,用較短的時間和較小的花費將數據全部恢復或部分恢復。
1. 對備份系統的要求
不同的應用環境有不同的備份需求,一般來說,備份系統應該有以下特性。
☆ 穩定性:備份系統本身要很穩定和可靠。
☆ 兼容性:備份系統要能支持各種操作系統、資料庫和典型應用軟體。
☆ 自動化:備份系統要有自動備份功能,並且要有日誌記錄。
☆ 高性能:備份的效率要高,速度要盡可能的快。
☆ 操作簡單:以適應不同層次的工作人員的要求,減輕工作人員負擔。
☆ 實時性:對於某些不能停機備份的數據,要可以實時備份,以確保數據正確。
☆ 容錯性:若有可能,最好有多個備份,確保數據安全可靠。
2. 數據備份的種類
數據備份按所備份數據的特點可分為完全備份、增量備份和系統備份。
完全備份是指對指定位置的所有數據都備份,它佔用較大的空間,備份過程的時間也較長。增量備份是指數據有變化時對變化的部分進行備份,它佔用空間小,時間短。完全備份一般在系統第一次使用時進行,而增量備份則經常進行。系統備份是指對整個系統進行備份。它一般定期進行,佔用空間較大,時間較長。
3. 數據備份的常用方法
數據備份根據使用的存儲介質種類可分為軟盤備份、磁帶備份、光碟備份、優盤備份、移動硬碟備份、本機多個硬碟備份和網路備份。用戶可以根據數據大小和存儲介質的大小是否匹配進行選擇。
數據備份是被動的保護數據的方法,用戶應根據不同的應用環境來選擇備份系統、備份設備和備份策略。
http://ke..com/view/286827.html
---------------------------
有損數據壓縮方法是經過壓縮、解壓的數據與原始數據不同但是非常接近的壓縮方法。有損數據壓縮又稱破壞型壓縮,即將次要的信息數據壓縮掉,犧牲一些質量來減少數據量,使壓縮比提高。這種方法經常用於網際網路尤其是流媒體以及電話領域。在這篇文章中經常成為編解碼。它是與無損數據壓縮對應的壓縮方法。根據各種格式設計的不同,有損數據壓縮都會有 generation loss:壓縮與解壓文件都會帶來漸進的質量下降。
[編輯] 有損壓縮的類型
有兩種基本的有損壓縮機制:
一種是有損變換編解碼,首先對圖像或者聲音進行采樣、切成小塊、變換到一個新的空間、量化,然後對量化值進行熵編碼。
另外一種是預測編解碼,先前的數據以及隨後解碼數據用來預測當前的聲音采樣或者或者圖像幀,預測數據與實際數據之間的誤差以及其它一些重現預測的信息進行量化與編碼。
有些系統中同時使用這兩種技術,變換編解碼用於壓縮預測步驟產生的誤差信號。
有損與無損壓縮比較
有損方法的一個優點就是在有些情況下能夠獲得比任何已知無損方法小得多的文件大小,同時又能滿足系統的需要。
有損方法經常用於壓縮聲音、圖像以及視頻。有損視頻編解碼幾乎總能達到比音頻或者靜態圖像好得多的壓縮率(壓縮率是壓縮文件與未壓縮文件的比值)。音頻能夠在沒有察覺的質量下降情況下實現 10:1 的壓縮比,視頻能夠在稍微觀察質量下降的情況下實現如 300:1 這樣非常大的壓縮比。有損靜態圖像壓縮經常如音頻那樣能夠得到原始大小的 1/10,但是質量下降更加明顯,尤其是在仔細觀察的時候。
當用戶得到有損壓縮文件的時候,譬如為了節省下載時間,解壓文件與原始文件在數據位的層面上看可能會大相徑庭,但是對於多數實用目的來說,人耳或者人眼並不能分辨出二者之間的區別。
一些方法將人體解剖方面的特質考慮進去,例如人眼只能看到一定頻率的光線。心理聲學模型描述的是聲音如何能夠在不降低聲音感知質量的前提下實現最大的壓縮。
人眼或人耳能夠察覺的有損壓縮帶來的缺陷稱為壓縮失真(en:compression artifact)。
http://ke..com/view/583477.html
❷ 如何壓縮圖片可以不失真
使用圖片壓縮工具可以對圖片進行壓縮並且不失真。
具體的方法如下:
一、打開迅捷圖片壓縮軟體,頁面中有三個功能選項,PDF壓縮、圖片壓縮和視頻壓縮,直接點擊圖片壓縮就好。
❸ 數字圖像數據能進行壓縮,無失真壓縮和有失真壓縮的理論依據分別是什麼
拿無損的bmp來說,無損壓縮就如同用zip/rar壓縮文件,解壓後還是原來的bmp沒任何變化
有損則是不可逆的轉換為jpg/png等格式,無法再恢復到原來的bmp格式了
除了圖片,多媒體流應該也是類似的原理
❹ 什麼是信源在允許一定失真的條件下,信源熵所能壓縮的極限
1.統計編碼原理──信息量和信息熵
根據香農資訊理論的原理,最佳的數據壓縮方法的理論極限是信息熵。如果要求在編碼過程中不丟失信息量,即要求保存信息熵,這種信息保持的編碼又叫熵保存編碼,或叫熵編碼。熵編碼是無失真壓縮。當然在考慮人眼失真不易察覺的生理特性時,有些圖像編碼不嚴格要求熵保存,信息允許通過部分損失來換取高的數據壓縮比。這種編碼屬於有失真數據壓縮。
信息是用不確定性的量度定義的,也就是說信息被假設為由一系列的隨機變數所代表,它們往往用隨機出現的符號來表示。我們稱輸出這些符號的源為「信源」。也就是要進行研究與壓縮的對象。 信息量
信息量指從N個相等可能事件中選出一個事件所需要的信息度量或含量,也可以說是辨別N個事件中特定事件過程中所需提問「是」或「否」的最小次數。
例如:從64個數(1~64的整數)中選定某一個數(採用折半查找演算法),提問:「是否大於32?」,則不論回答是與否,都消去半數的可能事件,如此下去,只要問6次這類問題,就可以從64個數中選定一個數,則所需的信息量是 =6(bit)。 我們現在可以換一種方式定義信息量,也就是資訊理論中信息量的定義。
設從N中選定任一個數X的概率為P(x),假定任選一個數的概率都相等,即P(x)=1/N,則信息量I (x)可定義為:
上式可隨對數所用「底」的不同而取不同的值,因而其單位也就不同。設底取大於1的整數α,考慮一般物理器件的二態性,通常α取2,相應的信息量單位為比特(bit);當α=e,相應的信息量單位為奈特(Nat);當α=10,相應的信息量單位為哈特(Hart)。顯然,當隨機事件x發生的先驗概率P(x)大時,算出的I(x)小,那麼這個事件發生的可能性大,不確定性小,事件一旦發生後提供的信息量也少。必然事件的P(x)等於1, I(x)等於0,所以必然事件的消息報導,不含任何信息量;但是一件人們都沒有估計到的事件(P(x)極小),一旦發生後,I(x)大,包含的信息量很大。所以隨機事件的先驗概率,與事件發生後所產生的信息量,有密切關系。I(x)稱x發生後的自信息量,它也是一個隨機變數。
P(x)大時,算出的I(x)小 必然事件的P(x)等於1, I(x)等於0。
P(x)小時,算出的I(x)大 必然事件的P(x)等於0, I(x)等於1。
I(x)稱x發生後的自信息量,它也是一個隨機變數。
信息熵
現在可以給「熵」下個定義了。信息量計算的是一個信源的某一個事件(X)的自信息量,而一個信源若由n個隨機事件組成,n個隨機事件的平均信息量就定義為熵(Entropy)。
熵的准確定義是:信源X發出的xj(j=1,2,……n), 共n個隨機事件的自信息統計平均(求數學期望),即
H(X)在資訊理論中稱為信源X的「熵 (Entropy)」 ,它的含義是信源X發出任意一個隨機變數的平均信息量。
更詳細的說,一般在解釋和理解信息熵有4種樣式
(1) 當處於事件發生之前,H(X)是不確定性的度量;
(2) 當處於事件發生之時,是一種驚奇性的度量;
(3) 當處於事件發生之後,是獲得信息的度量;
(4) 還可以理解為是事件隨機性的度量. 下面為了掌握信息熵的概念,我們來做一道計算題。
例如:以信源X中有8個隨機事件,即n=8。每一個隨機事件的概率都相等,即P(x1)=P(x2)=P(x3)……P(x8)=1/8 ,計算信源X的熵。
應用「熵」的定義可得其平均信息量為3比特
再例: 信源X中有17個隨機事件,即n=17。每一個隨機事件的概率分別為:
計算信源X的熵。
信息熵的計算公式:
信源X的熵:
定長碼與變長碼
定長碼(fixed-length code)即採用相同的位數(bit)對數據進行編碼。大多數存儲數字信息的編碼系統都採用定長碼。如我們常用的ASCII碼就是定長碼,其碼長為1位元組(Byte)。漢字國標碼也是定長碼,其碼長為2位元組(Byte)。變長碼(variable-length code)即採用不相同的位數(bit)對數據進行編碼,以節省存儲空間。例如,不同的字元或漢字出現的概率是不同的,有的字元出現的概率非常高,有的則非常低。根據統計,英文字母中「E」的使用概率約為13%,而字母「Z」的使用概率則為0.08%。又如大多數圖像常含有單色的大面積圖塊,而且某些顏色比其他顏色出現更頻繁。為了節省空間,在對數據進行編碼時,就有可能對那些經常出現的數據指定較少的位數表示,而那些不常出現的數據指定較多的位數表示。這樣從總的效果看還是節省了存儲空間。用這種方法得到的代碼,其碼的位數,也即碼長就是不固定的,故稱為變長碼。香農-范諾編碼,以及霍夫曼編碼,都是變長碼。
2.赫夫曼(Huffman)編碼基本原理:按信源符號出現的概率大小進行排序,出現概率大的分配短碼,出現概率小的則分配長碼。(定長碼採用相同的碼長對數據進行編碼,如ASCII碼是定長碼,其碼長為1位元組。)
定理:在變長碼中,對於出現概率在的信息符號編以短字長的碼,對於出現概率小的信息符號以長字長的碼,如果碼字長度嚴格按照符號概率的大小的相反順序排列,則平均碼字長度一定小於按任何其他符號順序排列方式得到的碼字長度。
定理證明
設最佳排列方式的碼字平均長度為 ,則有:
式中 為信源符號 出現的概率, 是符號 的編碼長度。規定 , 。如果將 的碼字與 的碼字互換,其餘碼字不變,經過這樣的互換以後,平均碼字長度變成 ,即
因為 ,所以 ,也就是說 最短。證畢。
Huffman編碼的編碼步驟
① 概率統計(如對一幅圖像,或m幅同種類型圖像作灰度信號統計),得到n個不同概率的信息符號。
② 將n個信源信息符號的n個概率,按概率大小排序。
③ 將n個概率中,最後兩個小概率相加,這時概率個數減為n-1個。
④ 將n-1個概率,按大小重新排序。
⑤ 重復③,將新排序後的最後兩個小概率再相加,相加和與其餘概率再排序。
⑥ 如此反復重復n-2次,得到只剩兩個概率序列。
⑦ 以二進制碼元(0.1)賦值,構成霍夫曼碼字。編碼結束。
利用Huffman編碼方式對信源進行編碼
已知信源:
編碼結果:平均碼長: =(0.35+0.20)×2+(0.15+0.10+0.10)×3+(0.06+0.04)×4=2.55(bit)(對於等長碼則需要3比特)。
Huffman編碼的特點
(1)平均碼長 (熵);
(2)平均碼長 bits(等長碼需要的比特數);
(3)保證解碼的唯一性,短碼字不構成長碼字的前綴;
(4)在接收端需保存一個與發送端相同的赫夫曼碼表。 Huffman不足方面:(1)構造出的碼不唯一,其原因是:一是在給兩個分支賦值時,可以是左支(或上支)為0,也可以是右支(或下支)為0,造成編碼的不唯一;二是當兩個消息的概率相等時,誰前誰後也是隨機的,構造出來的碼字也不唯一。
(2)編碼碼字字長參差不齊,因此硬體實現起來不大方便。
(3)編碼對不同信編碼效率是不同的。在概率頒很不均勻時,Huffman編碼才會有顯著的效果,在信源頒均勻的情況下,一般不使用Huffman編碼。
3.算術編碼(Arithmetic Coding)算術編碼方法也是利用信源概率分布特性、能夠趨近熵極限的編碼的方法。算術編碼不按符號編碼,即不是用一個特定的碼字與輸入符號之間建立一一對應的關系,而是從整個符號序列出發,採用遞推形式進行連續編碼,用一個單獨的浮點數來表示一串輸入符號。算術編碼是將被編碼的信息表示成實數0和1之間的一個間隔。信息越長編碼表示它的間隙就越小,表示這一間隙所須二進位就越多,大概率符號出現的概率越大對應於區間愈寬,可用長度較短的碼字表示;小概率符號出現概率越小層間愈窄,需要較長碼字表示。它的編碼方法比Huffman編碼方式要復雜,但它不需要傳送像Huffman編碼中的Huffman碼表,同時算術編碼還有自適應的優點,所以算術編碼是實現高效壓縮數據中很有前途的編碼方法。特點:方法比較復雜,具有自適應能力(隨著編碼符號流中01出現的概率的變化將自適應的改變)。在信源符號概率接近時,算術編碼比Huffman編碼效率要高。 算術編碼與解碼舉例
假設信源符號為{00, 01, 10, 11},這些符號的概率分別為{ 0.1, 0.4, 0.2, 0.3 },根據這些概率可把間隔[0,1)分成4個子間隔:[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7, 1),其中[x,y)表示半開放間隔,即包含x不包含y。上面的信息可綜合在下表中。 表 信源符號,概率和初始編碼間隔 符號00011011概率0.10.40.20.3初始編碼間隔[0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1)
如果二進制消息序列的輸入為:10 00 11 00 10 11 01。編碼時首先輸入的符號是10,找到它的編碼范圍是[0.5, 0.7)。由於消息中第二個符號00的編碼范圍是[0, 0.1),因此它的間隔就取[0.5, 0.7)的第一個十分之一作為新間隔[0.5, 0.52)。依此類推,編碼第3個符號11時取新間隔為[0.514, 0.52),編碼第4個符號00時,取新間隔為[0.514, 0.5146),… 。消息的編碼輸出可以是最後一個間隔中的任意數。整個編碼過程如下圖示:
表: 編碼過程步驟 輸入符號編碼間隔 編碼判決110[0.5, 0.7)符號的間隔范圍[0.5, 0.7) 200[0.5, 0.52)[0.5, 0.7)間隔的第一個1/10311[0.514, 0.52)[0.5, 0.52)間隔的最後三個1/10400[0.514, 0.5146)[0.514, 0.52)間隔的第一個1/10510[0.5143, 0.51442)[0.514, 0.5146)間隔的第六個1/10開始的兩個1/10611[0.514384, 0.51442)[0.5143, 0.51442)間隔的最後三個1/10701[0.5143836, 0.514402)[0.514384, 0.51442)間隔的從第二個1/10開始的四個1/108從[0.5143876, 0.514402中選擇一個數作為輸出:0.51439
表:解碼過程步驟間隔解碼符號 解碼判決 1[0.5, 0.7)100.51439在間隔 [0, 1) 第六個1/102[0.5, 0.52)000.51439在間隔 [0.5, 0.7)的第一個1/103[0.514, 0.52)110.51439在間隔[0.5, 0.52)的第八個1/104[0.514, 0.5146)000.51439在間隔[0.514, 0.52)的第一個1/105[0.5143, 0.51442)100.51439在間隔[0.514, 0.5146)的第七個1/106[0.514384, 0.51442)110.51439在間隔[0.5143, 0.51442)的第八個1/107[0.5143876, 0.514402)010.51439在間隔[0.5143876, 0.514402)的第二個1/108解碼的消息:10 00 11 00 10 11 01解碼器的解碼過程應無限制地運行下去。在解碼器中需要添加一個專門的終止符,當解碼器看到終止符時就停止解碼。在算術編碼中需要注意的幾個問題:
①由於實際的計算機的精度不可能無限長,運算中出現溢出是一個明顯的問題,但多數機器都有16位、32位或者64位的精度,因此這個問題可使用比例縮放方法解決。
②算術編碼器對整個消息只產生一個碼字,這個碼字是在間隔[0, 1)中的一個實數,因此解碼器在接受到表示這個實數的所有位之前不能進行解碼。
③算術編碼也是一種對錯誤很敏感的編碼方法,如果有一位發生錯誤就會導致整個消息譯錯。
算術編碼可以是靜態的或者自適應的。在靜態算術編碼中,信源符號的概率是固定的。在自適應算術編碼中,信源符號的概率根據編碼時符號出現的頻繁程度動態地進行修改,在編碼期間估算信源符號概率的過程叫做建模。需要開發自適應算術編碼的原因是因為事先知道精確的信源概率是很難的,而且是不切實際的。當壓縮消息時,不能期待一個算術編碼器獲得最大的效率,所能做的最有效的方法是在編碼過程中估算概率。因此動態建模就成為確定編碼器壓縮效率的關鍵。
算術編碼的實現相應地比Huffman編碼復雜,但當與信號源符號的出現概率接近時,算術編碼的效率高於Huffman編碼。在圖像測試中表明,算術編碼效率比Huffman效率高5%左右。
❺ 多媒體數據壓縮技術的失真分類
根據解碼後數據與原始數據是否完全一致進行分類,壓縮方法可被分為有失真編碼和無失真編碼兩大類。
有失真壓縮法會壓縮了熵,會減少信息量,而損失的信息是不能再恢復的,因此這種壓縮法是不可逆的。無失真壓縮法去掉或減少數據中的冗餘,但這些冗餘值是可以重新插入到數據中的,因此冗餘壓縮是可逆的過程。
無失真壓縮是不會產生失真。從信息主義角度講,無失真編碼是泛指那種不考慮被壓縮信息性質和壓縮技術。它是基於平均信息量的技術,並把所有的數據當作比特序列,而不是根據壓縮信息的類型來優化壓縮。也就是說,平均信息量編碼忽略被壓縮信息主義內容。在多媒體技術中一般用於文本、數據的壓縮,它能保證百分之百地恢復原始數據。但這種方法壓縮比較低,如LZW編碼、行程編碼、霍夫曼(Huffman)編碼的壓縮比一般在2:1至5:1之間。