數據壓縮原理的認識_文件壓縮的原理是什麼

A. 軟體壓縮的原理是什麼

壓縮的原理是把文件的二進制代碼壓縮，把相鄰的0,1代碼減少，比如有000000,可以把它變成6個0 的寫法60,來減少該文件的空間。

由於計算機處理的信息是以二進制數的形式表示的，因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。

為了有助於理解文件壓縮，請在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言，與其一個一個定義「藍、藍、藍……」長長的一串顏色，還不如告訴電腦：「從這個位置開始存儲1117個藍色像點」來得簡潔，而且還能大大節約存儲空間。

這是一個非常簡單的圖像壓縮的例子。其實，所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的，和藍色像點一樣，只要通過合理的數學計算公式，文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。

(1)數據壓縮原理的認識擴展閱讀

WinRAR能備份數據，減少 E-mail附件的大小，解壓縮從Internet上下載的 RAR、ZIP 和其他格式的壓縮文件，並能創建 RAR 和 ZIP 格式的壓縮文件。在購買之前，你可以下載試用版本。

WINRAR在壓縮率和速度方面都有很好的表現。其壓縮率比高，3.x 採用了更先進的壓縮演算法，是現在壓縮率較大、壓縮速度較快的格式之一。 3.3 增加了掃描壓縮文件內病毒、解壓縮「增強壓縮」 ZIP 壓縮文件的功能，升級了分卷壓縮的功能等。

參考資料來源：網路-壓縮文件

B. 數據壓縮基本原理

無損壓縮基本上有2種：

字典式。用之前出現過的消息來替換從，比如：「我非常非常非常喜歡你」，可以壓縮為「我非常x3喜歡你」
統計式，用短的替換頻繁出現的。比如，哈夫曼壓縮演算法。

上面只是大概的描述，如果想深入還是找本演算法書看看吧。

C. 壓縮原理是什麼

壓縮技術可分為通用無損數據壓縮與有損壓縮兩大類，但不管是採用何種技術模型，其本質內容都是一樣的，即都是通過某種特殊的編碼方式將數據信息中存在的重復度、冗餘度有效地降低，從而達到數據壓縮的目的。比如：「中國」是「中華人民共和國」的簡稱，但前者的字數是2，後者則是7，但我們都不會對它們倆所要表達的意思產生誤解，這是因為前者保留了信息中最「關鍵點」。同時，作為有思維能力的人類，我們可以根據前後詞彙關系和知識積累，就可推斷出其原來的全部信息。壓縮技術也一樣，在不影響文件的基本使用的前提下，只保留原數據中一些「關鍵點」，去掉了數據中的重復的、冗餘的信息，從而達到壓縮的目的。這就是文件壓縮技術所要遵循的最基本原理。

D. 數據壓縮的基本原理

數據壓縮的基本原理

--------------------------------------------------------------------------------

數據壓縮技術就是對原始數據進行數據編碼或壓縮編碼。

目前常用的壓縮編碼有：冗餘壓縮法（無損壓縮法、熵編碼）和熵壓縮法（有損壓縮法）兩類。

無損壓縮是可逆的；有損壓縮是不可逆的。

--------------------------------------------------------------------------------

變長編碼

使用長度可變的代碼來對以不同頻率出現的樣本進行編碼。

1·Huffman編碼

Huffman編碼又稱最佳編碼。

Huffman編碼過程是：

*將信源符號按概率遞減順序排列；

*把兩個最小的概率加起來，作為新符號的概率；

*重復上述兩步驟，直到概率的和達到1為止；

*在每次合並消息時，將被合並的消息賦予1和0或賦予0和1；

*尋找從每一信源符號到概率為1的路經，記錄下路經上的1和0；

*對每一符號寫出從碼樹的根到終結點1、0序列。

例：對信源

[X1，X2，X3，X4，X5，X6]=[0.25，0.25，0.20，0.15，0.10，0.05]

進行Huffman編碼。

其中：X1=01；X2=10；X3=11；X4=000；X5=0010；X6=0011。

2·算術編碼

算術編碼是一種二元編碼。

這種編碼方法是在不考慮信源統計的情況下，只要監視一小段時間內碼字出現的頻率，不管統計是平穩的或非平穩的，編碼的碼率總能趨近於信源熵值，每次迭代的編碼演算法只處理一個數據符號，並且只有算術運算。

對二進制編碼來說，信源符號只有兩個。在算術編碼的初級階段，可設一個大概率Pe和小概率Qe，然後對被編碼比特流符號進行判斷。

其步驟：

*設編碼初始化子區間為[0，1]，Qe從0算起，則Pe=1-Qe。

*確定子區間起始位置：子區間起始位置=前子區間的長度+ 當前符號的區間左端X前子區間長度

*確定新子區間長度：新子區間長度=前子區間的長度X當前符號的概率

*隨著被編碼數據流符號的輸入，子區間逐漸縮小，

*最後得到的子區間長度決定了表示該區域內的某一個數所需的位數。

例：P42

--------------------------------------------------------------------------------

預測編碼

（自習）

--------------------------------------------------------------------------------

變換編碼

變換編碼是指對信號進行變換後在編碼。

例如：

典型的編碼結構是：

--------------------------------------------------------------------------------

模型編碼

模型編碼是指採用模型的方法對傳輸的圖像進行參數估測。

模型編碼有：隨機馬爾可夫場和分形圖像編碼。

1·分形的概念

分形的含義是其組成部分以某種方式與整體相似的形（一類無規則、混亂而復雜），其局部與整體有相似性的體系，即：自相似性體系。

2·分形編碼

*基本原理：分形的方法是把一幅數字圖像，通過一些圖像處理技術將原始圖像分成一些子圖像，然後在分形集中查找這樣的子圖像。分形集存儲許多迭代函數，通過迭代函數的反復迭代，可以恢復原來的子圖像。

分形編碼壓縮的步驟：

第一步：把圖像劃分為互不重疊的、任意大小的的D分區；

第二步：劃定一些可以相互重疊的、比D分區大的R分區；

第三步：為每個D分區選定仿射變換表。

分形編碼解壓步驟：

首先從文件中讀取D分區劃分方式的信息和仿射變換系數等數據；

然後劃定兩個同樣大小的緩沖區給D圖像和R圖像，並把R初始化到任一初始階段；

根據仿射變換系數把其相應的R分區做仿射變換，並用變換後的數據取代該D分區的原有數據；

對D中所有的D分區都進行上述操作，全部完成後就形成一個新的D圖像；

再把新D圖像的內容拷貝到R中，把新R當作D，D當作R，重復操作（迭代）。

。分形編碼的特點：

壓縮比高，壓縮後的文件容量與圖像像素數無關，在壓縮時時間長但解壓縮速度快。

--------------------------------------------------------------------------------

E. 壓縮文件是什麼原理

壓縮的原理：計算機處理信息是以二進制數（0和1）的形式標示的，壓縮軟體把二進制信息中相同的字元串以特殊字元標記起來壓縮的，從而實現縮小文件大小的。
文件的壓縮比則根據文件的類型不同有所不同，比如文檔類的文件壓縮比很大（一個字或者一個詞在同一個文件會反復出現），而圖形圖像的壓縮比則比較小（每一個像素點的色素不同是常有的，不同顏色和顏色深淺、對比度的不同、亮度不同等的對應二進制代碼是不同的）。
如果原文件被刪掉了，只要將壓縮文件解壓就可以。
回答者

F. 請大家談談你對數據壓縮原理的認識

數據壓縮技術就是對原始數據進行數據編碼或壓縮編碼。

目前常用的壓縮編碼有：冗餘壓縮法（無損壓縮法、熵編碼）和熵壓縮法（有損壓縮法）兩類。

無損壓縮是可逆的；有損壓縮是不可逆的。
變長編碼

使用長度可變的代碼來對以不同頻率出現的樣本進行編碼。

1·Huffman編碼

Huffman編碼又稱最佳編碼。

Huffman編碼過程是：

*將信源符號按概率遞減順序排列；

*把兩個最小的概率加起來，作為新符號的概率；

*重復上述兩步驟，直到概率的和達到1為止；

*在每次合並消息時，將被合並的消息賦予1和0或賦予0和1；

*尋找從每一信源符號到概率為1的路經，記錄下路經上的1和0；

*對每一符號寫出從碼樹的根到終結點1、0序列。

例：對信源

[X1，X2，X3，X4，X5，X6]=[0.25，0.25，0.20，0.15，0.10，0.05]

進行Huffman編碼。

其中：X1=01；X2=10；X3=11；X4=000；X5=0010；X6=0011。

2·算術編碼

算術編碼是一種二元編碼。

這種編碼方法是在不考慮信源統計的情況下，只要監視一小段時間內碼字出現的頻率，不管統計是平穩的或非平穩的，編碼的碼率總能趨近於信源熵值，每次迭代的編碼演算法只處理一個數據符號，並且只有算術運算。

對二進制編碼來說，信源符號只有兩個。在算術編碼的初級階段，可設一個大概率Pe和小概率Qe，然後對被編碼比特流符號進行判斷。

模型編碼

模型編碼是指採用模型的方法對傳輸的圖像進行參數估測。

模型編碼有：隨機馬爾可夫場和分形圖像編碼。

1·分形的概念

分形的含義是其組成部分以某種方式與整體相似的形（一類無規則、混亂而復雜），其局部與整體有相似性的體系，即：自相似性體系。

2·分形編碼

*基本原理：分形的方法是把一幅數字圖像，通過一些圖像處理技術將原始圖像分成一些子圖像，然後在分形集中查找這樣的子圖像。分形集存儲許多迭代函數，通過迭代函數的反復迭代，可以恢復原來的子圖像。

分形編碼壓縮的步驟：

第一步：把圖像劃分為互不重疊的、任意大小的的D分區；

第二步：劃定一些可以相互重疊的、比D分區大的R分區；

第三步：為每個D分區選定仿射變換表。

分形編碼解壓步驟：

首先從文件中讀取D分區劃分方式的信息和仿射變換系數等數據；

然後劃定兩個同樣大小的緩沖區給D圖像和R圖像，並把R初始化到任一初始階段；

根據仿射變換系數把其相應的R分區做仿射變換，並用變換後的數據取代該D分區的原有數據；

對D中所有的D分區都進行上述操作，全部完成後就形成一個新的D圖像；

再把新D圖像的內容拷貝到R中，把新R當作D，D當作R，重復操作（迭代）。

。分形編碼的特點：

壓縮比高，壓縮後的文件容量與圖像像素數無關，在壓縮時時間長但解壓縮速度快

G. 文件壓縮的原理是什麼

電腦里文件都是以二進制儲存的。壓縮原理就是通過特定的演算法，將文件轉化，而轉化以後的文件佔用的空間較小。

舉個簡單得例子（當然這個例子應該有點問題，但是能說明問題）：
原始文件：111110000001
演算法：當連續同樣的1或者0的個數超過5個，則將其轉化成XX1或者XX0得形式；如果不超過5個，保持不變。XX是連續的1或者0的個數，如果連續數量較多，XX得位數可以增加。

於是11111可以表示成5個1，寫成二進制就是1011；000000可以表示成6個0，寫成二進制就是1100；而1保持不變。

這樣，轉化以後的文件就變成了101111001

可見，原始文件需要12個存儲位置，而轉化後的文件只需要9個存儲位置。

當然，實際上壓縮得演算法多種多樣，要比這個例子復雜的多。根據文件種類的不同壓縮演算法也經常不同。

H. 壓縮的壓縮原理

利用演算法將文件有損或無損地處理，以達到保留最多文件信息，而令文件體積變小。壓縮文件的基本原理是查找文件內的重復位元組，並建立一個相同位元組的"詞典"文件，並用一個代碼表示，比如在文件里有幾處有一個相同的詞"中華人民共和國"用一個代碼表示並寫入"詞典"文件,這樣就可以達到縮小文件的目的軟體。由於計算機處理的信息是以二進制數的形式表示的，因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮，請您在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言，與其一個一個定義「藍、藍、藍……」長長的一串顏色，還不如告訴電腦：「從這個位置開始存儲1117個藍色像點」來得簡潔，而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實，所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的，和藍色像點一樣，只要通過合理的數學計算公式，文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說，壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響，這時忽略它們是個好主意，這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中，典型的代表就是影碟文件格式mpeg、音樂文件格式mp3和圖像文件格式jpg。但是更多情況下壓縮數據必須准確無誤，人們便設計出了無損壓縮格式，比如常見的zip、rar等。壓縮軟體（compression software）自然就是利用壓縮原理壓縮數據的工具，壓縮後所生成的文件稱為壓縮包（archive），體積只有原來的幾分之一甚至更小。當然，壓縮包已經是另一種文件格式了，如果你想使用其中的數據，首先得用壓縮軟體把數據還原，這個過程稱作解壓縮。常見的壓縮軟體有winzip、winrar等。

I. 壓縮文件的壓縮原理

把文件的二進制代碼壓縮，把相鄰的0,1代碼減少，比如有000000,可以把它變成6個0 的寫法60,來減少該文件的空間。
由於計算機處理的信息是以二進制數的形式表示的，因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮，請在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言，與其一個一個定義「藍、藍、藍……」長長的一串顏色，還不如告訴電腦：「從這個位置開始存儲1117個藍色像點」來得簡潔，而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實，所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的，和藍色像點一樣，只要通過合理的數學計算公式，文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說，壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響，這時忽略它們是個好主意，這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中，典型的代表就是影碟文件格式mpeg、音樂文件格式mp3和圖像文件格式jpg。但是更多情況下壓縮數據必須准確無誤，人們便設計出了無損壓縮格式，比如常見的zip、rar等。壓縮軟體（compression software）自然就是利用壓縮原理壓縮數據的工具，壓縮後所生成的文件稱為壓縮包（archive），體積只有原來的幾分之一甚至更小。當然，壓縮包已經是另一種文件格式了，如果想使用其中的數據，首先得用壓縮軟體把數據還原，這個過程稱作解壓縮。常見的壓縮軟體有winzip、winrar等。
有兩種形式的重復存在於計算機數據中，zip就是對這兩種重復進行了壓縮。
一種是短語形式的重復，即三個位元組以上的重復，對於這種重復，zip用兩個數字：1.重復位置距當前壓縮位置的距離；2.重復的長度，來表示這個重復，假設這兩個數字各佔一個位元組，於是數據便得到了壓縮，這很容易理解。
一個位元組有 0 - 255 共 256 種可能的取值，三個位元組有 256 * 256 * 256 共一千六百多萬種可能的情況，更長的短語取值的可能情況以指數方式增長，出現重復的概率似乎極低，實則不然，各種類型的數據都有出現重復的傾向，一篇論文中，為數不多的術語傾向於重復出現；一篇小說，人名和地名會重復出現；一張上下漸變的背景圖片，水平方向上的像素會重復出現；程序的源文件中，語法關鍵字會重復出現（我們寫程序時，多少次前後、paste？），以幾十 K 為單位的非壓縮格式的數據中，傾向於大量出現短語式的重復。經過上面提到的方式進行壓縮後，短語式重復的傾向被完全破壞，所以在壓縮的結果上進行第二次短語式壓縮一般是沒有效果的。
第二種重復為單位元組的重復，一個位元組只有256種可能的取值，所以這種重復是必然的。其中，某些位元組出現次數可能較多，另一些則較少，在統計上有分布不均勻的傾向，這是容易理解的，比如一個 ASCII 文本文件中，某些符號可能很少用到，而字母和數字則使用較多，各字母的使用頻率也是不一樣的，據說字母 e 的使用概率最高；許多圖片呈現深色調或淺色調，深色（或淺色）的像素使用較多（這里順便提一下：png 圖片格式是一種無損壓縮，其核心演算法就是 zip 演算法，它和 zip 格式的文件的主要區別在於：作為一種圖片格式，它在文件頭處存放了圖片的大小、使用的顏色數等信息）；上面提到的短語式壓縮的結果也有這種傾向：重復傾向於出現在離當前壓縮位置較近的地方，重復長度傾向於比較短（20位元組以內）。這樣，就有了壓縮的可能：給 256 種位元組取值重新編碼，使出現較多的位元組使用較短的編碼，出現較少的位元組使用較長的編碼，這樣一來，變短的位元組相對於變長的位元組更多，文件的總長度就會減少，並且，位元組使用比例越不均勻，壓縮比例就越大。

J. 文件的壓縮原理是什麼

電腦里文件都是以二進制儲存的。壓縮原理就是通過特定的演算法，將文件轉化，而轉化以後的文件佔用的空間較小。
舉個簡單得例子（當然這個例子應該有點問題，但是能說明問題）：
原始文件：111110000001
演算法：當連續同樣的1或者0的個數超過5個，則將其轉化成XX1或者XX0得形式；如果不超過5個，保持不變。XX是連續的1或者0的個數，如果連續數量較多，XX得位數可以增加。
於是11111可以表示成5個1，寫成二進制就是1011；000000可以表示成6個0，寫成二進制就是1100；而1保持不變。
這樣，轉化以後的文件就變成了101111001
可見，原始文件需要12個存儲位置，而轉化後的文件只需要9個存儲位置。
當然，實際上壓縮得演算法多種多樣，要比這個例子復雜的多。根據文件種類的不同壓縮演算法也經常不同。

導航:首頁 > 文件處理 > 數據壓縮原理的認識

數據壓縮原理的認識

與數據壓縮原理的認識相關的資料