C語言經典的無損壓縮演算法有:哈夫曼演算法、LZ。
哈夫曼演算法:
哈夫曼編碼是David A. Huffman於1952年發明的一種滿足對編碼演算法要求的一種編碼演算法。
哈夫曼演算法是利用頻率信息構造一棵二叉樹,頻率高的離根節點近(編碼長度短),頻率低的離根節點遠(編碼長度長),手動構造方法是先將字母按照頻率從小到大排序,然後不斷選擇當前還沒有父節點的節點中權值最小的兩個,構造新的父節點,父節點的值為這兩個節點值的和,直到構造成一棵二叉樹。
LZ演算法:
LZ演算法及其衍生變形演算法是壓縮演算法的一個系列。LZ77和LZ78演算法分別在1977年和1978年被創造出來。雖然他們名字差不多,但是演算法方法完全不同。這一系列演算法主要適用於字母數量有限的信息,比如文字、源碼等。流行的GIF和PNG格式的圖像,使用顏色數量有限的顏色空間,其壓縮就採用了兩種演算法的靈活變形應用。
2. 壓縮的演算法都有哪些
只有最常見的zip的,估計你都要研究上n久了。。。
文本文件一般有zip,rar,
網頁文件有htz
視頻文件有rm,avi
語音文件有mp3,
圖片文件有png,gif,jpg
這些都是文件壓縮的。。。。
------------------------------------
ZIP文件的總體格式
分文件頭信息+文件壓縮數據
中心目錄+中心目錄記錄結束符
1.分文件頭信息:
位元組數 描述
4 分文件頭信息標志(0x04034b50)
2 解壓縮所需版本
2 通用比特標志位(置比特0位=加密;置比特1位=使用壓
縮方式6,並使用8k變化目錄,否則使用4k變化目錄;置比特2位=使用壓
縮方式6,並使用3個ShannonFano樹對變化目錄輸出編碼,否則使用2個
ShannonFano樹對變化目錄輸出編碼,其它比特位未用)
2 壓縮方式(0=不壓縮,1=縮小,2=以壓縮因素1縮小,3=以
壓縮因素2縮小,4=以壓縮因素3縮小,5=以壓縮因素4縮小,6=自展)
2 文件最後修改時間
2 文件最後修改日期
4 32位校驗碼
4 壓縮文件大小
4 未壓縮文件大小
2 文件名長
2 擴展段長
? 文件名(不定長)
? 擴展段(不定長)
2.中心目錄結構
文件頭信息...中心目錄記錄結束符
文件頭:
位元組數 描述
4 中心文件頭信息標志(0x02014b50)
2 主機操作系統(高位位元組表示主機操作系統,低位字
節表示ZIP壓縮軟體版本號,其值除以10表示主版本號,其值模10表示
次版本號。0=MS-DOS,OS/2 FAT文件系統,1=Ami ga,2=VMS,3=Unix及
變種,4=VM/CMS,5=AtariST,6=OS/2 HPFS,7=Macintosh,8=Z-System,9
=C P/M,10-255未用)
2 解壓縮所需版本
2 通用比特標志
2 壓縮方式
2 文件最後修改時間(用標準的MS-DOS時間日 期格式
編碼)
2 文件最後修改日期
4 32位校驗碼(使用David Schwaderer的CRC-32演算法產
生)
4 壓縮文件大小
4 未壓縮文件大小
2 文件名長
2 擴展段長
2 文件注釋長(分別為文件名長,擴展段,注釋 段,小於
64K)
2 磁碟起始號(本文件在磁碟中的起始號)
2 內部文件屬性(最低位若置1,表示為ASC文本,否則為
二進制數據,其它位未用)
4 外部文件屬性(依賴於主機操作系統)
4 分文件頭相對位移
? 文件名(不定長)
? 擴展段(不定長,用於未來擴展,低版本為0長)
? 文件注釋(不定長)
3.中心目錄記錄結束符
位元組數 描述
4 中心目錄標記結束符(0x06054b50)
2 磁碟號(其中包括中心目錄結束記錄)
2 磁碟中心目錄起始號
2 磁碟中心目錄入口總數
2 中心目錄入口總數(ZIP文件中的文件總數)
2 整個中心目錄大小
4 關於起始磁碟號的中心目錄初始偏移
2 ZIP文件注釋長度
? ZIP文件注釋(不定長)
加密方法
PKZIP中使用的加密方法由Roger Schlafly提供。ZIP文件在解壓
縮前必須先解密。每個加密文件具有一個12位元組的加密文件頭擴展信
息,存儲於數據區的起始位置,加密前先設置一個起始值,然後被三個3
2位的密鑰加密。密鑰被使用者提供的口令初始化。12個位元組加密之
後,由PKZIP的偽隨機數產生方法,結合PKZIP中使用CRC-32演算法對密鑰
進行更新。
具體實施分為三步:
1.用口令對三個32位密鑰初始化。
K(0)=305419896,K(1)=591751049,K(2)=878082192
循環 for i=0 to length(password)-1
調用更新密鑰函數 update_keys(password(i))
結束循環(循環口令長度次)
其中更新密鑰函數為:
update_keys(char):
Key(0)=crc32(key(0),char)
Key(1)=Key(1)+(Key(0)& 000000ffH)
Key(1)=Key(1)*134775813+1
Key(2)=crc32(Key(2),Key(1)〉〉24)
end update_keys
CRC32函數中,給定一個4位元組的CRC值和一個字元,返回一個由CRC
-32演算法更新的CRC。具體為:
crc32(c,b)=crc32tab[(c^b)&0xff]^(c>>8),crc32tab[256]的值
為固定的256個4位元組數。
2.讀取並加密12位元組的加密頭,再次對密鑰進行初始化。
將12個位元組的加密頭讀入緩沖區buffer(0)至buffer(11),循環fo
r i=0 to 11
C=buffer(i)^decrypt_byte()
update_keys(C)
buffer(i)=C
結束循環(循環12次)
其中的decrypt_byte()函數為:
unsigned char decrypt_byte()
local unsigned short temp
temp=Key(2)¦2
decrypt_byte=((temp*(temp^1))>>8)&0xff
end decrypt_byte
該步結束後,緩沖區中最後的二個位元組buffer(10)和buffer(11)
將成為加密文件校驗碼的二個最高位(按低至高順序存放)。對ZIP加
密文件進行解壓縮前,PKUNZIP軟體將使用者提供的口令按上述二個步
驟進行處理,得到的結果與校驗碼的二個高位位元組進行比較,只有當提
供了正確的口令時,結果一致,才能進行後續的解壓縮過程,否則,PKZI
P報告錯誤信息,程序自動結束。
3.讀取壓縮的數據流並以加密密鑰對其進行加密。
壓縮數據流按下述過程加密:
循環 直至數據流結束
C=數據流的一個位元組
temp=C^decrypt_byte()
update_keys(temp)
輸出temp
結束循環
3. 常用的數據壓縮演算法有哪些
1、RLE演算法:又叫Run Length Encoding,是一個針對無損壓縮的非常簡單的演算法。它用重復字虧判念節和重復的次數來簡單描述來代替重復的位元組。
2、哈夫曼演算法:無損壓縮當中最好的方法。它使用預先二進制描述來替換每個符號,長度由特殊符號出現的頻率決定。常見的符號需要很少的位來表示沖頌,而不常見的符號需要很多為來表示。
3、Rice演算法:對於由大word組成銷困的數據和教低的數據值,Rice 編碼能夠獲得較好的壓縮比。
4. 數據壓縮演算法可分無損壓縮和( )壓縮兩種
有損壓縮。無損壓縮是指對原數據毫無損害完全保留陸盯,橘悉含有損是指犧牲一圓笑部分數據真實性且對原數據影響不大的情況下,換取更小的壓縮後存儲空間。
5. 數據壓縮
數據壓縮技術主要研究數據的表示、傳輸和轉換方法,目的是減少數據所佔據的存儲空間和縮短數據傳輸時所需要的時間。
衡量數據壓縮的3個主要指標:一是壓縮前後所需的信息存儲量之比要大;二是實現壓縮的演算法要簡單,壓縮、解壓縮速度快,要盡可能做到實時壓縮和解壓縮;三是恢復效果要好,要盡可能完全恢復原始數據。
數據壓縮主要應用於兩個方面。一是傳輸:通過壓縮發送端的原始數據,並在接收端進行解壓恢復,可以有效地減少傳輸時間和增加信道帶寬。二是存儲:在存儲時壓縮原始數據,在使用時進行解壓,可大大提高存儲介質的存儲量。
數據壓縮按照壓縮的失真度分成兩種類型:一種叫作無損壓縮,另一種叫作有損壓縮。
無損壓縮是指使用壓縮後的數據進行重構(或者叫作還原、解壓縮),重構後的數據與原來的數據完全相同;無損壓縮用於要求重構的信號與原始信號完全一致的場合。一個很常見的例子是磁碟文件的壓縮。根據目前的技術水平,無損壓縮演算法一般可以把普通文件的數據壓縮到原來的1/4~1/2。一些常用的無損壓縮演算法有霍夫曼(Huffman)演算法、算術演算法、遊程演算法和LZW(Lenpel-Ziv & Welch)壓縮演算法。
1)霍夫曼演算法屬於統計式壓縮方法,其原理是根據原始數據符號發生的概率進行編碼。在原始數據中出現概率越高的符合,相應的碼長越短,出現概率越少的符合,其碼長越長。從而達到用盡可能少的符號來表示原始數據,實現對數據的壓縮。
2)算術演算法是基於統計原理,無損壓縮效率最高的演算法。即將整段要壓縮的數據映射到一段實數半封閉的范圍[0,1)內的某一區段。該區段的范圍或寬度等於該段信息概率。即是所有使用在該信息內的符號出現概率全部相乘後的概率值。當要被編碼的信息越來越長時,用來代表該信息的區段就會越來越窄,用來表示這個區段的位就會增加。
3)遊程演算法是針對一些文本數據特點所設計的壓縮方法。主要是去除文本中的冗餘字元或位元組中的冗餘位,從而達到減少數據文件所佔的存儲空間。壓縮處理流程類似於空白壓縮,區別是在壓縮指示字元之後加上一個字元,用於表明壓縮對象,隨後是該字元的重復次數。本演算法具有局限性,很少單獨使用,多與其他演算法配合使用。
4)LZW演算法的原理是用字典詞條的編碼代替在壓縮數據中的字元串。因此字典中的詞條越多,壓縮率越高,加大字典的容量可以提高壓縮率。字典的容量受計算機的內存限制。
有損壓縮是指使用壓縮後的數據進行重構,重構後的數據與原來的數據有所不同,但不影響人對原始資料表達的信息造成誤解。有損壓縮適用於重構信號不一定非要和原始信號完全相同的場合。例如,圖像和聲音的壓縮就可以採用有損壓縮,因為其中包含的數據往往多於我們的視覺系統和聽覺系統所能接收的信息,丟掉一些數據而不至於對聲音或者圖像所表達的意思產生誤解,但可大大提高壓縮比。
6. 無失真壓縮法可以恢復原始數據嗎
無損壓縮演算法由於在壓縮的時候記錄了所有原始數據的信息,所以在解壓後可以跟原始數據一樣
7. 我想問一下數據壓縮的兩種方法
數據壓縮的兩種方法是無損壓縮和有損壓縮。
數據壓縮是指在不丟失信息的前提下,縮減數據量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術碼啟方法。或按照一定的演算法對數據進行重新組織,減少數據的冗餘和存儲的空間。對於任何形式的通信來說,只有當信息的發送方和接受方都能夠理解編碼機制的知迅時候壓縮數據通信才能夠工作。例如,只有當接受方知道這篇文章需要用英語字元解釋的時候這篇文章才有意義。同樣,只有當接受方知道編碼方法的時候他才能夠理解壓縮數據。一些壓縮演算法利用了這個特性,在壓縮過程中對數據進行加密,例如利用密碼加密,以保證只有得到授權的一方才能正確地得到數據。數據壓縮能夠實現是因為多數現實世界的數據都有統計冗餘。無損壓縮演算法通常遲猛如利用了統計冗餘,這樣就能更加簡練地、但仍然是完整地表示發送方的數據。
更多關於數據壓縮的兩種方法,進入:https://m.abcgonglue.com/ask/a6d3301615837126.html?zd查看更多內容
8. 壓縮文件處理
1.偽加密
如果壓縮文件是加密的,或文件頭正常但解壓錯誤,首先嘗試文件是否為偽加密。zip文件是否加密是通過標識符來顯示的,在每個文件的文件目錄欄位有一位專門標識了文件是否加密,將其設置為00表示該文件未加密,如果成功解壓則文件為偽加密,如果解壓出錯則改文件為真加密
使用場景:偽加密文件
zip文件
1.1winhex打開文件搜索十六進制504B0102,可以看到每個加密文件的文件頭部
1.2從50開始計算,第九個和第十個字元為加密欄位,將其設置為0000即可變成無加密狀態
rar文件
rar文件由於有頭部校驗,使用偽加密時打開文件會報錯,使用winhex修改標志位後如報錯消失且正常解壓縮,說明是偽加密,使用winhex打開rar文件,找到第24個位元組,該位元組尾數為4表示加密,0表示無加密,將尾數改為0即可破除偽加密。
2.暴力破解
通常我們可以使用ARCHPR.exe工具來破解rar文件,使用ziperello破解zip文件
使用場景:windows下加密的壓縮文件
3.明文攻擊
明文攻擊有兩個注意點: 1. 明文文件壓縮演算法要與原壓縮文件壓縮演算法相同
2.明文文件壓縮後CRC值與加密壓縮包中的文件一致
4.rar文件格式
有時候給出的RAR文件的頭部各個字塊會故意給錯導致無法識別
從文件頭部開始數第三個位元組
9. 壓縮演算法
#include<stdio.h>
main(){
int i,a[34]={1,4,6,8,9,3,0,0,8,5,3,3,3,4,7,1,1,1,1,1,0,1,7,7,7,7,7,7,7,7,5,5,6,6};
for(i=0;i<32;i++){
if(a[i]==a[i+1]&&a[i]==a[i+2])
printf("2 ");
else
printf("1 ");
}
}
10. 數據無損壓縮技術到底怎麼實現的
無損數據壓縮(Lossless Compression)是指使用壓縮後的數據進行重構(或者叫做還原,解壓縮),重構後的數據與原來的數據完全相同;無損壓縮用於要求重構的信號與原始信號完全一致的場合。也就是說數據經過壓縮後信息不受損失,還能完全恢復到壓縮前的原樣。它和有損數據壓縮相對。這種壓縮通常壓縮比小於有損數據壓縮的壓縮比。
一個很常見的例子是磁碟文件的壓縮。根據目前的技術水平,無損壓縮演算法一般可以把普通文件的數據壓縮到原來的1/2~1/4。一些常用的無損壓縮演算法有霍夫曼(Huffman)演算法和LZW(Lenpel-Ziv & Welch)壓縮演算法。