bmp壓縮演算法_求一個c++的用lzw（字典）演算法來壓縮bmp圖片的代碼

⑴ bmp鍥劇墖鍘嬬緝綆楁硶-濡備綍鍘嬬緝BMP鏍煎紡鐨勫浘鐗囷紝騫朵嬌寰楀浘鐗囦粛鐒惰兘淇濇寔娓呮櫚錛

BMP鍥懼儚鍘嬬緝綆楁硶

BMP鏄疻indows涓嬬殑浣嶅浘鏂囦歡,灞炰簬瀹屽叏涓嶅帇緙╃殑鍥劇墖鏂囦歡,鍖呭惈鐨勬槸鍥劇墖姣忎釜鍍忕礌鐐瑰圭偣鐨勪俊鎮銆俽gb涓夐氶亾24浣嶇殑璇濇瘡閫氶亾鏄8浣,涔熷氨鏄2鐨8嬈℃柟鐨勫皬瀛楄妭(8b=1B,1024B=1KB),鍗充負姣忎釜鐐圭殑姣忎釜閫氶亾鍙浠ユ湁2鐨8嬈℃柟縐嶉滆壊,涓涓鍍忕礌鎵鍖呭惈鐨勯滆壊灝辨槸2鐨24嬈℃柟縐嶃傚彲浠ユ牴鎹鍥懼儚鐨勫儚緔犲拰浣嶆繁鏍囧噯鐨勮＄畻鍑哄浘鐗囩殑澶у皬銆備絾鏄痡pg絳夌瓑榪欑嶅帇緙╂枃浠跺彧鑳藉ぇ姒備及璁℃枃浠舵湁澶氬ぇ鏃犳硶綺劇『璁＄畻鐨勩傛瘮濡1600*1200鍥劇墖24浣嶇殑:

姣忎釜鍍忕礌鐨勬瘡涓閫氶亾鏈8b,鍗蟲墜濡備負2鐨8嬈℃柟綰х伆闃,鍗犵敤絀洪棿涓1B,涓変釜閫氶亾灝辨槸3B,榪欎釜鍥劇殑澶у皬鍗充負3*1600*1200B

鎹㈢畻鎴怣鐨勮瘽灝辨槸3*1600*1200/1024/1024=5.4931640625M

鎬庝箞鍘嬬緝bmp鏍煎紡鐨勫浘鐗囧ぇ灝

bmp鏍煎紡涓嶈兘鍘嬬緝鐨,瑕佸噺灝忎綋縐鍙鑳借鍘嬬緝鎴恓pg鎴栬卲ng鏍煎紡浜嗐傜敤榪欎釜鍦ㄧ嚎鍥劇墖鍘嬬緝宸ュ叿璇曡瘯鍚,鍙浠ュ帇緙゜mp鏍煎紡,鎯蟲妸鍥劇墖鏂囦歡鐨勫ぇ灝忓噺鍒板氬皯閮借,鐩存帴璁劇疆涓涓嬫暟鍊煎氨鎼炲畾,椹涓婄灛闂村氨鑳藉帇緙╁畬銆

鍦ㄧ嚎鏅鴻兘鍘嬬緝鍥劇墖澶у皬,鍥劇墖鍘嬬緝浣撶Н

鍦ㄧ嚎鍥劇墖鏅鴻兘鍘嬬緝浣跨敤姝ユ瘯楂樺惎楠:

涓銆侀栧厛鐐瑰嚮鍔犲彿娣誨姞闇瑕佸帇緙╃殑鍥劇墖銆傜洰鍓嶅凡鐭ユ敮鎸佸筳pg銆乸ng絳夊氱嶅父瑙佺殑鍥劇墖鏍煎紡榪涜屽帇緙,濡傛灉涓婁紶鍥劇墖騫跺帇緙╂垚鍔,鍒欎唬琛ㄦ敮鎸佽ュ浘鐗囨牸寮忋

浜屻佸彲浠ヨ嚜琛屼慨鏀瑰浘鐗囬渶瑕佽鍘嬬緝鍒扮殑鏈澶у介珮灝哄,榛樿や負鍥劇墖鍘熷嬬殑瀹介珮灝哄,涓斿介珮姣斾緥鏄鑷鍔ㄩ攣瀹氱殑銆

涓夈佸繀欏昏劇疆鍥劇墖琚鍘嬬緝鍚,鏈熸湜杈撳嚭鐨勫浘鐗囨枃浠剁殑鏈澶у崰鐢ㄧ┖闂淬(蹇呭～欏)

鍥涖侀夋嫨鍥劇墖鐢熸垚鐨勭畻娉曘傞粯璁や負娣峰悎浼樺厛綆楁硶,緇濆ぇ澶氭暟鎯呭喌涓嬩嬌鐢ㄩ粯璁ょ畻娉曞嵆鍙銆

浜斻佸帇緙╃殑璁懼畾鍊間笉鑳藉皬浜1Kb,浣嗗浘鐗囧帇緙╃殑鏈緇堟晥鏋滃彲浠ュ皬浜1Kb銆

butterpig

濡備綍鍘嬬緝BMP鏍煎紡鐨勫浘鐗囷紝騫朵嬌寰楀浘鐗囦粛鐒惰兘淇濇寔娓呮櫚錛

鍦ㄧ嚎鏅鴻兘鍘嬬緝鍥劇墖澶у皬,鍥劇墖鍘嬬緝浣撶Н

鍦ㄧ嚎鍥劇墖鏅鴻兘鍘嬬緝浣跨敤姝ラ:

浜屻佸彲浠ヨ嚜琛屼慨鏀瑰浘鐗囬渶瑕佽鍘嬬緝鍒扮殑鏈澶у介珮灝哄,榛樿や負鍥劇墖鍘熷嬬殑瀹介珮灝哄,涓斿介珮姣斾緥鏄鑷鍔ㄩ攣瀹氱殑銆

涓夈佸繀欏誨康娓楄劇疆鍥劇墖琚鍘嬬緝鍚,鏈熸湜杈撳嚭鐨勫浘鐗囨枃浠剁殑鏈澶у崰鐢ㄧ┖闂淬(蹇呭～欏)

鍥涖侀夋嫨鍥劇墖鐢熸垚鐨勭畻娉曘傞粯璁や負娣峰悎浼樺厛綆楁硶,緇濆ぇ澶氭暟鎯呭喌涓嬩嬌鐢ㄩ粯璁ょ畻娉曞嵆鍙銆

浜斻佸帇緙╃殑璁懼畾鍊間笉鑳藉皬浜1Kb,浣嗗浘鐗囧帇緙╃殑鏈緇堟晥鏋滃彲浠ュ皬浜1Kb銆

butterpig

⑵ 求一個c++的用lzw（字典）演算法來壓縮bmp圖片的代碼

參見gif壓縮演算法源代碼。

1.LZW的全稱是什麼?
Lempel-Ziv-Welch (LZW).
2. LZW的簡介和壓縮原理是什麼？
LZW壓縮演算法是一種新穎的壓縮方法，由Lemple-Ziv-Welch 三人共同創造，用他們的名字命名。它採用了一種先進的串表壓縮，將每個第一次出現的串放在一個串表中，用一個數字來表示串，壓縮文件只存貯數字，則不存貯串，從而使圖象文件的壓縮效率得到較大的提高。奇妙的是，不管是在壓縮還是在解壓縮的過程中都能正確的建立這個串表，壓縮或解壓縮完成後，這個串表又被丟棄。
LZW演算法中，首先建立一個字元串表，把每一個第一次出現的字元串放入串表中，並用一個數字來表示，這個數字與此字元串在串表中的位置有關，並將這個數字存入壓縮文件中，如果這個字元串再次出現時，即可用表示它的數字來代替，並將這個數字存入文件中。壓縮完成後將串表丟棄。如"print" 字元串，如果在壓縮時用266表示，只要再次出現，均用266表示，並將"print"字元串存入串表中，在圖象解碼時遇到數字266，即可從串表中查出266所代表的字元串"print"，在解壓縮時，串表可以根據壓縮數據重新生成。
3.在詳細介紹演算法之前，先列出一些與該演算法相關的概念和詞彙
1)'Character': 字元，一種基礎數據元素，在普通文本文件中，它佔用1個單獨的byte，而在圖像中，它卻是一種代表給定像素顏色的索引值。
2)'CharStream'：數據文件中的字元流。
3)'Prefix':前綴。如這個單詞的含義一樣，代表著在一個字元最直接的前一個字元。一個前綴字元長度可以為0,一個prefix和一個character可以組成一個字元串(string),
4)'Suffix': 後綴，是一個字元，一個字元串可以由(A,B)來組成，A是前綴,B是後綴,當A長度為0的時候，代表Root，根
5)'Code:碼,用於代表一個字元串的位置編碼
6)'Entry'，一個Code和它所代表的字元串(string)
4.壓縮演算法的簡單示例，不是完全實現LZW演算法，只是從最直觀的角度看lzw演算法的思想
對原始數據ABCCAABCDDAACCDB進行LZW壓縮
原始數據中，只包括4個字元(Character),A,B,C,D,四個字元可以用一個2bit的數表示，0-A,1-B,2-C,3-D,從最直觀的角度看，原始字元串存在重復字元：ABCCAABCDDAACCDB，用4代表AB,5代表CC，上面的字元串可以替代表示為:45A4CDDAA5DB,這樣是不是就比原數據短了一些呢！
5.LZW演算法的適用范圍
為了區別代表串的值(Code)和原來的單個的數據值(String)，需要使它們的數值域不重合，上面用0-3來代表A-D,那麼AB就必須用大於3的數值來代替，再舉另外一個例子，原來的數值范圍可以用8bit來表示，那麼就認為原始的數的范圍是0～255，壓縮程序生成的標號的范圍就不能為0～255（如果是0-255，就重復了）。只能從256開始，但是這樣一來就超過了8位的表示範圍了，所以必須要擴展數據的位數，至少擴展一位，但是這樣不是增加了1個字元佔用的空間了么？但是卻可以用一個字元代表幾個字元，比如原來255是8bit,但是現在用256來表示254，255兩個數，還是劃得來的。從這個原理可以看出LZW演算法的適用范圍是原始數據串最好是有大量的子串多次重復出現，重復的越多，壓縮效果越好。反之則越差，可能真的不減反增了。
6.LZW演算法中特殊標記
隨著新的串(string)不斷被發現，標號也會不斷地增長，如果原數據過大，生成的標號集（string table)會越來越大，這時候操作這個集合就會產生效率問題。如何避免這個問題呢?Gif在採用lzw演算法的做法是當標號集足夠大的時候，就不能增大了，乾脆從頭開始再來，在這個位置要插入一個標號，就是清除標志CLEAR，表示從這里我重新開始構造字典，以前的所有標記作廢，開始使用新的標記。
這時候又有一個問題出現，足夠大是多大？這個標號集的大小為比較合適呢？理論上是標號集大小越大，則壓縮比率就越高，但開銷也越高。一般根據處理速度和內存空間連個因素來選定。GIF規范規定的是12位，超過12位的表達范圍就推倒重來，並且GIF為了提高壓縮率，採用的是變長的字長。比如說原始數據是8位，那麼一開始，先加上一位再說，開始的字長就成了9位，然後開始加標號，當標號加到512時，也就是超過9為所能表達的最大數據時，也就意味著後面的標號要用10位字長才能表示了，那麼從這里開始，後面的字長就是10位了。依此類推，到了2^12也就是4096時，在這里插一個清除標志，從後面開始，從9位再來。
GIF規定的清除標志CLEAR的數值是原始數據字長表示的最大值加1，如果原始數據字長是8，那麼清除標志就是256，如果原始數據字長為4那麼就是16。另外GIF還規定了一個結束標志END，它的值是清除標志CLEAR再加1。由於GIF規定的位數有1位（單色圖），4位（16色）和8位（256色），而1位的情況下如果只擴展1位，只能表示4種狀態，那麼加上一個清除標志和結束標志就用完了，所以1位的情況下就必須擴充到3位。其它兩種情況初始的字長就為5位和9位。此處參照了http://blog.csdn.net/whycadi/
7.用lzw演算法壓縮原始數據的示例分析
輸入流，也就是原始的數據為:255,24,54,255,24,255,255,24,5,123,45,255,24,5,24,54..................
這個正好可以看到是gif文件中像素數組的一部分，如何對它進行壓縮
因為原始數據可以用8bit來表示，故清除標志Clear=255+1 =256,結束標志為End=256+1=257，目前標號集為
0 1 2 3 .................................................................................255 CLEAR END
第一步,讀取第一個字元為255,在標記表裡面查找，255已經存在，我們已經認識255了，不做處理
第二步,取第二個字元，此時前綴為A,形成當前的Entry為(255,24),在標記集合不存在，我們並不認識255,24好，這次你小子來了，我就記住你，把它在標記集合中標記為258,然後輸出前綴A,保留後綴24，並作為下一次的前綴（後綴變前綴)
第三步，取第三個字元為54，當前Entry(24,54),不認識，記錄(24,54)為標號259,並輸出24,後綴變前綴
第四部：取第四個字元255,Entry=(54,255),不認識，記錄(54,255)為標號260,輸出54,後綴變前綴
第五步取第5個字元24，entry=(255,24),啊，認識你，這不是老258么，於是把字元串規約為258，並作為前綴
第六步取第六個字元255,entry=(258,255)，不認識，記錄(258,255)為261,輸出258,後綴變前綴
.......
一直處理到最後一個字元,
用一個表記錄處理過程
CLEAR=256,END=257
第幾步前綴後綴 Entry 認識(Y/N) 輸出標號
1 255 （，255）
2 255 24 (255,24) N 255 258
3 24 54 (24,54) N 24 259
4 54 255 (54,255) N 54 260
5 255 24 (255,24) Y
6 258 255 (258,255) N 258 261
7 255 255 (255,255) N 255 262
.....
上面這個示例有些不能完整體現，另外一個例子是
原輸入數據為:A B A B A B A B B B A B A B A A C D A C D A D C A B A A A B A B .....
採用LZW演算法對其進行壓縮，壓縮過程用一個表來表述為:
注意原數據中只包含4個character,A,B,C,D
用兩bit即可表述，根據lzw演算法，首先擴展一位變為3為,Clear=2的2次方+1=4; End=4+1=5;
初始標號集因該為

0 1 2 3 4 5
A B C D Clear End

而壓縮過程為:

第幾步前綴後綴 Entry 認識(Y/N) 輸出標號
1 A （，A）
2 A B (A,B) N A 6
3 B A (B,A) N B 7
4 A B (A,B) Y
5 6 A (6,A) N 6 8
6 A B (A,B) Y
7 6 A (6,A) Y
8 8 B (8,B) N 8 9
9 B B (B,B) N B 10
10 B B (B,B) Y
11 10 A (10,A) N 10 11
12 A B (A,B) Y

.....
當進行到第12步的時候，標號集應該為

0 1 2 3 4 5 6 7 8 9 10 11
A B C D Clear End AB BA 6A 8B BB 10A

8.LZW演算法的偽代碼實現

1STRING = get input character
2WHILE there are still input characters DO
3 CHARACTER = get input character
4 IF STRING+CHARACTER is in the string table then
5 STRING = STRING+character
6 ELSE
7 output the code for STRING
8 add STRING+CHARACTER to the string table
9 STRING = CHARACTER
10 END of IF
11END of WHILE
12output the code for STRING
13

導航:首頁 > 源碼編譯 > bmp壓縮演算法

bmp壓縮演算法

與bmp壓縮演算法相關的資料