压缩信息熵_文件解压和压缩是看什么速度

⑴ 信息熵越大说明什么

说明事件的不确定性越大。熵越高，说明事件的不确定性越大。而信息不确定性越大时，该信息的价值越高。

计算公式：H =∑p(x) log (1/p(x))，p(x)是概率。通俗解释：

0、单位都是比较出来的，如3kg，是和1kg比较才出来的，所以先定义最基本的不确定性作为标准。

1、熵的单位是比特bits，定义最基本的情况是：做两次等概率事件，才会出现一次结果，对于这种级别的不确定性，定义为1bits，即log2。

3、则显然概率为1/4，则4/1次（倒数）才会出现一次，熵为log4=2。

4、概率为2/5，做5/2次才会出现一次，熵为log5/2。

通俗解释：

1、代表信息的有用程度，越有用信息熵越大，负数是不可能的，我说句话不影响别人也可以影响我自己啊。

2、代表信息的压缩大小，一段话里面有重复的，把重复的去掉就等于压缩，这个压缩的极限就是信息熵。

⑵ 1个多G的游戏压缩成几百兆的安装文件是什么原理

压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的.
由于计算机处理的信息是以二进制数的形式表示的，因此压缩软件就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的。为了有助于理解文件压缩，请您在脑海里想象一幅蓝天白云的图片。对于成千上万单调重复的蓝色像点而言，与其一个一个定义“蓝、蓝、蓝……”长长的一串颜色，还不如告诉电脑：“从这个位置开始存储1117个蓝色像点”来得简洁，而且还能大大节约存储空间。这是一个非常简单的图像压缩的例子。其实，所有的计算机文件归根结底都是以“1”和“0”的形式存储的，和蓝色像点一样，只要通过合理的数学计算公式，文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。总的来说，压缩可以分为有损和无损压缩两种。如果丢失个别的数据不会造成太大的影响，这时忽略它们是个好主意，这就是有损压缩。有损压缩广泛应用于动画、声音和图像文件中，典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。但是更多情况下压缩数据必须准确无误，人们便设计出了无损压缩格式，比如常见的zip、rar等。压缩软件（compression software）自然就是利用压缩原理压缩数据的工具，压缩后所生成的文件称为压缩包（archive），体积只有原来的几分之一甚至更小。当然，压缩包已经是另一种文件格式了，如果你想使用其中的数据，首先得用压缩软件把数据还原，这个过程称作解压缩。常见的压缩软件有winzip、winrar等。
有两种形式的重复存在于计算机数据中，zip就是对这两种重复进行了压缩。
一种是短语形式的重复，即三个字节以上的重复，对于这种重复，zip用两个数字：1.重复位置距当前压缩位置的距离；2.重复的长度，来表示这个重复，假设这两个数字各占一个字节，于是数据便得到了压缩，这很容易理解。
一个字节有 0 - 255 共 256 种可能的取值，三个字节有 256 * 256 * 256 共一千六百多万种可能的情况，更长的短语取值的可能情况以指数方式增长，出现重复的概率似乎极低，实则不然，各种类型的数据都有出现重复的倾向，一篇论文中，为数不多的术语倾向于重复出现；一篇小说，人名和地名会重复出现；一张上下渐变的背景图片，水平方向上的像素会重复出现；程序的源文件中，语法关键字会重复出现（我们写程序时，多少次前后、paste？），以几十 K 为单位的非压缩格式的数据中，倾向于大量出现短语式的重复。经过上面提到的方式进行压缩后，短语式重复的倾向被完全破坏，所以在压缩的结果上进行第二次短语式压缩一般是没有效果的。
第二种重复为单字节的重复，一个字节只有256种可能的取值，所以这种重复是必然的。其中，某些字节出现次数可能较多，另一些则较少，在统计上有分布不均匀的倾向，这是容易理解的，比如一个 ASCII 文本文件中，某些符号可能很少用到，而字母和数字则使用较多，各字母的使用频率也是不一样的，据说字母 e 的使用概率最高；许多图片呈现深色调或浅色调，深色（或浅色）的像素使用较多（这里顺便提一下：png 图片格式是一种无损压缩，其核心算法就是 zip 算法，它和 zip 格式的文件的主要区别在于：作为一种图片格式，它在文件头处存放了图片的大小、使用的颜色数等信息）；上面提到的短语式压缩的结果也有这种倾向：重复倾向于出现在离当前压缩位置较近的地方，重复长度倾向于比较短（20字节以内）。这样，就有了压缩的可能：给 256 种字节取值重新编码，使出现较多的字节使用较短的编码，出现较少的字节使用较长的编码，这样一来，变短的字节相对于变长的字节更多，文件的总长度就会减少，并且，字节使用比例越不均匀，压缩比例就越大。

⑶ 什么是信源在允许一定失真的条件下，信源熵所能压缩的极限

1．统计编码原理──信息量和信息熵

根据香农信息论的原理，最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量，即要求保存信息熵，这种信息保持的编码又叫熵保存编码，或叫熵编码。熵编码是无失真压缩。当然在考虑人眼失真不易察觉的生理特性时，有些图像编码不严格要求熵保存，信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。
信息是用不确定性的量度定义的，也就是说信息被假设为由一系列的随机变量所代表，它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”。也就是要进行研究与压缩的对象。信息量

信息量指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也可以说是辨别N个事件中特定事件过程中所需提问“是”或“否”的最小次数。
例如：从64个数（1～64的整数）中选定某一个数（采用折半查找算法），提问：“是否大于32？”，则不论回答是与否，都消去半数的可能事件，如此下去，只要问6次这类问题，就可以从64个数中选定一个数，则所需的信息量是 =6（bit）。我们现在可以换一种方式定义信息量，也就是信息论中信息量的定义。
设从N中选定任一个数X的概率为P(x)，假定任选一个数的概率都相等，即P(x)=1/N，则信息量I (x)可定义为：

上式可随对数所用“底”的不同而取不同的值，因而其单位也就不同。设底取大于1的整数α，考虑一般物理器件的二态性，通常α取2，相应的信息量单位为比特（bit）；当α=e，相应的信息量单位为奈特（Nat）；当α=10，相应的信息量单位为哈特（Hart）。显然，当随机事件x发生的先验概率P(x)大时，算出的I(x)小，那么这个事件发生的可能性大，不确定性小，事件一旦发生后提供的信息量也少。必然事件的P(x)等于1， I(x)等于0，所以必然事件的消息报导，不含任何信息量；但是一件人们都没有估计到的事件（P(x)极小），一旦发生后，I(x)大，包含的信息量很大。所以随机事件的先验概率，与事件发生后所产生的信息量，有密切关系。I(x)称x发生后的自信息量，它也是一个随机变量。
P(x)大时，算出的I(x)小必然事件的P(x)等于1， I(x)等于0。
P(x)小时，算出的I(x)大必然事件的P(x)等于0， I(x)等于1。
I(x)称x发生后的自信息量，它也是一个随机变量。
信息熵

现在可以给“熵”下个定义了。信息量计算的是一个信源的某一个事件（X）的自信息量，而一个信源若由n个随机事件组成，n个随机事件的平均信息量就定义为熵(Entropy)。
熵的准确定义是：信源X发出的xj(j=1,2,……n), 共n个随机事件的自信息统计平均（求数学期望），即

H(X)在信息论中称为信源X的“熵（Entropy）” ，它的含义是信源X发出任意一个随机变量的平均信息量。

更详细的说，一般在解释和理解信息熵有4种样式
（1）当处于事件发生之前，H(X)是不确定性的度量；
（2）当处于事件发生之时，是一种惊奇性的度量；
（3）当处于事件发生之后，是获得信息的度量；
（4）还可以理解为是事件随机性的度量．下面为了掌握信息熵的概念，我们来做一道计算题。
例如：以信源X中有8个随机事件，即n=8。每一个随机事件的概率都相等，即P(x1)=P(x2)=P(x3)……P(x8)=1/8 ，计算信源X的熵。
应用“熵”的定义可得其平均信息量为3比特

再例：信源X中有17个随机事件，即n=17。每一个随机事件的概率分别为：

计算信源X的熵。
信息熵的计算公式：

信源X的熵：

定长码与变长码
定长码（fixed-length code）即采用相同的位数（bit）对数据进行编码。大多数存储数字信息的编码系统都采用定长码。如我们常用的ASCII码就是定长码，其码长为1字节（Byte）。汉字国标码也是定长码，其码长为2字节（Byte）。变长码（variable-length code）即采用不相同的位数（bit）对数据进行编码，以节省存储空间。例如，不同的字符或汉字出现的概率是不同的，有的字符出现的概率非常高，有的则非常低。根据统计，英文字母中“E”的使用概率约为13％，而字母“Z”的使用概率则为0.08％。又如大多数图像常含有单色的大面积图块，而且某些颜色比其他颜色出现更频繁。为了节省空间，在对数据进行编码时，就有可能对那些经常出现的数据指定较少的位数表示，而那些不常出现的数据指定较多的位数表示。这样从总的效果看还是节省了存储空间。用这种方法得到的代码，其码的位数，也即码长就是不固定的，故称为变长码。香农-范诺编码，以及霍夫曼编码，都是变长码。
2．赫夫曼（Huffman）编码基本原理：按信源符号出现的概率大小进行排序，出现概率大的分配短码，出现概率小的则分配长码。（定长码采用相同的码长对数据进行编码，如ASCII码是定长码，其码长为1字节。）
定理：在变长码中，对于出现概率在的信息符号编以短字长的码，对于出现概率小的信息符号以长字长的码，如果码字长度严格按照符号概率的大小的相反顺序排列，则平均码字长度一定小于按任何其他符号顺序排列方式得到的码字长度。
定理证明

设最佳排列方式的码字平均长度为，则有：

式中为信源符号出现的概率，是符号的编码长度。规定，。如果将的码字与的码字互换，其余码字不变，经过这样的互换以后，平均码字长度变成，即

因为，所以，也就是说最短。证毕。
Huffman编码的编码步骤

① 概率统计（如对一幅图像，或m幅同种类型图像作灰度信号统计），得到n个不同概率的信息符号。
② 将n个信源信息符号的n个概率，按概率大小排序。
③ 将n个概率中，最后两个小概率相加，这时概率个数减为n-1个。
④ 将n-1个概率，按大小重新排序。
⑤ 重复③，将新排序后的最后两个小概率再相加，相加和与其余概率再排序。
⑥ 如此反复重复n-2次，得到只剩两个概率序列。
⑦ 以二进制码元(0.1)赋值，构成霍夫曼码字。编码结束。

利用Huffman编码方式对信源进行编码

已知信源：
编码结果：平均码长：＝（0.35＋0.20）×2＋（0.15＋0.10＋0.10）×3＋（0.06＋0.04）×4＝2.55（bit）（对于等长码则需要3比特）。

Huffman编码的特点

（1）平均码长（熵）；
（2）平均码长 bits（等长码需要的比特数）；
（3）保证解码的唯一性，短码字不构成长码字的前缀；
（4）在接收端需保存一个与发送端相同的赫夫曼码表。 Huffman不足方面：（1）构造出的码不唯一，其原因是：一是在给两个分支赋值时，可以是左支（或上支）为0，也可以是右支（或下支）为0，造成编码的不唯一；二是当两个消息的概率相等时，谁前谁后也是随机的，构造出来的码字也不唯一。
（2）编码码字字长参差不齐，因此硬件实现起来不大方便。
（3）编码对不同信编码效率是不同的。在概率颁很不均匀时，Huffman编码才会有显着的效果，在信源颁均匀的情况下，一般不使用Huffman编码。
3．算术编码（Arithmetic Coding）算术编码方法也是利用信源概率分布特性、能够趋近熵极限的编码的方法。算术编码不按符号编码，即不是用一个特定的码字与输入符号之间建立一一对应的关系，而是从整个符号序列出发，采用递推形式进行连续编码，用一个单独的浮点数来表示一串输入符号。算术编码是将被编码的信息表示成实数0和1之间的一个间隔。信息越长编码表示它的间隙就越小，表示这一间隙所须二进位就越多，大概率符号出现的概率越大对应于区间愈宽，可用长度较短的码字表示；小概率符号出现概率越小层间愈窄，需要较长码字表示。它的编码方法比Huffman编码方式要复杂，但它不需要传送像Huffman编码中的Huffman码表，同时算术编码还有自适应的优点，所以算术编码是实现高效压缩数据中很有前途的编码方法。特点：方法比较复杂，具有自适应能力（随着编码符号流中01出现的概率的变化将自适应的改变）。在信源符号概率接近时，算术编码比Huffman编码效率要高。算术编码与解码举例

假设信源符号为{00, 01, 10, 11}，这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 }，根据这些概率可把间隔[0,1)分成4个子间隔：[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7, 1)，其中[x,y)表示半开放间隔，即包含x不包含y。上面的信息可综合在下表中。表信源符号，概率和初始编码间隔符号00011011概率0.10.40.20.3初始编码间隔[0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1)
如果二进制消息序列的输入为：10 00 11 00 10 11 01。编码时首先输入的符号是10，找到它的编码范围是[0.5, 0.7)。由于消息中第二个符号00的编码范围是[0, 0.1)，因此它的间隔就取[0.5, 0.7)的第一个十分之一作为新间隔[0.5, 0.52)。依此类推，编码第3个符号11时取新间隔为[0.514, 0.52)，编码第4个符号00时，取新间隔为[0.514, 0.5146)，… 。消息的编码输出可以是最后一个间隔中的任意数。整个编码过程如下图示：
表: 编码过程步骤输入符号编码间隔编码判决110[0.5, 0.7)符号的间隔范围[0.5, 0.7) 200[0.5, 0.52)[0.5, 0.7)间隔的第一个1/10311[0.514, 0.52)[0.5, 0.52)间隔的最后三个1/10400[0.514, 0.5146)[0.514, 0.52)间隔的第一个1/10510[0.5143, 0.51442)[0.514, 0.5146)间隔的第六个1/10开始的两个1/10611[0.514384, 0.51442)[0.5143, 0.51442)间隔的最后三个1/10701[0.5143836, 0.514402)[0.514384, 0.51442)间隔的从第二个1/10开始的四个1/108从[0.5143876, 0.514402中选择一个数作为输出：0.51439
表：译码过程步骤间隔译码符号译码判决 1[0.5, 0.7)100.51439在间隔 [0, 1) 第六个1/102[0.5, 0.52)000.51439在间隔 [0.5, 0.7)的第一个1/103[0.514, 0.52)110.51439在间隔[0.5, 0.52)的第八个1/104[0.514, 0.5146)000.51439在间隔[0.514, 0.52)的第一个1/105[0.5143, 0.51442)100.51439在间隔[0.514, 0.5146)的第七个1/106[0.514384, 0.51442)110.51439在间隔[0.5143, 0.51442)的第八个1/107[0.5143876, 0.514402)010.51439在间隔[0.5143876, 0.514402)的第二个1/108译码的消息：10 00 11 00 10 11 01译码器的译码过程应无限制地运行下去。在译码器中需要添加一个专门的终止符，当译码器看到终止符时就停止译码。在算术编码中需要注意的几个问题：
①由于实际的计算机的精度不可能无限长，运算中出现溢出是一个明显的问题，但多数机器都有16位、32位或者64位的精度，因此这个问题可使用比例缩放方法解决。
②算术编码器对整个消息只产生一个码字，这个码字是在间隔[0, 1)中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。
③算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。

算术编码可以是静态的或者自适应的。在静态算术编码中，信源符号的概率是固定的。在自适应算术编码中，信源符号的概率根据编码时符号出现的频繁程度动态地进行修改，在编码期间估算信源符号概率的过程叫做建模。需要开发自适应算术编码的原因是因为事先知道精确的信源概率是很难的，而且是不切实际的。当压缩消息时，不能期待一个算术编码器获得最大的效率，所能做的最有效的方法是在编码过程中估算概率。因此动态建模就成为确定编码器压缩效率的关键。
算术编码的实现相应地比Huffman编码复杂，但当与信号源符号的出现概率接近时，算术编码的效率高于Huffman编码。在图像测试中表明，算术编码效率比Huffman效率高5%左右。

⑷ 文件解压和压缩是看什么速度

主流的机械硬盘速度大概在50-150MB/s之间，SSD大概是150-500MB/s，主流的CPU（带流水线）、内存的速度大概是硬盘速度的100~1000倍左右。
换句话说，如果一个解压算法，平均解压一个字节消耗的指令数如果少于100个，那么硬盘速度就很难赶上CPU速度了；如果平均解压一个字节消耗的指令数少于1000个，那么绝大多数机械硬盘很难赶上CPU速度。所以，瓶颈在哪，主要看解压的过程中的CPU负担。
通常情况下，zip的解压字典只有32K或者64K，解压的过程中并非每次都搜索完整的字典，所以zip默认配置下很难占满CPU，如果考虑到多核的话，每个核的负担可以更低，磁盘IO的负担会更重，瓶颈效果会更明显。如果要让CPU成为瓶颈，需要调整一些压缩的策略，
比如：1. 字典要更大，查找速度会更慢，如果字典比内存还大就更好了（7zip最大可以配置1G的字典）。2. 文件的信息熵要足够大，换句话说文件本身更难以压缩，比如已经被压缩过的视频文件，这样解压时查字典的负担会更重。3. 解压到内存里，或者至少是SSD里。4. 压缩的时候选择用AES-256加密一下。5. 挑一个性能比较弱的CPU解压。满足以上条件的情况下，就可以让CPU成为瓶颈了。
但这样的条件很难达到，因为满足以上条件，会让压缩的过程变得非常慢，比如7zip的LZMA2算法中，把字典配到1G，线程数16的情况下，压缩需要内存是88G左右，绝大多数PC的内存都不够用。在超级计算机上压缩，到普通计算机上解压就有可能吃满CPU。
对于通常情况下来说，解压文件瓶颈在硬盘，只有在一定特定的场景下，CPU才会成为瓶颈。
补充一点：如果解压的是零碎的小文件，速度没有参考价值。小文件的实际写入开销比文件实际大小要大的多。

⑸ 信息熵是什么意思

熵的概念首先在热力学中引入，用于表述热力学第二定律。波尔兹曼研究得到，热力学熵与微观状态数目的对数之间存在联系，并给出了公式：这个公式也作为他最骄傲的成绩，刻在了他的墓碑上。信息熵的定义与上述这个热力学的熵，虽然不是一个东西，但是有一定的联系。熵在信息论中代表随机变量不确定度的度量。一个离散型随机变量的熵定义为：这个定义的特点是，有明确定义的科学名词且与内容无关，而且不随信息的具体表达式的变化而变化。是独立于形式，反映了信息表达式中统计方面的性质。是统计学上的抽象概念。所以这个定义如题主提到的可能有点抽象和晦涩，不易理解。那么下面让我们从直觉出发，以生活中的一些例子来阐述信息熵是什么，以及有什么用处。直觉上，信息量等于传输该信息所用的代价，这个也是通信中考虑最多的问题。比如说：赌马比赛里，有4匹马，获胜概率分别为。接下来，让我们将哪一匹马获胜视为一个随机变量。假定我们需要用尽可能少的二元问题来确定随机变量的取值。我们知道一个事件的信息量就是这个事件发生的概率的负对数。最后终于能回到信息熵。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上，信息熵其实是信息量的期望。

⑹ 图像数据压缩的主要依据有哪些

虽然表示图像需要大量的数据，但图像数据是高度相关的，或者说存在冗余(Rendancy)信息，去掉这些冗余信息后可以有效压缩图像，同时又不会损害图像的有效信息。

数字图像的冗余表现为以下几种形式：空间冗余、时间冗余、视觉冗余、信息熵冗余、结构冗余和知识冗余。

(1)空间冗余：图像内部相邻像素之间存在较强的相关性所造成的冗余。

(2)时间冗余：视频图像序列中的不同帧之间的相关性所造成的冗余。

(3)视觉冗余：是指人眼不能感知或不敏感的那部分图像信息。

(4)信息熵冗余：也称编码冗余，如果图像中平均每个像素使用的比特数大于该图像的信息熵，则图像中存在冗余，这种冗余称为信息熵冗余。

(5)结构冗余：是指图像中存在很强的纹理结构或自相似性。

(6)知识冗余：是指有些图像还包含与某些先验知识有关的信息。

图像数据的这些冗余信息为图像压缩编码提供了依据。

例如，利用人眼对蓝光不敏感的视觉特性，在对彩色图像编码时，就可以用较低的精度对蓝色分量进行编码。图像编码的目的就是充分利用图像中存在的各种冗余信息，特别是空间冗余、时间冗余以及视觉冗余，以尽量少的比特数来表示图像。利用各种冗余信息，压缩编码技术能够很好地解决在将模拟信号转换为数字信号后所产生的带宽需求增加的问题，它是使数字信号走上实用化的关键技术之一。

⑺ 压缩文件跟原文件之间大小比例是多少比如说1.5G的文件压缩后有多大

这个跟压缩算法有关，一般字符文件的压缩比较高，可以达到50％左右，视频、音频、图像文件，压缩比一般80％左右。

如果是影音文件1．5g，压缩后小不了多少，可能是1．3～1．4G。

有的图像文件如JPG格式的，本来就是带压缩的，再用rar等工具压缩的效果不明显，如果是BMP文件，压缩效果更好。

每个文件都由各种不同代码组成，比如01代码。

这类文件只有数字0与1组合。压缩原理就是【通过寻找其中的规律，简化数字的排列】。

比如：00000110001111111111可以简化成5个0，2个1，3个0，10个1的排列；100000000000可以简化成数学的：10＾10。

根据香农的信息理论，任何一个文件被无损压缩后的结果不可能小于其熵（信息论）。

换句话说，如果一个文件有20多个G的大小，但是其信息熵只有20多M，则实现一个1000倍的压缩是完全可能的（比如楼主放出的几小时全黑视频）；反过来看，一个文件如果虽然只有100M，但是其信息熵却高达90M，则这样的文件是无论如何也不可能被无损压缩至20M大小的。

多说一句，一个文件的信息熵有多少，靠一个公式是完全可以算出来的。所以只要提供任何一个文件，我们都能知道它最小可以被压缩到多少。

以上说法仅限于无损压缩，对于有损压缩来说，压缩了多少倍皆有可能。

(7)压缩信息熵扩展阅读：

经过压缩软件压缩的文件是压缩文件，压缩的原理是把文件的二进制代码压缩，把相邻的0，1代码减少，比如有000000，可以把它变成6个0的写法60，来减少该文件的空间。

压缩文件的基本原理是查找文件内的重复字节，并建立一个相同字节的＂词典＂文件，并用一个代码表示，比如在文件里有几处有一个相同的词＂中华人民共和国＂用一个代码表示并写入＂词典＂文件，这样就可以达到缩小文件的目的。

其实，所有的计算机文件归根结底都是以“1”和“0”的形式存储的，和蓝色像点一样，只要通过合理的数学计算公式，文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。总的来说，压缩可以分为有损和无损压缩两种。

⑻ 什么是熵编码

中文名称：熵编码
英文名称：entropy coding
定义：编码过程中按熵原理不丢失任何信息的编码。
数据压缩技术的理论基础就是信息论。信息论中的信源编码理论解决的主要问题：（1）数据压缩的理论极限（2）数据压缩的基本途径。根据信息论的原理，可以找到最佳数据压缩编码的方法，数据压缩的理论极限是信息熵。如果要求编码过程中不丢失信息量，即要求保存信息熵，这种信息保持编码叫熵编码，是根据消息出现概率的分布特性而进行的，是无损数据压缩编码。
在视频编码中，熵编码把一系列用来表示视频序列的元素符号转变为一个用来传输或是存储的压缩码流.输入的符号可能包括量化的变换系数(像上面所说的运行级或零树),运动向量(对于每个运动补偿块的向量值x和y),标记(在序列中用来表示重同步位的点),头(宏块头,图象头,序列的头等)以及附加信息(对于正确解码来说不重要的信息).

⑼ 图像压缩之后图像信息熵是变大还是减小了

你好！
不一定吧，因为根据压缩过程中是否减少了熵，可以分为有损压缩和无损压缩，熵减少了就是有损压缩
仅代表个人观点，不喜勿喷，谢谢。

⑽ 数据压缩技术的数据压缩技术简史

电脑里的数据压缩其实类似于美眉们的瘦身运动，不外有两大功用。第一，可以节省空间。拿瘦身美眉来说，要是八个美眉可以挤进一辆出租车里，那该有多省钱啊！第二，可以减少对带宽的占用。例如，我们都想在不到 100Kbps 的 GPRS 网上观看 DVD 大片，这就好比瘦身美眉们总希望用一尺布裁出七件吊带衫，前者有待于数据压缩技术的突破性进展，后者则取决于美眉们的恒心和毅力。
简单地说，如果没有数据压缩技术，我们就没法用 WinRAR 为 Email 中的附件瘦身；如果没有数据压缩技术，市场上的数码录音笔就只能记录不到 20 分钟的语音；如果没有数据压缩技术，从 Internet 上下载一部电影也许要花半年的时间……可是这一切究竟是如何实现的呢？数据压缩技术又是怎样从无到有发展起来的呢？一千多年前的中国学者就知道用“班马”这样的缩略语来指代班固和司马迁，这种崇尚简约的风俗一直延续到了今天的 Internet 时代：当我们在 BBS 上用“ 7456 ”代表“气死我了”，或是用“ B4 ”代表“ Before ”的时候，我们至少应该知道，这其实就是一种最简单的数据压缩呀。
严格意义上的数据压缩起源于人们对概率的认识。当我们对文字信息进行编码时，如果为出现概率较高的字母赋予较短的编码，为出现概率较低的字母赋予较长的编码，总的编码长度就能缩短不少。远在计算机出现之前，着名的 Morse 电码就已经成功地实践了这一准则。在 Morse 码表中，每个字母都对应于一个唯一的点划组合，出现概率最高的字母 e 被编码为一个点“ . ”，而出现概率较低的字母 z 则被编码为“ --.. ”。显然，这可以有效缩短最终的电码长度。
信息论之父 C. E. Shannon 第一次用数学语言阐明了概率与信息冗余度的关系。在 1948 年发表的论文“通信的数学理论（ A Mathematical Theory of Communication ）”中， Shannon 指出，任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。 Shannon 借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，并给出了计算信息熵的数学表达式。这篇伟大的论文后来被誉为信息论的开山之作，信息熵也奠定了所有数据压缩算法的理论基础。从本质上讲，数据压缩的目的就是要消除信息中的冗余，而信息熵及相关的定理恰恰用数学手段精确地描述了信息冗余的程度。利用信息熵公式，人们可以计算出信息编码的极限，即在一定的概率模型下，无损压缩的编码长度不可能小于信息熵公式给出的结果。
有了完备的理论，接下来的事就是要想办法实现具体的算法，并尽量使算法的输出接近信息熵的极限了。当然，大多数工程技术人员都知道，要将一种理论从数学公式发展成实用技术，就像仅凭一个 E=mc 2 的公式就要去制造核武器一样，并不是一件很容易的事。设计具体的压缩算法的过程通常更像是一场数学游戏。开发者首先要寻找一种能尽量精确地统计或估计信息中符号出现概率的方法，然后还要设计一套用最短的代码描述每个符号的编码规则。统计学知识对于前一项工作相当有效，迄今为止，人们已经陆续实现了静态模型、半静态模型、自适应模型、 Markov 模型、部分匹配预测模型等概率统计模型。相对而言，编码方法的发展历程更为曲折一些。
1948 年， Shannon 在提出信息熵理论的同时，也给出了一种简单的编码方法—— Shannon 编码。 1952 年， R. M. Fano 又进一步提出了 Fano 编码。这些早期的编码方法揭示了变长编码的基本规律，也确实可以取得一定的压缩效果，但离真正实用的压缩算法还相去甚远。
第一个实用的编码方法是由 D. A. Huffman 在 1952 年的论文“最小冗余度代码的构造方法（ A Method for the Construction of Minimum Rendancy Codes ）”中提出的。直到今天，许多《数据结构》教材在讨论二叉树时仍要提及这种被后人称为 Huffman 编码的方法。 Huffman 编码在计算机界是如此着名，以至于连编码的发明过程本身也成了人们津津乐道的话题。据说， 1952 年时，年轻的 Huffman 还是麻省理工学院的一名学生，他为了向老师证明自己可以不参加某门功课的期末考试，才设计了这个看似简单，但却影响深远的编码方法。
Huffman 编码效率高，运算速度快，实现方式灵活，从 20 世纪 60 年代至今，在数据压缩领域得到了广泛的应用。例如，早期 UNIX 系统上一个不太为现代人熟知的压缩程序 COMPACT 实际就是 Huffman 0 阶自适应编码的具体实现。 20 世纪 80 年代初， Huffman 编码又出现在 CP/M 和 DOS 系统中，其代表程序叫 SQ 。今天，在许多知名的压缩工具和压缩算法（如 WinRAR 、 gzip 和 JPEG ）里，都有 Huffman 编码的身影。不过， Huffman 编码所得的编码长度只是对信息熵计算结果的一种近似，还无法真正逼近信息熵的极限。正因为如此，现代压缩技术通常只将 Huffman 视作最终的编码手段，而非数据压缩算法的全部。
科学家们一直没有放弃向信息熵极限挑战的理想。 1968 年前后， P. Elias 发展了 Shannon 和 Fano 的编码方法，构造出从数学角度看来更为完美的 Shannon-Fano-Elias 编码。沿着这一编码方法的思路， 1976 年， J. Rissanen 提出了一种可以成功地逼近信息熵极限的编码方法——算术编码。 1982 年， Rissanen 和 G. G. Langdon 一起改进了算术编码。之后，人们又将算术编码与 J. G. Cleary 和 I. H. Witten 于 1984 年提出的部分匹配预测模型（ PPM ）相结合，开发出了压缩效果近乎完美的算法。今天，那些名为 PPMC 、 PPMD 或 PPMZ 并号称压缩效果天下第一的通用压缩算法，实际上全都是这一思路的具体实现。
对于无损压缩而言， PPM 模型与算术编码相结合，已经可以最大程度地逼近信息熵的极限。看起来，压缩技术的发展可以到此为止了。不幸的是，事情往往不像想象中的那样简单：算术编码虽然可以获得最短的编码长度，但其本身的复杂性也使得算术编码的任何具体实现在运行时都慢如蜗牛。即使在摩尔定律大行其道， CPU 速度日新月异的今天，算术编码程序的运行速度也很难满足日常应用的需求。没办法，如果不是后文将要提到的那两个犹太人，我们还不知要到什么时候才能用上 WinZIP 这样方便实用的压缩工具呢。逆向思维永远是科学和技术领域里出奇制胜的法宝。就在大多数人绞尽脑汁想改进 Huffman 或算术编码，以获得一种兼顾了运行速度和压缩效果的“完美”编码的时候，两个聪明的犹太人 J. Ziv 和 A. Lempel 独辟蹊径，完全脱离 Huffman 及算术编码的设计思路，创造出了一系列比 Huffman 编码更有效，比算术编码更快捷的压缩算法。我们通常用这两个犹太人姓氏的缩写，将这些算法统称为 LZ 系列算法。
按照时间顺序， LZ 系列算法的发展历程大致是： Ziv 和 Lempel 于 1977 年发表题为“顺序数据压缩的一个通用算法（ A Universal Algorithm for Sequential Data Compression ）”的论文，论文中描述的算法被后人称为 LZ77 算法。 1978 年，二人又发表了该论文的续篇“通过可变比率编码的独立序列的压缩（ Compression of Indivial Sequences via Variable Rate Coding ）”，描述了后来被命名为 LZ78 的压缩算法。 1984 年， T. A. Welch 发表了名为“高性能数据压缩技术（ A Technique for High Performance Data Compression ）”的论文，描述了他在 Sperry 研究中心（该研究中心后来并入了 Unisys 公司）的研究成果，这是 LZ78 算法的一个变种，也就是后来非常有名的 LZW 算法。 1990 年后， T. C. Bell 等人又陆续提出了许多 LZ 系列算法的变体或改进版本。
说实话， LZ 系列算法的思路并不新鲜，其中既没有高深的理论背景，也没有复杂的数学公式，它们只是简单地延续了千百年来人们对字典的追崇和喜好，并用一种极为巧妙的方式将字典技术应用于通用数据压缩领域。通俗地说，当你用字典中的页码和行号代替文章中每个单词的时候，你实际上已经掌握了 LZ 系列算法的真谛。这种基于字典模型的思路在表面上虽然和 Shannon 、 Huffman 等人开创的统计学方法大相径庭，但在效果上一样可以逼近信息熵的极限。而且，可以从理论上证明， LZ 系列算法在本质上仍然符合信息熵的基本规律。
LZ 系列算法的优越性很快就在数据压缩领域里体现了出来，使用 LZ 系列算法的工具软件数量呈爆炸式增长。 UNIX 系统上最先出现了使用 LZW 算法的 compress 程序，该程序很快成为了 UNIX 世界的压缩标准。紧随其后的是 MS-DOS 环境下的 ARC 程序，以及 PKWare 、 PKARC 等仿制品。 20 世纪 80 年代，着名的压缩工具 LHarc 和 ARJ 则是 LZ77 算法的杰出代表。
今天， LZ77 、 LZ78 、 LZW 算法以及它们的各种变体几乎垄断了整个通用数据压缩领域，我们熟悉的 PKZIP 、 WinZIP 、 WinRAR 、 gzip 等压缩工具以及 ZIP 、 GIF 、 PNG 等文件格式都是 LZ 系列算法的受益者，甚至连 PGP 这样的加密文件格式也选择了 LZ 系列算法作为其数据压缩的标准。
没有谁能否认两位犹太人对数据压缩技术的贡献。我想强调的只是，在工程技术领域，片面追求理论上的完美往往只会事倍功半，如果大家能像 Ziv 和 Lempel 那样，经常换个角度来思考问题，没准儿你我就能发明一种新的算法，就能在技术方展史上扬名立万呢。 LZ 系列算法基本解决了通用数据压缩中兼顾速度与压缩效果的难题。但是，数据压缩领域里还有另一片更为广阔的天地等待着我们去探索。 Shannon 的信息论告诉我们，对信息的先验知识越多，我们就可以把信息压缩得越小。换句话说，如果压缩算法的设计目标不是任意的数据源，而是基本属性已知的特种数据，压缩的效果就会进一步提高。这提醒我们，在发展通用压缩算法之余，还必须认真研究针对各种特殊数据的专用压缩算法。比方说，在今天的数码生活中，遍布于数码相机、数码录音笔、数码随身听、数码摄像机等各种数字设备中的图像、音频、视频信息，就必须经过有效的压缩才能在硬盘上存储或是通过 USB 电缆传输。实际上，多媒体信息的压缩一直是数据压缩领域里的重要课题，其中的每一个分支都有可能主导未来的某个技术潮流，并为数码产品、通信设备和应用软件开发商带来无限的商机。
让我们先从图像数据的压缩讲起。通常所说的图像可以被分为二值图像、灰度图像、彩色图像等不同的类型。每一类图像的压缩方法也不尽相同。
传真技术的发明和广泛使用促进了二值图像压缩算法的飞速发展。 CCITT （国际电报电话咨询委员会，是国际电信联盟 ITU 下属的一个机构）针对传真类应用建立了一系列图像压缩标准，专用于压缩和传递二值图像。这些标准大致包括 20 世纪 70 年代后期的 CCITT Group 1 和 Group 2 ， 1980 年的 CCITT Group 3 ，以及 1984 年的 CCITT Group 4 。为了适应不同类型的传真图像，这些标准所用的编码方法包括了一维的 MH 编码和二维的 MR 编码，其中使用了行程编码（ RLE ）和 Huffman 编码等技术。今天，我们在办公室或家里收发传真时，使用的大多是 CCITT Group 3 压缩标准，一些基于数字网络的传真设备和存放二值图像的 TIFF 文件则使用了 CCITT Group 4 压缩标准。 1993 年， CCITT 和 ISO （国际标准化组织）共同成立的二值图像联合专家组（ Joint Bi-level Image Experts Group ， JBIG ）又将二值图像的压缩进一步发展为更加通用的 JBIG 标准。
实际上，对于二值图像和非连续的灰度、彩色图像而言，包括 LZ 系列算法在内的许多通用压缩算法都能获得很好的压缩效果。例如，诞生于 1987 年的 GIF 图像文件格式使用的是 LZW 压缩算法， 1995 年出现的 PNG 格式比 GIF 格式更加完善，它选择了 LZ77 算法的变体 zlib 来压缩图像数据。此外，利用前面提到过的 Huffman 编码、算术编码以及 PPM 模型，人们事实上已经构造出了许多行之有效的图像压缩算法。
但是，对于生活中更加常见的，像素值在空间上连续变化的灰度或彩色图像（比如数码照片），通用压缩算法的优势就不那么明显了。幸运的是，科学家们发现，如果在压缩这一类图像数据时允许改变一些不太重要的像素值，或者说允许损失一些精度（在压缩通用数据时，我们绝不会容忍任何精度上的损失，但在压缩和显示一幅数码照片时，如果一片树林里某些树叶的颜色稍微变深了一些，看照片的人通常是察觉不到的），我们就有可能在压缩效果上获得突破性的进展。这一思想在数据压缩领域具有革命性的地位：通过在用户的忍耐范围内损失一些精度，我们可以把图像（也包括音频和视频）压缩到原大小的十分之一、百分之一甚至千分之一，这远远超出了通用压缩算法的能力极限。也许，这和生活中常说的“退一步海阔天空”的道理有异曲同工之妙吧。
这种允许精度损失的压缩也被称为有损压缩。在图像压缩领域，着名的 JPEG 标准是有损压缩算法中的经典。 JPEG 标准由静态图像联合专家组（ Joint Photographic Experts Group ， JPEG ）于 1986 年开始制定， 1994 年后成为国际标准。 JPEG 以离散余弦变换（ DCT ）为核心算法，通过调整质量系数控制图像的精度和大小。对于照片等连续变化的灰度或彩色图像， JPEG 在保证图像质量的前提下，一般可以将图像压缩到原大小的十分之一到二十分之一。如果不考虑图像质量， JPEG 甚至可以将图像压缩到“无限小”。
JPEG 标准的最新进展是 1996 年开始制定， 2001 年正式成为国际标准的 JPEG 2000 。与 JPEG 相比， JPEG 2000 作了大幅改进，其中最重要的是用离散小波变换（ DWT ）替代了 JPEG 标准中的离散余弦变换。在文件大小相同的情况下， JPEG 2000 压缩的图像比 JPEG 质量更高，精度损失更小。作为一个新标准， JPEG 2000 暂时还没有得到广泛的应用，不过包括数码相机制造商在内的许多企业都对其应用前景表示乐观， JPEG 2000 在图像压缩领域里大显身手的那一天应该不会特别遥远。
JPEG 标准中通过损失精度来换取压缩效果的设计思想直接影响了视频数据的压缩技术。 CCITT 于 1988 年制定了电视电话和会议电视的 H.261 建议草案。 H.261 的基本思路是使用类似 JPEG 标准的算法压缩视频流中的每一帧图像，同时采用运动补偿的帧间预测来消除视频流在时间维度上的冗余信息。在此基础上， 1993 年， ISO 通过了动态图像专家组（ Moving Picture Experts Group ， MPEG ）提出的 MPEG-1 标准。 MPEG-1 可以对普通质量的视频数据进行有效编码。我们现在看到的大多数 VCD 影碟，就是使用 MPEG-1 标准来压缩视频数据的。
为了支持更清晰的视频图像，特别是支持数字电视等高端应用， ISO 于 1994 年提出了新的 MPEG-2 标准（相当于 CCITT 的 H.262 标准）。 MPEG-2 对图像质量作了分级处理，可以适应普通电视节目、会议电视、高清晰数字电视等不同质量的视频应用。在我们的生活中，可以提供高清晰画面的 DVD 影碟所采用的正是 MPEG-2 标准。
Internet 的发展对视频压缩提出了更高的要求。在内容交互、对象编辑、随机存取等新需求的刺激下， ISO 于 1999 年通过了 MPEG-4 标准（相当于 CCITT 的 H.263 和 H.263+ 标准）。 MPEG-4 标准拥有更高的压缩比率，支持并发数据流的编码、基于内容的交互操作、增强的时间域随机存取、容错、基于内容的尺度可变性等先进特性。 Internet 上新兴的 DivX 和 XviD 文件格式就是采用 MPEG-4 标准来压缩视频数据的，它们可以用更小的存储空间或通信带宽提供与 DVD 不相上下的高清晰视频，这使我们在 Internet 上发布或下载数字电影的梦想成为了现实。
就像视频压缩和电视产业的发展密不可分一样，音频数据的压缩技术最早也是由无线电广播、语音通信等领域里的技术人员发展起来的。这其中又以语音编码和压缩技术的研究最为活跃。自从 1939 年 H. Dudley 发明声码器以来，人们陆续发明了脉冲编码调制（ PCM ）、线性预测（ LPC ）、矢量量化（ VQ ）、自适应变换编码（ ATC ）、子带编码（ SBC ）等语音分析与处理技术。这些语音技术在采集语音特征，获取数字信号的同时，通常也可以起到降低信息冗余度的作用。像图像压缩领域里的 JPEG 一样，为获得更高的编码效率，大多数语音编码技术都允许一定程度的精度损失。而且，为了更好地用二进制数据存储或传送语音信号，这些语音编码技术在将语音信号转换为数字信息之后又总会用 Huffman 编码、算术编码等通用压缩算法进一步减少数据流中的冗余信息。
对于电脑和数字电器（如数码录音笔、数码随身听）中存储的普通音频信息，我们最常使用的压缩方法主要是 MPEG 系列中的音频压缩标准。例如， MPEG-1 标准提供了 Layer I 、 Layer II 和 Layer III 共三种可选的音频压缩标准， MPEG-2 又进一步引入了 AAC （ Advanced Audio Coding ）音频压缩标准， MPEG-4 标准中的音频部分则同时支持合成声音编码和自然声音编码等不同类型的应用。在这许多音频压缩标准中，声名最为显赫的恐怕要数 MPEG-1 Layer III ，也就是我们常说的 MP3 音频压缩标准了。从 MP3 播放器到 MP3 手机，从硬盘上堆积如山的 MP3 文件到 Internet 上版权纠纷不断的 MP3 下载， MP3 早已超出了数据压缩技术的范畴，而成了一种时尚文化的象征了。
很显然，在多媒体信息日益成为主流信息形态的数字化时代里，数据压缩技术特别是专用于图像、音频、视频的数据压缩技术还有相当大的发展空间——毕竟，人们对信息数量和信息质量的追求是永无止境的。从信息熵到算术编码，从犹太人到 WinRAR ，从 JPEG 到 MP3 ，数据压缩技术的发展史就像是一个写满了“创新”、“挑战”、“突破”和“变革”的羊皮卷轴。也许，我们在这里不厌其烦地罗列年代、人物、标准和文献，其目的只是要告诉大家，前人的成果只不过是后人有望超越的目标而已，谁知道在未来的几年里，还会出现几个 Shannon ，几个 Huffman 呢？
谈到未来，我们还可以补充一些与数据压缩技术的发展趋势有关的话题。
1994年， M. Burrows 和 D. J. Wheeler 共同提出了一种全新的通用数据压缩算法。这种算法的核心思想是对字符串轮转后得到的字符矩阵进行排序和变换，类似的变换算法被称为 Burrows-Wheeler 变换，简称 BWT 。与 Ziv 和 Lempel 另辟蹊径的做法如出一辙， Burrows 和 Wheeler 设计的 BWT 算法与以往所有通用压缩算法的设计思路都迥然不同。如今， BWT 算法在开放源码的压缩工具 bzip 中获得了巨大的成功， bzip 对于文本文件的压缩效果要远好于使用 LZ 系列算法的工具软件。这至少可以表明，即便在日趋成熟的通用数据压缩领域，只要能在思路和技术上不断创新，我们仍然可以找到新的突破口。
分形压缩技术是图像压缩领域近几年来的一个热点。这一技术起源于 B. Mandelbrot 于 1977 年创建的分形几何学。 M. Barnsley 在 20 世纪 80 年代后期为分形压缩奠定了理论基础。从 20 世纪 90 年代开始， A. Jacquin 等人陆续提出了许多实验性的分形压缩算法。今天，很多人相信，分形压缩是图像压缩领域里最有潜力的一种技术体系，但也有很多人对此不屑一顾。无论其前景如何，分形压缩技术的研究与发展都提示我们，在经过了几十年的高速发展之后，也许，我们需要一种新的理论，或是几种更有效的数学模型，以支撑和推动数据压缩技术继续向前跃进。
人工智能是另一个可能对数据压缩的未来产生重大影响的关键词。既然 Shannon 认为，信息能否被压缩以及能在多大程度上被压缩与信息的不确定性有直接关系，假设人工智能技术在某一天成熟起来，假设计算机可以像人一样根据已知的少量上下文猜测后续的信息，那么，将信息压缩到原大小的万分之一乃至十万分之一，恐怕就不再是天方夜谭了。
回顾历史之后，人们总喜欢畅想一下未来。但未来终究是未来，如果仅凭你我几句话就可以理清未来的技术发展趋势，那技术创新的工作岂不就索然无味了吗？依我说，未来并不重要，重要的是，赶快到 Internet 上下载几部大片，然后躺在沙发里，好好享受一下数据压缩为我们带来的无限快乐吧。

导航:首页 > 文件处理 > 压缩信息熵

压缩信息熵

与压缩信息熵相关的资料