数据压缩算法教学_压缩算法原理

A. 数据流压缩原理和数据压缩Zlib的实现

压缩的本质就是去冗余，去除信息冗余，使用最短的编码保存最完整的数据信息。所以对于不同的场景，压缩采用的算法也因时制宜，比如视频和图片可以采用有损压缩，而文本数据采用无损压缩。压缩率又取决于信息的冗余度，也就是内容中重复的比例。那些均匀分布的随机字符串，压缩率会降到最低，即香农限

deflate是zip文件的默认算法。它更是一种数据流压缩算法。

LZ77压缩算法采用字典的方式进行压缩，是一种简单但是很高效的数据压缩算法。其方式就是把数据中一些可以组织成短语的字符加入字典。维护三个概念： 短语字典、滑动窗口、向前缓冲区

压缩的逆过程，通过解码标记和保持滑动窗口中的符号来更新解压数据。当解码字符被标记:将标记编码成字符拷贝到滑动窗口中，一步一步直到全部翻译完成

在流式传输中，不定长编码数据的解码想要保持唯一性，必须满足唯一可以码的条件。而异前缀码就是一种唯一可译码的候选，当然这样会增加编码的长度，却可以简化解码。

huffman编码是一种基于概率分布的贪心策略最优前缀码。huffman编码可以有效的压缩数据，压缩率取决于数据本身的信息冗余度

计算数据中各符号出现的概率，根据概率从小到大，从下往上反向构建构造码树，这样最终得到的编码的平均长度是最短的。同时也是唯一可译的

解读：在一开始，每一个字符已经按照出现概率的大小排好顺序，在后续的步骤中，每一次将概率最低的两棵树合并，然后用合并后的结果再次排序（为了找出最小的两棵树）。在gzip源码中并没有专门去排序，而是使用专门的数据结构（比如最小堆或者红黑树）。

使用优先队列实现huffman树，最后基于Huffman树最终实现文件压缩。
具体步骤：

gzip = gzip 头 + deflate 编码的实际内容 + gzip 尾

zlib = zlib 头 + deflate 编码的实际内容 + zlib 尾

压缩之前：初始化各种输入输出缓冲区；
压缩：我们可以不断往这些缓冲区中填充内容，然后由deflate函数进行压缩或者indeflate函数进行解压

总结：在调用deflate函数之前，应用程序必须保证至少一个动作被执行（avail_in或者avail_out被设置），用提供更多数据或者消耗更多的数据的方式。avail_out在函数调用之前千万不能为零。应用程序可以随时消耗被压缩的输出数据

B. 数据压缩比计算方法

数据压缩比计算方法
举例：65536=2的16次方，所以要16位二进制存储，就是2个字节即2B，像点1024*1024，则一张不压缩的图片要容量=1024*1024*2/1024*1024MB=2M,所以2*40=80M所以压缩比=80：20=4：1

C. 如何用C语言实现数据压缩

首先选择一个压缩算法

然后按照算法实现压缩代码，调用接口就可以
常见的可以使用哈夫曼编码压缩，或者使用开源的压缩代码，比如lzo, gzip, lzma等等。

D. 数据压缩的两种方法

数据压缩的两种方法是无损压缩和有损压缩。
数据压缩是指在不丢失信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间。对于任何形式的通信来说，只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。例如，只有当接受方知道这篇文章需要用英语字符解释的时候这篇文章才有意义。同样，只有当接受方知道编码方法的时候他才能够理解压缩数据。一些压缩算法利用了这个特性，在压缩过程中对数据进行加密，例如利用密码加密，以保证只有得到授权的一方才能正确地得到数据。数据压缩能够实现是因为多数现实世界的数据都有统计冗余。无损压缩算法通常利用了统计冗余，这样就能更加简练地、但仍然是完整地表示发送方的数据。
更多关于数据压缩的两种方法，进入：https://m.abcgonglue.com/ask/a6d3301615837126.html?zd查看更多内容

E. 数据压缩的流行算法

Lempel-Ziv（LZ）压缩方法是最流行的无损存储算法之一。DEFLATE是 LZ 的一个变体，它针对解压速度与压缩率进行了优化，虽然它的压缩速度可能非常缓慢，PKZIP、gzip 以及 PNG 都在使用 DEFLATE。LZW （Lempel-Ziv-Welch）是 Unisys 的专利，直到2003年6月专利到期限，这种方法用于 GIF 图像。另外值得一提的是 LZR (LZ-Renau) 方法，它是 Zip 方法的基础。LZ 方法使用基于表格的压缩模型，其中表格中的条目用重复的数据串替换。对于大多数的 LZ 方法来说，这个表格是从最初的输入数据动态生成的。这个表格经常采用霍夫曼编码维护（例如，SHRI、LZX）。一个性能良好基于 LZ 的编码机制是 LZX，它用于微软公司的 CAB 格式。

F. 压缩算法原理

哈夫曼
哈夫曼编码是无损压缩当中最好的方法。它使用预先二进制描述来替换每个符号，长度由特殊符号出现的频率决定。常见的符号需要很少的位来表示，而不常见的符号需要很多为来表示。

哈夫曼算法在改变任何符号二进制编码引起少量密集表现方面是最佳的。然而，它并不处理符号的顺序和重复或序号的序列。

2.1 原理
我不打算探究哈夫曼编码的所有实际的细节，但基本的原理是为每个符号找到新的二进制表示，从而通常符号使用很少的位，不常见的符号使用较多的位。

简短的说，这个问题的解决方案是为了查找每个符号的通用程度，我们建立一个未压缩数据的柱状图；通过递归拆分这个柱状图为两部分来创建一个二叉树，每个递归的一半应该和另一半具有同样的权（权是 ∑ N K =1 符号数 k , N 是分之中符号的数量，符号数 k 是符号 k出现的次数）

这棵树有两个目的：

1．编码器使用这棵树来找到每个符号最优的表示方法

2．解码器使用这棵树唯一的标识在压缩流中每个编码的开始和结束，其通过在读压缩数据位的时候自顶向底的遍历树，选择基于数据流中的每个独立位的分支，一旦一个到达叶子节点，解码器知道一个完整的编码已经读出来了。

压缩后的数据流是 24 位（三个字节），原来是 80 位（ 10 个字节）。当然，我应该存储哈夫曼树，这样解码器就能够解码出对应的压缩流了，这就使得该例子中的真正数据流比输入的流数据量大。这是相对较短的数据上的副作用。对于大数据量来说，上面的哈夫曼树就不占太多比例了。

解码的时候，从上到下遍历树，为压缩的流选择从左 / 右分支，每次碰到一个叶子节点的时候，就可以将对应的字节写到解压输出流中，然后再从根开始遍历。

2.2 实现
哈夫曼编码器可以在基本压缩库中找到，其是非常直接的实现。

这个实现的基本缺陷是：

1．慢位流实现

2．相当慢的解码（比编码慢）

3．最大的树深度是 32 （编码器在任何超过 32 位大小的时候退出）。如果我不是搞错的话，这是不可能的，除非输出的数据大于 2 32字节。

另一方面，这个实现有几个优点：

1．哈夫曼树以一个紧密的形式每个符号要求 12 位（对于 8 位的符号）的方式存储，这意味着最大的头为 384 。

2．编码相当容易理解

哈夫曼编码在数据有噪音的情况（不是有规律的，例如 RLE ）下非常好，这中情况下大多数基于字典方式的编码器都有问题。

G. 二进制压缩算法有哪些

二进制数据压缩算法二进制是计算技术中广泛采用的一种数制。二进制数据是用0和1两个数码来表示的数。它的基数为2，进位规则是“逢二进一”，借位规则是“借一当二”，由18世纪德国数理哲学大师莱布尼兹发现。当前的计算机系统使用的基本上是二进制系统，数据在计算机中主要是以补码的形式存储的。计算机中的二进制则是一个非常微小的开关，用“开”来表示1，“关”来表示0。

20世纪被称作第三次科技革命的重要标志之一的计算机的发明与应用，因为数字计算机只能识别和处理由‘0’。‘1’符号串组成的代码。其运算模式正是二进制。19世纪爱尔兰逻辑学家乔治布尔对逻辑命题的思考过程转化为对符号“0‘’。‘’1‘’的某种代数演算，二进制是逢2进位的进位制。0、1是基本算符。因为它只使用0、1两个数字符号，非常简单方便，易于用电子方式实现。

二进制压缩 - 算法

二进制压缩

在编程时遇到每个数据只有两种状态，且 dfs 或者 bfs 时遍历时间复杂度高时，可以采用二进制压缩数据，尤其是二维数组。LZFSE

1，zlib和gzip都对deflate进行了封装，比deflate多了数据头和尾

1，苹果开源了新的无损压缩算法 LZFSE ，该算法是去年在iOS 9和OS X 10.10中引入的。按照苹果公司的说法，LZFE的压缩增益和ZLib level 5相同，但速度要快2~3倍，能源效率也更高。

LZFSE基于Lempel-Ziv，并使用了有限状态熵编码，后者基于Jarek Duda在

非对称数字系统（ANS）方面所做的熵编码工作。简单地讲，ANS旨在“终结速度和比率的平衡”，既可以用于精确编码，又可以用于快速编码，并且具有数据加密功能。使用ANS代替更为传统的

Huffman和算术编码方法的压缩库越来越多，LZFSE就位列其中。

显然，LZFSE的目标不是成为最好或最快的算法。事实上，苹果公司指出，

LZ4的压缩速度比LZFSE快，而 LZMA提供了更高的压缩率，但代价是比Apple

SDK提供的其他选项要慢一个数量级。当压缩率和速度几乎同等重要，而你又希望降低能源效率时，LZFSE是苹果推荐的选项。

GitHub上提供了LZFSE的参考实现。在MacOS上构建和运行一样简单：

$ xcodebuild install DSTROOT=/tmp/lzfse.dst

如果希望针对当前的iOS设备构建LZFSE，可以执行：

xcodebuild -configuration “Release” -arch armv7 install DSTROOT=/tmp/lzfse.dst

除了 API文档之外，苹果去年还提供了一个示例项目，展示如何使用LZFSE 进行块和流压缩，这是一个实用的LZFSE入门资源。

LZFSE是在谷歌 brotli之后发布的，后者在去年开源。与LZFSE相比，brotli 似乎是针对一个不同的应用场景进行了优化，比如压缩静态Web资产和Android APK，在这些情况下，压缩率是最重要的。

H. 数据压缩

数据压缩技术主要研究数据的表示、传输和转换方法，目的是减少数据所占据的存储空间和缩短数据传输时所需要的时间。

衡量数据压缩的3个主要指标：一是压缩前后所需的信息存储量之比要大；二是实现压缩的算法要简单，压缩、解压缩速度快，要尽可能做到实时压缩和解压缩；三是恢复效果要好，要尽可能完全恢复原始数据。

数据压缩主要应用于两个方面。一是传输：通过压缩发送端的原始数据，并在接收端进行解压恢复，可以有效地减少传输时间和增加信道带宽。二是存储：在存储时压缩原始数据，在使用时进行解压，可大大提高存储介质的存储量。

数据压缩按照压缩的失真度分成两种类型：一种叫作无损压缩，另一种叫作有损压缩。

无损压缩是指使用压缩后的数据进行重构（或者叫作还原、解压缩），重构后的数据与原来的数据完全相同；无损压缩用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平，无损压缩算法一般可以把普通文件的数据压缩到原来的1/4～1/2。一些常用的无损压缩算法有霍夫曼（Huffman）算法、算术算法、游程算法和LZW（Lenpel-Ziv ＆ Welch）压缩算法。

1）霍夫曼算法属于统计式压缩方法，其原理是根据原始数据符号发生的概率进行编码。在原始数据中出现概率越高的符合，相应的码长越短，出现概率越少的符合，其码长越长。从而达到用尽可能少的符号来表示原始数据，实现对数据的压缩。

2）算术算法是基于统计原理，无损压缩效率最高的算法。即将整段要压缩的数据映射到一段实数半封闭的范围［0，1）内的某一区段。该区段的范围或宽度等于该段信息概率。即是所有使用在该信息内的符号出现概率全部相乘后的概率值。当要被编码的信息越来越长时，用来代表该信息的区段就会越来越窄，用来表示这个区段的位就会增加。

3）游程算法是针对一些文本数据特点所设计的压缩方法。主要是去除文本中的冗余字符或字节中的冗余位，从而达到减少数据文件所占的存储空间。压缩处理流程类似于空白压缩，区别是在压缩指示字符之后加上一个字符，用于表明压缩对象，随后是该字符的重复次数。本算法具有局限性，很少单独使用，多与其他算法配合使用。

4）LZW算法的原理是用字典词条的编码代替在压缩数据中的字符串。因此字典中的词条越多，压缩率越高，加大字典的容量可以提高压缩率。字典的容量受计算机的内存限制。

有损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。例如，图像和声音的压缩就可以采用有损压缩，因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息，丢掉一些数据而不至于对声音或者图像所表达的意思产生误解，但可大大提高压缩比。

导航:首页 > 源码编译 > 数据压缩算法教学

数据压缩算法教学

二进制压缩 - 算法

与数据压缩算法教学相关的资料