‘壹’ 数据压缩的基本原理
数据压缩的基本原理
--------------------------------------------------------------------------------
数据压缩技术就是对原始数据进行数据编码或压缩编码。
目前常用的压缩编码有:冗余压缩法(无损压缩法、熵编码)和熵压缩法(有损压缩法)两类。
无损压缩是可逆的;有损压缩是不可逆的。
--------------------------------------------------------------------------------
变长编码
使用长度可变的代码来对以不同频率出现的样本进行编码。
1·Huffman编码
Huffman编码又称最佳编码。
Huffman编码过程是:
*将信源符号按概率递减顺序排列;
*把两个最小的概率加起来,作为新符号的概率;
*重复上述两步骤,直到概率的和达到1为止;
*在每次合并消息时,将被合并的消息赋予1和0或赋予0和1;
*寻找从每一信源符号到概率为1的路经,记录下路经上的1和0;
*对每一符号写出从码树的根到终结点1、0序列。
例:对信源
[X1,X2,X3,X4,X5,X6]=[0.25,0.25,0.20,0.15,0.10,0.05]
进行Huffman编码。
其中:X1=01;X2=10;X3=11;X4=000;X5=0010;X6=0011。
2·算术编码
算术编码是一种二元编码。
这种编码方法是在不考虑信源统计的情况下,只要监视一小段时间内码字出现的频率,不管统计是平稳的或非平稳的,编码的码率总能趋近于信源熵值,每次迭代的编码算法只处理一个数据符号,并且只有算术运算。
对二进制编码来说,信源符号只有两个。在算术编码的初级阶段,可设一个大概率Pe和小概率Qe,然后对被编码比特流符号进行判断。
其步骤:
*设编码初始化子区间为[0,1],Qe从0算起,则Pe=1-Qe。
*确定子区间起始位置:子区间起始位置=前子区间的长度+ 当前符号的区间左端X前子区间长度
*确定新子区间长度:新子区间长度=前子区间的长度X当前符号的概率
*随着被编码数据流符号的输入,子区间逐渐缩小,
*最后得到的子区间长度决定了表示该区域内的某一个数所需的位数。
例:P42
--------------------------------------------------------------------------------
预测编码
(自习)
--------------------------------------------------------------------------------
变换编码
变换编码是指对信号进行变换后在编码。
例如:
典型的编码结构是:
--------------------------------------------------------------------------------
模型编码
模型编码是指采用模型的方法对传输的图像进行参数估测。
模型编码有:随机马尔可夫场和分形图像编码。
1·分形的概念
分形的含义是其组成部分以某种方式与整体相似的形(一类无规则、混乱而复杂),其局部与整体有相似性的体系,即:自相似性体系。
2·分形编码
*基本原理:分形的方法是把一幅数字图像,通过一些图像处理技术将原始图像分成一些子图像,然后在分形集中查找这样的子图像。分形集存储许多迭代函数,通过迭代函数的反复迭代,可以恢复原来的子图像。
分形编码压缩的步骤:
第一步:把图像划分为互不重叠的、任意大小的的D分区;
第二步:划定一些可以相互重叠的、比D分区大的R分区;
第三步:为每个D分区选定仿射变换表。
分形编码解压步骤:
首先从文件中读取D分区划分方式的信息和仿射变换系数等数据;
然后划定两个同样大小的缓冲区给D图像和R图像,并把R初始化到任一初始阶段;
根据仿射变换系数把其相应的R分区做仿射变换,并用变换后的数据取代该D分区的原有数据;
对D中所有的D分区都进行上述操作,全部完成后就形成一个新的D图像;
再把新D图像的内容拷贝到R中,把新R当作D,D当作R,重复操作(迭代)。
。分形编码的特点:
压缩比高,压缩后的文件容量与图像像素数无关,在压缩时时间长但解压缩速度快。
--------------------------------------------------------------------------------
‘贰’ 数据压缩方法有几种
实现数据压缩技术方法有两种:一是在信源编码过程中进行压缩,IEEE的MPEG专家组已发展制订了ISO/IEC13818(MPEG-2)国际标准,MPEG-2采用不同的层和级组合即可满足从家庭质量到广播级质量以及将要播出的高清晰度电视质量不同的要求,其应用面很广,它支持标准分辨率16:9宽屏及高清晰度电视等多种格式,从进入家庭的DVD到卫星电视、广播电视微波传输都采用了这一标准。二是改进信道编码,发展新的数字调制技术,提高单位频宽数据传送速率。如,在欧洲DVB数字电视系统中,数字卫星电视系统(DVB-S)采用正交相移键控调制(OPSK);数字有线电视系统(DVB-C)采用正交调幅调制(QAM);数字地面开路电视系统就(DVB-T)采用更为复杂的编码正交频分复用调制(COFDM)。
‘叁’ 数据压缩分为哪三类
数据压缩分为两类,有三种分法:
1、即时压缩和非即时压缩
即时压缩是将语音信号转化为数字信号,同时进行压缩,然后即时通过Internet传送出去。即时压缩一般应用在影像、声音数据的传送中。
非即时压缩是在需要的情况下才进行,没有即时性。非即时压缩一般不需要专门的设备,直接在计算机中安装并使用相应的压缩软件即可。
2、数字压缩和文件压缩
数字压缩是专指一些具有时间性的数据,这些数据常常是即时采集、即时处理或传输的。
文件压缩是专指对将要保存在磁盘等物理介质的数据进行压缩,如一篇文章数据、一段音乐数据、一段程序编码数据等的压缩。
3、无损压缩与有损压缩
无损压缩利用数据的统计冗余进行压缩,所以无损压缩的压缩比一般比较低。这类方法广泛应用于文本数据、程序和特殊应用场合的图像数据等需要精确存储数据的压缩。
有损压缩方法利用了人类视觉、听觉对图像、声音中的某些频率成分不敏感的特性,允许压缩的过程中损失一定的信息。有损压缩广泛应用于语音、图像和视频数据的压缩。
(3)数据压缩扩展阅读:
无损压缩格式可以很方便地还原成WAV,还能直接转压缩成MP3、Ogg等有损压缩格式,甚至可以在不同无损压缩格式之间互相转换,而不会丢失任何数据。
这一点比起有损格式要强。因为有损压缩格式的二次编码(从一种有损格式转换成另一种有损格式,或者格式不变而调整比特率)意味着丢失更多的信号,带来更大的失真。
参考资料来源:
网络——数据压缩
网络——无损压缩
‘肆’ 数据压缩的方法
数据压缩的方式和文档压缩图片压缩都一样,你需要用压缩软件
‘伍’ 数据压缩
数据压缩技术主要研究数据的表示、传输和转换方法,目的是减少数据所占据的存储空间和缩短数据传输时所需要的时间。
衡量数据压缩的3个主要指标:一是压缩前后所需的信息存储量之比要大;二是实现压缩的算法要简单,压缩、解压缩速度快,要尽可能做到实时压缩和解压缩;三是恢复效果要好,要尽可能完全恢复原始数据。
数据压缩主要应用于两个方面。一是传输:通过压缩发送端的原始数据,并在接收端进行解压恢复,可以有效地减少传输时间和增加信道带宽。二是存储:在存储时压缩原始数据,在使用时进行解压,可大大提高存储介质的存储量。
数据压缩按照压缩的失真度分成两种类型:一种叫作无损压缩,另一种叫作有损压缩。
无损压缩是指使用压缩后的数据进行重构(或者叫作还原、解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/4~1/2。一些常用的无损压缩算法有霍夫曼(Huffman)算法、算术算法、游程算法和LZW(Lenpel-Ziv & Welch)压缩算法。
1)霍夫曼算法属于统计式压缩方法,其原理是根据原始数据符号发生的概率进行编码。在原始数据中出现概率越高的符合,相应的码长越短,出现概率越少的符合,其码长越长。从而达到用尽可能少的符号来表示原始数据,实现对数据的压缩。
2)算术算法是基于统计原理,无损压缩效率最高的算法。即将整段要压缩的数据映射到一段实数半封闭的范围[0,1)内的某一区段。该区段的范围或宽度等于该段信息概率。即是所有使用在该信息内的符号出现概率全部相乘后的概率值。当要被编码的信息越来越长时,用来代表该信息的区段就会越来越窄,用来表示这个区段的位就会增加。
3)游程算法是针对一些文本数据特点所设计的压缩方法。主要是去除文本中的冗余字符或字节中的冗余位,从而达到减少数据文件所占的存储空间。压缩处理流程类似于空白压缩,区别是在压缩指示字符之后加上一个字符,用于表明压缩对象,随后是该字符的重复次数。本算法具有局限性,很少单独使用,多与其他算法配合使用。
4)LZW算法的原理是用字典词条的编码代替在压缩数据中的字符串。因此字典中的词条越多,压缩率越高,加大字典的容量可以提高压缩率。字典的容量受计算机的内存限制。
有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。
‘陆’ 什么是数据压缩
数据压缩是指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间。数据压缩包括有损压缩和无损压缩。
‘柒’ 数据压缩的方法
这方面技术现在还没有突破,各种算法差异不大:我一般都用7Z 感觉还不错
WAV/PCM的音频格式,用rar压缩率比7z高很多,而bmp/位图的则是7z要高些。
7-Zip 主要特征
使用了 LZMA 与 LZMA2 算法的 7z 格式 拥有极高的压缩比
支持格式:
压缩 / 解压缩:7z, XZ, BZIP2, GZIP, TAR, ZIP and WIM
仅
解压缩:ARJ, CAB, CHM, CPIO, CramFS, DEB, DMG, FAT, HFS, ISO, LZH, LZMA,
MBR, MSI, NSIS, NTFS, RAR, RPM, SquashFS, UDF, VHD, WIM, XAR, Z
对于 ZIP 及 GZIP 格式,7-Zip 能提供比使用 PKZip 及 WinZip 高 2-10% 的压缩比
为 7z 与 ZIP 提供更完善的 AES-256 加密算法
7z 格式支持创建自释放压缩包
Windows 资源管理器集成
强大的的文件管理器
更给力的命令行版本
支持 FAR Manager 插件
‘捌’ 数据压缩的必要性
必要性:多媒体数据的显着特点就是数据量非常大。例如,一张彩色相片的数据量可达10mb;视频影像和声音由于连续播放,数据量更加庞大。这对计算机的存储以及网络传输都造成了极大的负担。
‘玖’ 数据压缩的定义
数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。
‘拾’ 数据压缩基本原理
无损压缩基本上有2种:
字典式。用之前出现过的消息来替换从,比如:“我非常非常非常喜欢你”,可以压缩为“我非常x3喜欢你”
统计式,用短的替换频繁出现的。比如,哈夫曼压缩算法。
上面只是大概的描述,如果想深入还是找本算法书看看吧。