lzo算法_大数据培训到底是培训什么

1. 如何查看hadoop maprece 性能

1) 优化map,rece任务运行的数量
症状：
每个 map 或 rece 任务都在30-40秒内结束。一个大job没有使用上所有集群中的可用槽位。在大部分mapper和recer都订好运行计划后，1到2个仍在pending状态直到最后才单独运行。诊断:优化map和rece的任务是非常重要但是经常被忽视，这里介绍几个我常用的相关设置方法：

如果每个任务只执行30-40秒就结束，请减少总的task数量。Task的基本设置和计划本身会消耗几秒钟的时间。所以如果Task执行非常快的话，时间就都浪费在准备Task上了。也可以开启JVM的reuse功能来减少建立task的基本开销。如果job要处理超过1TB的数据，可以考虑增加输入数据的块Block的大小从256MB到512MB。这样也会减小需要运行的Task数。可以通过如下命令改变数据块大小：hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks.执行完该命令就可以清除原来的文件了。在保证每个任务执行都超过30-40秒后，可以增加mapper task为mapper slot(可以执行mapper 机器)的整数倍，如果你有100个可以运行Map任务的节点，尽量不要运行101个Map Task，第101个Map task 会在第一批100个Map任务执行完之后才执行，这点主要针对的是小型集群和小型任务。
不要计划执行太多的Rece任务，对于大多数任务，我们建议Rece任务数要等于或小于集群中可运行Rece任务的节点数。
性能测试:
我使用一个参数-Dmapred.max.split.size=$[16*1024*1024] 来展示设置了过多任务的wordcount程序。这样会产生2640个而不是默认的360个任务来执行该程序。当以这种配置运行时单个的任务平均只用9秒，在JobTracker的监控页面上可以看到正在map任务数在0到24之间波动，整个Job花了17分52秒，是原来配置的2倍。

2) 在集群上使用 LZO 压缩插件

症状：
*应用于中间数据LZO压缩始终是个好方法。
*MapRece 任务输出文件尺寸很大。
*在任务运行时Slave节点上top和iostat中显示高iowait。

诊断：
几乎任何产生大量map输出的MapRece任务都能从LZO压缩算法受益。虽然LZO增加了一些CPU的负载，但是shuffle阶段减少的大量磁盘IO操作会把时间完全节省回来。
当job要处理大量数据时，LZO压缩也可以增加输出方面的的性能。在默认的3份复制配置下，每1GB压缩省下的空间都相当于节省了3GB的IO写操作。
要开启LZO压缩，请见另一篇文章，

记得要把mapred.compress.map.output设为true。

性能对比:
禁用LZO只在测试中轻微延长了运行时间。但是文件写出量计数FILE_BYTESwww.hbbz08.com_WRITTEN从3.5G增长到9.2G，显示出62%的IO优化效果，在一个job独自运行的环境下，IO并不是瓶颈，所以时间缩短并不明显。当在高任务并发的集群上运行时，60%的IO减少会带来明显的速度提升。

3) 正确配置Hadoop集群
症状：
*当所有的MapRece任务栏位都在运行任务时，用top命令观察到slave节点仍然相对的空闲。
*用top观察到内核进程RAID(mdX_raid*)或pdflush占用大量CPU
*Linux平均负载经常高于系统CPU数x2
*执行任务时，Linux平均负载低于系统CPU数
*节点上超过几MB的SWAP使用量
诊断：

2. Hive优化之Hive的配置参数优化

Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

1. 创建一个普通表

table test_user1(id int, name string,code string,code_id string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

2. 查看这张表的信息

DESCRIBE FORMATTED test_user1;

我们从该表的描述信息介绍建表时的一些可优化点。

2.1 表的文件数

numFiles表示表中含有的文件数，当文件数过多时可能意味着该表的小文件过多，这时候我们可以针对小文件的问题进行一些优化，HDFS本身提供了解决方案：

（1）Hadoop Archive/HAR：将小文件打包成大文件。

（2）SEQUENCEFILE格式：将大量小文件压缩成一个SEQUENCEFILE文件。

（3）CombineFileInputFormat：在map和rece处理之前组合小文件。

（4）HDFS Federation：HDFS联盟，使用多个namenode节点管理文件。

除此之外，我们还可以通过设置hive的参数来合并小文件。

（1）输入阶段合并

需要更改Hive的输入文件格式，即参数hive.input.format，默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat，我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。这样比起上面对mapper数的调整，会多出两个参数，分别是mapred.min.split.size.per.node和mapred.min.split.size.per.rack，含义是单节点和单机架上的最小split大小。如果发现有split大小小于这两个值（默认都是100MB），则会进行合并。具体逻辑可以参看Hive源码中的对应类。

（2）输出阶段合并

直接将hive.merge.mapfiles和hive.merge.mapredfiles都设为true即可，前者表示将map-only任务的输出合并，后者表示将map-rece任务的输出合并，Hive会额外启动一个mr作业将输出的小文件合并成大文件。另外，hive.merge.size.per.task可以指定每个task输出后合并文件大小的期望值，hive.merge.size.smallfiles.avgsize可以指定所有输出文件大小的均值阈值，默认值都是1GB。如果平均大小不足的话，就会另外启动一个任务来进行合并。

2.2 表的存储格式

通过InputFormat和OutputFormat可以看出表的存储格式是TEXT类型，Hive支持TEXTFILE, SEQUENCEFILE, AVRO, RCFILE, ORC,以及PARQUET文件格式，可以通过两种方式指定表的文件格式：

（1）CREATE TABLE ... STORE AS <file_format>:在建表时指定文件格式，默认是TEXTFILE

（2）ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT <file_format>:修改具体表的文件格式

如果要改变创建表的默认文件格式，可以使用set

hive.default.fileformat=<file_format>进行配置，适用于所有表。同时也可以使用set

hive.default.fileformat.managed = <file_format>进行配置，仅适用于内部表或外部表。

扩展：不同存储方式的情况

TEXT,

SEQUENCE和

AVRO文件是面向行的文件存储格式，不是最佳的文件格式，因为即便只查询一列数据，使用这些存储格式的表也需要读取完整的一行数据。另一方面，面向列的存储格式(RCFILE,

ORC, PARQUET)可以很好地解决上面的问题。关于每种文件格式的说明，如下：

（1）TEXTFILE

创建表时的默认文件格式，数据被存储成文本格式。文本文件可以被分割和并行处理，也可以使用压缩，比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理，会造成一个作业只有一个mapper去处理数据，使用压缩的文本文件要确保文件不要过大，一般接近两个HDFS块的大小。

（2）SEQUENCEFILE

key/value对的二进制存储格式，sequence文件的优势是比文本格式更好压缩，sequence文件可以被压缩成块级别的记录，块级别的压缩是一个很好的压缩比例。如果使用块压缩，需要使用下面的配置：set

hive.exec.compress.output=true; set io.seqfile.compression.type=BLOCK

（3）AVRO

二进制格式文件，除此之外，avro也是一个序列化和反序列化的框架。avro提供了具体的数据schema。

（4）RCFILE

全称是Record Columnar File，首先将表分为几个行组，对每个行组内的数据进行按列存储，每一列的数据都是分开存储，即先水平划分，再垂直划分。

（5）ORC

全称是Optimized Row Columnar，从hive0.11版本开始支持，ORC格式是RCFILE格式的一种优化的格式，提供了更大的默认块(256M)

（6）PARQUET

另外一种列式存储的文件格式，与ORC非常类似，与ORC相比，Parquet格式支持的生态更广，比如低版本的impala不支持ORC格式。

配置同样数据同样字段的两张表，以常见的TEXT行存储和ORC列存储两种存储方式为例，对比执行速度。

TEXT存储方式

总结：从上图中可以看出列存储在对指定列进行查询时，速度更快，建议在建表时设置列存储的存储方式。

2.3 表的压缩

对Hive表进行压缩是常见的优化手段，一些存储方式自带压缩选择，比如SEQUENCEFILE支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，一般建议使用BLOCK压缩；

ORC支持三种压缩选择：NONE，ZLIB，SNAPPY。我们以TEXT存储方式和ORC存储方式为例，查看表的压缩情况。

配置同样数据同样字段的四张表，一张TEXT存储方式，另外三张分别是默认压缩方式的ORC存储、SNAPPY压缩方式的ORC存储和NONE压缩方式的ORC存储，查看在hdfs上的存储情况：

TEXT存储方式

默认压缩ORC存储方式

SNAPPY压缩的ORC存储方式

NONE压缩的ORC存储方式

总结：可以看到ORC存储方式将数据存放为两个block，默认压缩大小加起来134.69M，SNAPPY压缩大小加起来196.67M，NONE压缩大小加起来247.55M，TEXT存储方式的文件大小为366.58M，且默认block两种存储方式分别为256M和128M，ORC默认的压缩方式比SNAPPY压缩得到的文件还小，原因是ORZ默认的ZLIB压缩方式采用的是deflate压缩算法，比Snappy压缩算法得到的压缩比高，压缩的文件更小。 ORC不同压缩方式之间的执行速度，经过多次测试发现三种压缩方式的执行速度差不多，所以建议采用ORC默认的存储方式进行存储数据。

2.4 分桶分区

Num Buckets表示桶的数量，我们可以通过分桶和分区操作对Hive表进行优化：

对于一张较大的表，可以将它设计成分区表，如果不设置成分区表，数据是全盘扫描的，设置成分区表后，查询时只在指定的分区中进行数据扫描，提升查询效率。要注意尽量避免多级分区，一般二级分区足够使用。常见的分区字段：

（1）日期或者时间，比如year、month、day或者hour，当表中存在时间或者日期字段时，可以使用些字段。

（2）地理位置，比如国家、省份、城市等

（3）业务逻辑，比如部门、销售区域、客户等等

与分区表类似，分桶表的组织方式是将HDFS上的一张大表文件分割成多个文件。分桶是相对分区进行更细粒度的划分，分桶将整个数据内容按照分桶字段属性值得hash值进行区分，分桶可以加快数据采样，也可以提升join的性能(join的字段是分桶字段)，因为分桶可以确保某个key对应的数据在一个特定的桶内(文件)，所以巧妙地选择分桶字段可以大幅度提升join的性能。通常情况下，分桶字段可以选择经常用在过滤操作或者join操作的字段。

创建分桶表

create

table test_user_bucket(id int, name string,code string,code_id string )

clustered by(id) into 3 buckets ROW FORMAT DELIMITED FIELDS TERMINATED

BY ',';

查看描述信息

DESCRIBE FORMATTED test_user_bucket

多出了如下信息

查看该表的hdfs

同样的数据查看普通表和分桶表查询效率

普通表

分桶表

普通表是全表扫描，分桶表在按照分桶字段的hash值分桶后，根据join字段或者where过滤字段在特定的桶中进行扫描，效率提升。

本文首发于：数栈研习社

数栈是云原生—站式数据中台PaaS，我们在github上有一个有趣的开源项目： FlinkX

FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，比如MySQL，HDFS等，也可以采集实时变化的数据，比如MySQL

binlog，Kafka等，是全域、异构、批流一体的数据同步引擎，大家如果有兴趣，欢迎来github社区找我们玩~

3. HDFS文件

Hadoop支持的文件系统由很多（见下图），HDFS只是其中一种实现。java抽象类 org.apache.hadoop.fs.FileSystem 定义了Hadoop中一个文件系统的客户端接口，并且该抽象类有几个具体实现。Hadoop一般使用URI（下图）方案来选取合适的文件系统实例进行交互。

特别的，HDFS文件系统的操作可以使用 FsSystem shell 、客户端（http rest api、Java api、C api等）。

FsSystem shell 的用法基本同本地shell类似，命令可参考 FsSystem shell

Hadoop是用Java写的，通过Java Api（ FileSystem 类）可以调用大部分Hadoop文件系统的交互操作。更详细的介绍可参考 hadoop Filesystem 。

非Java开发的应用可以使用由WebHDFS协议提供的HTTP REST API，但是HTTP比原生的Java客户端要慢，所以不到万不得已尽量不要使用HTTP传输特大数据。通过HTTP来访问HDFS有两种方法：

两种如图

在第一种情况中，namenode和datanode内嵌的web服务作为WebHDFS的端节点运行（是否启用WebHDFS可通过dfs.webhdfs.enabled设置，默认为true）。文件元数据在namenode上，文件读写操作首先被发往namenode，有namenode发送一个HTTP重定向至某个客户端，指示以流的方式传输文件数据的目的或源datanode。

第二种方法依靠一个或多个独立代理服务器通过HTTP访问HDFS。所有集群的网络通信都需要通过代理，因此客户端从来不直接访问namenode或datanode。使用代理后可以使用更严格的防火墙策略和带宽策略。

HttpFs代理提供和WebHDFS相同的HTTP接口，这样客户端能够通过webhdfs URI访问接口。HttpFS代理启动独立于namenode和datanode的守护进程，使用httpfs.sh 脚本，默认在一个不同的端口上监听（14000）。

下图描述了

读文件时客户端与 HDFS 中的 namenode， datanode 之间的数据流动。

对上图的解释如下：

在读取过程中，如果 FSDataInputStream 在和一个 datanode 进行交流时出现了一个错误，他就去试一试下一个最接近的块，他当然也会记住刚才发生错误的 datanode 以至于之后不会再在这个 datanode 上进行没必要的尝试。 DFSInputStream 也会在 datanode 上传输出的数据上核查检查数(checknums).如果损坏的块被发现了， DFSInputStream 就试图从另一个拥有备份的 datanode 中去读取备份块中的数据。

在这个设计中一个重要的方面就是客户端直接从 datanode 上检索数据，并通过 namenode 指导来得到每一个块的最佳 datanode。这种设计允许 HDFS 扩展大量的并发客户端，因为数据传输只是集群上的所有 datanode 展开的。期间，namenode 仅仅只需要服务于获取块位置的请求（块位置信息是存放在内存中，所以效率很高）。如果不这样设计，随着客户端数据量的增长，数据服务就会很快成为一个瓶颈。

我们知道，相对于客户端(之后就是 maprece task 了)，块的位置有以下可能性：

我们认为他们对于客户端的带宽递减，距离递增（括号中表示距离）。示意图如下：

如果集群中的机器都在同一个机架上，我们无需其他配置，若集群比较复杂，由于hadoop无法自动发现网络拓扑，所以需要额外配置网络拓扑。

基本读取程序，将文件内容输出到console

FileSystemCat

随机读取

展开原码

下图描述了写文件时客户端与 HDFS 中的 namenode， datanode 之间的数据流动。

对上图的解释如下：

如果在任何一个 datanode 在写入数据的时候失败了，接下来所做的一切对客户端都是透明的：首先， pipeline 被关闭，在确认队列中的剩下的包会被添加进数据队列的起始位置上，以至于在失败的节点下游的任何节点都不会丢失任何的包。然后与 namenode 联系后，当前在一个好的 datanode 会联系 namenode，给失败节点上还未写完的块生成一个新的标识ID，以至于如果这个失败的 datanode 不久后恢复了，这个不完整的块将会被删除。失败节点会从 pipeline 中移除，然后剩下两个好的 datanode 会组成一个的新的 pipeline ，剩下的这些块的包(也就是刚才放在数据队列队首的包)会继续写进 pipeline 中好的 datanode 中。最后，namenode 注意到块备份数小于规定的备份数，他就安排在另一个节点上创建完成备份，直接从已有的块中复制就可以。然后一直到满足了备份数( dfs.replication )。如果有多个节点的写入失败了，如果满足了最小备份数的设置( dfs.namenode.repliction.min ),写入也将会成功，然后剩下的备份会被集群异步的执行备份，直到满足了备份数( dfs.replication )。

创建目录

文件压缩有两大好处：

Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名（比如 lzo，gz，bzip2 等）。Hadoop 会根据压缩格式的扩展名自动选择相对应的解码器来解压数据，此过程完全是 Hadoop 自动处理，我们只需要确保输入的压缩文件有扩展名。

Hadoop中有多种压缩格式、算法和工具，下图列出了常用的压缩方法。

表中的“是否可切分”表示对应的压缩算法是否支持切分，也就是说是否可以搜索数据流的任意位置并进一步往下读取数据，可切分的压缩格式尤其适合MapRece。

所有的压缩算法都需要权衡空间/时间：压缩和解压缩速度更快，其代价通常是只能节省少量的空间。不同的压缩工具有不同的特性：

更详细的比较如下

1.压缩性能比较

2.优缺点

另外使用hadoop原生（native）类库比其他java实现有更快的压缩和解压缩速度。特征比较如下：

使用容器文件格式结合压缩算法也能更好的提高效率。顺序文件、Arvo文件、ORCFiles、Parqurt文件同时支持压缩和切分。

压缩举例（Java）

压缩

解压缩

六、文件序列化

序列化是指将结构化数据转换为字节流以便在网络上传输或写到磁盘进行永久存储。反序列化狮子将字节流转换回结构化对象的逆过程。

序列化用于分布式数据处理的两大领域：进程间通信和永久存储。

对序列化的要求时是格式紧凑（高效使用存储空间）、快速（读写效率高）、可扩展（可以透明地读取老格式数据）且可以互操作（可以使用不同的语言读写数据）。

Hadoop使用的是自己的序列化格式 Writable ，它绝对紧凑、速度快，但不太容易用java以外的语言进行扩展或使用。

当然，用户也可以使用其他序列化框架或者自定义序列化方式，如 Avro 框架。

Hadoop内部还使用了 Apache Thrift 和 Protocal Buffers 来实现RPC和数据交换。

4. 电脑的压缩文件有什么用

如果你要一次上传多个文件，可以用Winrar压缩成一个文件，不仅方便而且压缩以后原文件将缩小一些。
文件压缩，原本是在那个存储空间甚至需要以字节来计算的时代，为了节省文件所占用的空间而诞生的。而随着网络的普及，为了节省文件在网络上传输的流量及时间，对文件进行压缩也几乎成为了必备的过程。
根据所使用的压缩算法的不同，压缩文件也被区分为不同的格式。下面列表中的是所有的压缩文件格式，不过常用的并没有那么多，而在Windows系统上面常用的就更少了。下面介绍一下压缩文件的所有格式：
* .0 - Hacha Split存档
* .000 - DoubleSpace压缩档
* .001 - 7-Zip压缩Split档
* .7z - 7-Zip压缩档
* .ace -WinAce压缩档
* .ain - AIN压缩存档
* .alz - ALZip存档
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc压缩存档
* .ari - ARI压缩存档
* .arj - ARJ压缩存档
* .axx - AxCrypt加密档
* .bh - BlakHole存档
* .bhx - BinHex编码档
* .boo - Booasm压缩存档
* .bz - Bzip压缩档
* .bza -
* .bz2 - Bzip2压缩档
* .bzip2 - Bzip2压缩存档
* .c00 -WinAceSplit存档
* .c01 -WinAceSplit存档分卷
* .c02 -WinAceSplit存档分卷
* .cab -
* .car - CAR存档
* .cbr - Comic Book RAR存档
* .cbz - Comic Book ZIP存档
* .cp9 - ChoicePoint Encrypted档
* .cpgz - 压缩CPIO存档
* .cpt - Compact Pro存档
* .dar - DAR Disk存档
* .dd - DiskDouber存档
* .deb - Debian软件包
* .dgc - DGCA存档
* .dist - Mac OS X Distribution Script
* .ecs - Sony Ericsson Phone备份档
* .efw - Renamed Zip or Executable档
* .f - Freeze压缩档
* .fdp - MySafe加密数据
* .gca - GCA存档
* .gz - Gnu Zipped档
* .gzi - Unix Gzip档
* .gzip - Gnu Zipped档
* .ha - HA压缩存档
* .hbc - HyperBac压缩存档
* .hbc2 - HyperBac压缩存档
* .hbe - HyperBac压缩加密存档
* .hki - WinHKI存档
* .hki1 - WinHKI HKI1存档
* .hki2 - WinHKI HKI2存档
* .hki3 - WinHKI HKI3存档
* .hpk - HPack压缩存档
* .hyp- HYPER压缩存档
* .ice - ICE存档
* .imp - Winimp压缩存档
* .ipg - iPod游戏档
* .ipk - Itsy包
* .ish - ISH压缩存档
* .j - JAR存档
* .jar - JAR存档
* .jgz - Gzipped Javascript档
* .jic - Java Icon档
* .kgb - KGB存档
*.kz -快压存档
* .lbr - LU Library存档
* .lha - LHARC压缩存档
* .lnx - Commodore 64 Lynx存档
* .lqr - SQ压缩LBR存档
* .lzh - LZH压缩档
* .lzm - Slax Mole
* .lzma - LZMA压缩档
* .lzo - LZO压缩档
* .lzx - Amiga LZX压缩档
* .md - MDCD压缩存档
* .mint - Linux Mint安装程序档
* .mou - Winmount压缩档
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip压缩档
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage档
* .pae - PowerArchiver加密存档
* .pak- PAK (Packed)档
* .paq6 - PAQ6数据存档
* .paq7 - PAQ7数据存档
* .paq8 - PAQ8数据存档
* .par - Parchive Index档
* .par2 - Parchive 2 Index档
* .pbi - PC BSD安装程序包
* .pcv - Mozilla Profile备份
* .pea - PEA存档
* .pf - Private档
* .pim - PIM存档
* .pit - PackIt压缩存档
* .piz - Zipped档
* .pkg - Mac OS X安装程序包
* .pup - PlayStation 3 Update档
* .pup - Puppy Linux DotPup安装程序包
* .puz - Packed Publisher档
* .pwa - Password Agent档
* .qda - Quadruple D存档
* .r00 - WinRAR压缩存档
* .r01 - WinRAR Split存档分卷1
* .r02 - WinRAR Split存档分卷2
* .r03 - WinRAR Split存档分卷3
* .rar - WinRAR压缩存档
* .rk - WinRK存档
* .rnc - RNC ProPack存档
* .rpm - Red Hat Package Manager档
* .rte - RTE编码档
* .rz - Rzip压缩档
* .rzs - Red Zion Security档
* .s00 - ZipSplitter分卷1存档
* .s01 - ZipSplitter分卷2存档
* .s02 - ZipSplitter分卷3存档
* .s7z - Mac OS X 7-Zip档
* .sar - Service存档
* .sdn - Shareware Distributors Network档
* .sea - Self-Extracting存档
* .sfs- SquashFS存档
* .sfx - Windows自解压存档
* .sh - Unix Shell存档
* .shar - Unix Shar存档
* .shk - ShrinkIt存档
* .shr - Unix Shell存档
* .sit - Stuffit存档
* .sitx - Stuffit X存档
* .spt - TM File Packer压缩存档
* .sqx - SQX存档
* .sqz - Squeezed Video档
* .tar - Consolidated Unix档
* .tbz2 - Tar BZip 2压缩档
* .tgz - Gzipped Tar档
* .tlz - Tar LZMA压缩档
* .uc2 - UltraCompressor 2存档
* .uha -UHarc压缩存档
* .uue - UUEncoded档
* .vsi- Visual Studio Content安装程序档
* .wad - Compressed游戏数据
* .war - Java Web存档
* .wot - Web Of Trust档
* .xef -WinAce加密档
* .xez - eManager Template包
* .xpi - Mozilla安装程序包
* .xx - XXEncoded档
* .xxe - XXEncoded档
* .y - Amiga Yabba压缩档
* .yz - YAC压缩档
* .z - Unix压缩档
* .zap - FileWrangler存档
* .zfsendtotarget -压缩档夹
* .zip - Zipped档
* .zipx- Winzip压缩档
* .zix - WinZix压缩档
* .zoo - Zoo压缩档
* .zz - Zzip压缩存档
*.exe - 自解压格式

5. 天联高级版客户端出现无法加载资源怎么处理

多刷新几次，如果确实不行建议更换浏览器重新搜索。
天联高级版客户端是一款功能全面的网络工具，这款软件可以为用户提供高效的跨平台数据交互传递，天联高级客户端最新版可以让企业内部下达指令或传输文件时更加方便，并且使用非常简单，无需公网IP，无需端口映射。软件特色
1、动态负载均衡
天联服务器具有动态负载均衡功能，可根据系统的使用及负载情况，随时对原有系统进行扩充和调整。当某台服务器出现故障时，集群中的其它服务器会自动选举一台服务器出来承担服务，从而不会出现因主服务器失效而导致整个系统的瘫痪，这对一些关键业务应用的用户来说，是一种稳定保障。
2、天联标准版客户端最新版采用最先进的优化技术，选择最快的连接线路
天联采用了虚拟链路优化技术，解决了国内跨运营商部署网络时遇到的带宽小，延迟大的问题。天联会根据客户的实际网络环境对虚拟专用链路进行优化。
3、采用高效压缩算法，提高访问速度
天联采用了GZIP和LZO高速流压缩算法，对所有的压缩后传送，大大提高了终端用户在使用Web资源和C/S应用时的访问速度，减少下载时间和网络流量。尤其当终端用户在GPRS/CDMA等移动网络上使用时，效果更为明显，速度可以提高一倍以上。
4、安全的加密认证
天联(TeamLink)采用标准的SSL协议加密建立安全的专用通道，使用RC4 (128 位)加密算法进行加密，并通过RSA(1024 位交换)非对称密钥进行签名，保证了数据在传输过程中的安全性。
5、身份认证和短信提醒
天联每个客户端都要到天联服务器做一下验证，只能在验证通过后成功，服务器这端通过各种认证方法来保证客户端的正确性;同时在每一个客户端成功后，和该组绑定的手机就会收到一条提示短信，保证系统的安全性，防止用户名或者密码泄露。
6、应用广泛，完整支持
天联实现了对应用程序的完整支持，客户端在登陆的过程中在客户端的机器上会生成一块专门用于通讯的虚拟网卡，因而天联远程登录用户便可使用所有基于IP网络层以上的应用。同时总部网络还能够实现与远程接入用户的双向访问。这种领先技术的应用，使得第三代——天联能够支持任何复杂的各种B/S和C/S的应用。

6. 压缩文件格式是什么有哪些

本文操作环境：windows7系统、Dell G3电脑。
压缩文件格式指的是文件经过某个程序执行压缩后的文件格式。
任何一个文件存储在电脑上都有它的格式，例如文本格式像.txt .doc，图像格式 .jpg .tif .bmp等。所有压缩文件也有压缩的格式，一没橘磨般我们看到的压缩格式有 .rar .zip，但主要压缩的作用就是让某一个文件占用空间小点。比如原来是30MB,可以压缩到20多MB。
压缩文件格式
常见扩展名－文件说明
* .rar - WinRAR压缩存档
rar是一种常见的压缩格式，而且，rar是一种专利文件格式，是由俄罗斯人尤金·罗谢尔开发，主要用于数据压缩和归档打包方面，rar的全称为“Roshal ARchive”，翻译为中文就是“罗谢尔的归档之意”。相比于另一种常见的压缩格式zip，rar压缩格式有着更高的压缩比，但也存在着压缩和解压速度较慢的特点。
* .7z - 7-Zip压缩档
7-zip压缩格式是一款免费开源的压缩软件格式，7-zip是基于GNU LGPL协议发布的软件，是完全开源的，7-zip是通过全新的算法来使压缩比大幅提高。7-zip 不仅比zip压缩比更高，而且相对于rar，占用更少的系统资源。
* .zip - Zipped档
zip文件压缩格式是另一种常见的数据压缩和文档归档存储格式，zip的发明人是美国人菲尔·卡茨（Phil Katz），zip格式的推出是早于rar的，由于zip的伍谨出现时间较早的缘故，zip与后来者的压缩过格式有一些无法忽视的缺点，比如zip原声不支持unicode，这容易导致一部分的资源共享困难，压缩和解压会出现乱码，尤其在东亚文化圈中尤其显着。
其他扩展名－文件说枯斗明
* .ace -WinAce压缩档
* .ain - AIN压缩存档
* .alz - ALZip存档
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc压缩存档
* .ari - ARI压缩存档
* .arj - ARJ压缩存档
* .axx - AxCrypt加密档
* .bh - BlakHole存档
* .bhx - BinHex编码档
* .boo - Booasm压缩存档
* .bz - Bzip压缩档
* .bza -LZArc bza 压缩档
* .bz2 - Bzip2压缩档
* .c00 -WinAceSplit存档
* .c01 -WinAceSplit存档分卷
* .c02 -WinAceSplit存档分卷
* .cab -cab 存档
* .car - CAR Archiver存档
* .cbr - Comic Book RAR存档
* .cbz - Comic Book ZIP存档
* .cp9 - ChoicePoint Encrypted档
* .cpgz - 压缩CPIO存档
* .cpt - Compact Pro存档
* .dar - DAR Disk存档
* .dd - DiskDouber存档
* .dgc -DGCA存档
* .efw - Renamed Zip or Executable档
* .f - Freeze压缩档
* .gca - GCA存档
* .gz - Gnu Zipped档
* .ha - HA压缩存档
* .hbc - HyperBac压缩存档
* .hbc2 - HyperBac压缩存档
* .hbe - HyperBac压缩加密存档
* .hki - WinHKI存档
* .hki1 - WinHKI HKI1存档
* .hki2 - WinHKI HKI2存档
* .hki3 - WinHKI HKI3存档
* .hpk - HPack压缩存档
* .hyp- HYPER压缩存档
* .ice - ICE存档
* .imp - Winimp压缩存档
* .ipk - Itsy包
* .ish - ISH压缩存档
* .jar - JAVA ARCHIVE
* .jgz - 经gzip压缩的* .JS代码文件
* .jic - Java Icon档
* .kgb - KGB存档
*.kz - 快压(kuaizip)存档
* .lbr - LU Library存档
* .lha - LHARC压缩存档
* .lnx - Commodore 64 Lynx存档
* .lqr - SQ压缩LBR存档
* .lz4 - LZ4压缩档
* .lzh - LZH压缩档
* .lzm - Slax Mole
* .lzma - LZMA压缩档
* .lzo - LZO压缩档
* .lzx - Amiga LZX压缩档
* .md - MDCD压缩存档
* .mint - Linux Mint安装程序档
* .mou - Winmount压缩档
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip压缩档
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage档
* .pae - PowerArchiver加密存档
* .pak- PAK (Packed)档
* .paq6 - PAQ6数据存档
* .paq7 - PAQ7数据存档
* .paq8 - PAQ8数据存档
* .par - Parchive Index档
* .par2 - Parchive 2 Index档
* .pbi - PC BSD安装程序包
* .pcv - Mozilla Profile备份
* .pea - PEA存档
* .pf - Private档
* .pim - PIM存档
* .pit - PackIt压缩存档
* .piz - Zipped档
* .puz - Packed Publisher档
* .pwa - Password Agent档
* .qda - Quadruple D存档
* .r00 - WinRAR压缩存档
* .r01 - WinRAR Split存档分卷1
* .r02 - WinRAR Split存档分卷2
* .r03 - WinRAR Split存档分卷3
* .rk - WinRK存档
* .rnc - RNC ProPack存档
* .rpm - Red Hat Package Manager档
* .rte - RTE编码档
* .rz - Rzip压缩档
* .rzs - Red Zion Security档
* .s00 - ZipSplitter分卷1存档
* .s01 - ZipSplitter分卷2存档
* .s02 - ZipSplitter分卷3存档
* .s7z - Mac OS X 7-Zip档
* .sar - Service存档
* .sdn - Shareware Distributors Network档
* .sea - Self-Extracting存档
* .sfs- SquashFS存档
* .sfx - Windows自解压存档
* .sh - Unix Shell存档
* .shar - Unix Shar存档
* .shk - ShrinkIt存档
* .shr - Unix Shell存档
* .sit - Stuffit存档
* .sitx - Stuffit X存档
* .spt - TM File Packer压缩存档
* .sqx - SQX存档
* .sqz - Squeezed Video档
* .tar - Consolidated Unix档
* .taz - UinxTar.Z压缩档
* .tbz - Tar Bzip 档
* .tbz2 - Tar BZip 2压缩档
* .tgz - Gzipped Tar档
* .tlz - Tar LZMA压缩档
* .tlz4-Tar Lz4 压缩档
* .txz-Tar XZ压缩档
* .uc2 - UltraCompressor 2存档
* .uha -UHarc压缩存档
* .uue - UUEncoded档
* .wot - Web Of Trust档
* .xef -WinAce加密档
* .xx - XXEncoded档
* .xxe - XXEncoded档
*.xz-XZ压缩档
* .y - Amiga Yabba压缩档
* .yz - YAC压缩档
* .yz1 - LZArc yz1 压缩档
* .z - Unix压缩档
* .zap - FileWrangler存档
* .zipx- Winzip压缩档
* .zix - WinZix压缩档
* .zoo - Zoo压缩档
* .zz - Zzip压缩存档
*.exe - 自解压格式

7. 大数据培训到底是培训什么

一、基础部分：JAVA语言和 LINUX系统

二、数据开发:

1、数据分析与挖掘

一般工作包括数据清洗，执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。

大数据培训一般是指大数据开发培训。

大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

2、大数据开发

数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等；

课程学习一共分为六个阶段：

导航:首页 > 源码编译 > lzo算法

lzo算法

与lzo算法相关的资料