lzo演算法_大數據培訓到底是培訓什麼

1. 如何查看hadoop maprece 性能

1) 優化map,rece任務運行的數量
症狀：
每個 map 或 rece 任務都在30-40秒內結束。一個大job沒有使用上所有集群中的可用槽位。在大部分mapper和recer都訂好運行計劃後，1到2個仍在pending狀態直到最後才單獨運行。診斷:優化map和rece的任務是非常重要但是經常被忽視，這里介紹幾個我常用的相關設置方法：

如果每個任務只執行30-40秒就結束，請減少總的task數量。Task的基本設置和計劃本身會消耗幾秒鍾的時間。所以如果Task執行非常快的話，時間就都浪費在准備Task上了。也可以開啟JVM的reuse功能來減少建立task的基本開銷。如果job要處理超過1TB的數據，可以考慮增加輸入數據的塊Block的大小從256MB到512MB。這樣也會減小需要運行的Task數。可以通過如下命令改變數據塊大小：hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks.執行完該命令就可以清除原來的文件了。在保證每個任務執行都超過30-40秒後，可以增加mapper task為mapper slot(可以執行mapper 機器)的整數倍，如果你有100個可以運行Map任務的節點，盡量不要運行101個Map Task，第101個Map task 會在第一批100個Map任務執行完之後才執行，這點主要針對的是小型集群和小型任務。
不要計劃執行太多的Rece任務，對於大多數任務，我們建議Rece任務數要等於或小於集群中可運行Rece任務的節點數。
性能測試:
我使用一個參數-Dmapred.max.split.size=$[16*1024*1024] 來展示設置了過多任務的wordcount程序。這樣會產生2640個而不是默認的360個任務來執行該程序。當以這種配置運行時單個的任務平均只用9秒，在JobTracker的監控頁面上可以看到正在map任務數在0到24之間波動，整個Job花了17分52秒，是原來配置的2倍。

2) 在集群上使用 LZO 壓縮插件

症狀：
*應用於中間數據LZO壓縮始終是個好方法。
*MapRece 任務輸出文件尺寸很大。
*在任務運行時Slave節點上top和iostat中顯示高iowait。

診斷：
幾乎任何產生大量map輸出的MapRece任務都能從LZO壓縮演算法受益。雖然LZO增加了一些CPU的負載，但是shuffle階段減少的大量磁碟IO操作會把時間完全節省回來。
當job要處理大量數據時，LZO壓縮也可以增加輸出方面的的性能。在默認的3份復制配置下，每1GB壓縮省下的空間都相當於節省了3GB的IO寫操作。
要開啟LZO壓縮，請見另一篇文章，

記得要把mapred.compress.map.output設為true。

性能對比:
禁用LZO只在測試中輕微延長了運行時間。但是文件寫出量計數FILE_BYTESwww.hbbz08.com_WRITTEN從3.5G增長到9.2G，顯示出62%的IO優化效果，在一個job獨自運行的環境下，IO並不是瓶頸，所以時間縮短並不明顯。當在高任務並發的集群上運行時，60%的IO減少會帶來明顯的速度提升。

3) 正確配置Hadoop集群
症狀：
*當所有的MapRece任務欄位都在運行任務時，用top命令觀察到slave節點仍然相對的空閑。
*用top觀察到內核進程RAID(mdX_raid*)或pdflush佔用大量CPU
*Linux平均負載經常高於系統CPU數x2
*執行任務時，Linux平均負載低於系統CPU數
*節點上超過幾MB的SWAP使用量
診斷：

2. Hive優化之Hive的配置參數優化

Hive是大數據領域常用的組件之一，主要用於大數據離線數倉的運算，關於Hive的性能調優在日常工作和面試中是經常涉及的一個點，因此掌握一些Hive調優是必不可少的一項技能。影響Hive效率的主要因素有數據傾斜、數據冗餘、job的IO以及不同底層引擎配置情況和Hive本身參數和HiveSQL的執行等。本文主要從建表配置參數方面對Hive優化進行講解。

1. 創建一個普通表

table test_user1(id int, name string,code string,code_id string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

2. 查看這張表的信息

DESCRIBE FORMATTED test_user1;

我們從該表的描述信息介紹建表時的一些可優化點。

2.1 表的文件數

numFiles表示表中含有的文件數，當文件數過多時可能意味著該表的小文件過多，這時候我們可以針對小文件的問題進行一些優化，HDFS本身提供了解決方案：

（1）Hadoop Archive/HAR：將小文件打包成大文件。

（2）SEQUENCEFILE格式：將大量小文件壓縮成一個SEQUENCEFILE文件。

（3）CombineFileInputFormat：在map和rece處理之前組合小文件。

（4）HDFS Federation：HDFS聯盟，使用多個namenode節點管理文件。

除此之外，我們還可以通過設置hive的參數來合並小文件。

（1）輸入階段合並

需要更改Hive的輸入文件格式，即參數hive.input.format，默認值是org.apache.hadoop.hive.ql.io.HiveInputFormat，我們改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。這樣比起上面對mapper數的調整，會多出兩個參數，分別是mapred.min.split.size.per.node和mapred.min.split.size.per.rack，含義是單節點和單機架上的最小split大小。如果發現有split大小小於這兩個值（默認都是100MB），則會進行合並。具體邏輯可以參看Hive源碼中的對應類。

（2）輸出階段合並

直接將hive.merge.mapfiles和hive.merge.mapredfiles都設為true即可，前者表示將map-only任務的輸出合並，後者表示將map-rece任務的輸出合並，Hive會額外啟動一個mr作業將輸出的小文件合並成大文件。另外，hive.merge.size.per.task可以指定每個task輸出後合並文件大小的期望值，hive.merge.size.smallfiles.avgsize可以指定所有輸出文件大小的均值閾值，默認值都是1GB。如果平均大小不足的話，就會另外啟動一個任務來進行合並。

2.2 表的存儲格式

通過InputFormat和OutputFormat可以看出表的存儲格式是TEXT類型，Hive支持TEXTFILE, SEQUENCEFILE, AVRO, RCFILE, ORC,以及PARQUET文件格式，可以通過兩種方式指定表的文件格式：

（1）CREATE TABLE ... STORE AS <file_format>:在建表時指定文件格式，默認是TEXTFILE

（2）ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT <file_format>:修改具體表的文件格式

如果要改變創建表的默認文件格式，可以使用set

hive.default.fileformat=<file_format>進行配置，適用於所有表。同時也可以使用set

hive.default.fileformat.managed = <file_format>進行配置，僅適用於內部表或外部表。

擴展：不同存儲方式的情況

TEXT,

SEQUENCE和

AVRO文件是面向行的文件存儲格式，不是最佳的文件格式，因為即便只查詢一列數據，使用這些存儲格式的表也需要讀取完整的一行數據。另一方面，面向列的存儲格式(RCFILE,

ORC, PARQUET)可以很好地解決上面的問題。關於每種文件格式的說明，如下：

（1）TEXTFILE

創建表時的默認文件格式，數據被存儲成文本格式。文本文件可以被分割和並行處理，也可以使用壓縮，比如GZip、LZO或者Snappy。然而大部分的壓縮文件不支持分割和並行處理，會造成一個作業只有一個mapper去處理數據，使用壓縮的文本文件要確保文件不要過大，一般接近兩個HDFS塊的大小。

（2）SEQUENCEFILE

key/value對的二進制存儲格式，sequence文件的優勢是比文本格式更好壓縮，sequence文件可以被壓縮成塊級別的記錄，塊級別的壓縮是一個很好的壓縮比例。如果使用塊壓縮，需要使用下面的配置：set

hive.exec.compress.output=true; set io.seqfile.compression.type=BLOCK

（3）AVRO

二進制格式文件，除此之外，avro也是一個序列化和反序列化的框架。avro提供了具體的數據schema。

（4）RCFILE

全稱是Record Columnar File，首先將表分為幾個行組，對每個行組內的數據進行按列存儲，每一列的數據都是分開存儲，即先水平劃分，再垂直劃分。

（5）ORC

全稱是Optimized Row Columnar，從hive0.11版本開始支持，ORC格式是RCFILE格式的一種優化的格式，提供了更大的默認塊(256M)

（6）PARQUET

另外一種列式存儲的文件格式，與ORC非常類似，與ORC相比，Parquet格式支持的生態更廣，比如低版本的impala不支持ORC格式。

配置同樣數據同樣欄位的兩張表，以常見的TEXT行存儲和ORC列存儲兩種存儲方式為例，對比執行速度。

TEXT存儲方式

總結：從上圖中可以看出列存儲在對指定列進行查詢時，速度更快，建議在建表時設置列存儲的存儲方式。

2.3 表的壓縮

對Hive表進行壓縮是常見的優化手段，一些存儲方式自帶壓縮選擇，比如SEQUENCEFILE支持三種壓縮選擇：NONE，RECORD，BLOCK。Record壓縮率低，一般建議使用BLOCK壓縮；

ORC支持三種壓縮選擇：NONE，ZLIB，SNAPPY。我們以TEXT存儲方式和ORC存儲方式為例，查看錶的壓縮情況。

配置同樣數據同樣欄位的四張表，一張TEXT存儲方式，另外三張分別是默認壓縮方式的ORC存儲、SNAPPY壓縮方式的ORC存儲和NONE壓縮方式的ORC存儲，查看在hdfs上的存儲情況：

TEXT存儲方式

默認壓縮ORC存儲方式

SNAPPY壓縮的ORC存儲方式

NONE壓縮的ORC存儲方式

總結：可以看到ORC存儲方式將數據存放為兩個block，默認壓縮大小加起來134.69M，SNAPPY壓縮大小加起來196.67M，NONE壓縮大小加起來247.55M，TEXT存儲方式的文件大小為366.58M，且默認block兩種存儲方式分別為256M和128M，ORC默認的壓縮方式比SNAPPY壓縮得到的文件還小，原因是ORZ默認的ZLIB壓縮方式採用的是deflate壓縮演算法，比Snappy壓縮演算法得到的壓縮比高，壓縮的文件更小。 ORC不同壓縮方式之間的執行速度，經過多次測試發現三種壓縮方式的執行速度差不多，所以建議採用ORC默認的存儲方式進行存儲數據。

2.4 分桶分區

Num Buckets表示桶的數量，我們可以通過分桶和分區操作對Hive表進行優化：

對於一張較大的表，可以將它設計成分區表，如果不設置成分區表，數據是全盤掃描的，設置成分區表後，查詢時只在指定的分區中進行數據掃描，提升查詢效率。要注意盡量避免多級分區，一般二級分區足夠使用。常見的分區欄位：

（1）日期或者時間，比如year、month、day或者hour，當表中存在時間或者日期欄位時，可以使用些欄位。

（2）地理位置，比如國家、省份、城市等

（3）業務邏輯，比如部門、銷售區域、客戶等等

與分區表類似，分桶表的組織方式是將HDFS上的一張大表文件分割成多個文件。分桶是相對分區進行更細粒度的劃分，分桶將整個數據內容按照分桶欄位屬性值得hash值進行區分，分桶可以加快數據采樣，也可以提升join的性能(join的欄位是分桶欄位)，因為分桶可以確保某個key對應的數據在一個特定的桶內(文件)，所以巧妙地選擇分桶欄位可以大幅度提升join的性能。通常情況下，分桶欄位可以選擇經常用在過濾操作或者join操作的欄位。

創建分桶表

create

table test_user_bucket(id int, name string,code string,code_id string )

clustered by(id) into 3 buckets ROW FORMAT DELIMITED FIELDS TERMINATED

BY ',';

查看描述信息

DESCRIBE FORMATTED test_user_bucket

多出了如下信息

查看該表的hdfs

同樣的數據查看普通表和分桶表查詢效率

普通表

分桶表

普通表是全表掃描，分桶表在按照分桶欄位的hash值分桶後，根據join欄位或者where過濾欄位在特定的桶中進行掃描，效率提升。

本文首發於：數棧研習社

數棧是雲原生—站式數據中台PaaS，我們在github上有一個有趣的開源項目： FlinkX

FlinkX是一個基於Flink的批流統一的數據同步工具，既可以採集靜態的數據，比如MySQL，HDFS等，也可以採集實時變化的數據，比如MySQL

binlog，Kafka等，是全域、異構、批流一體的數據同步引擎，大家如果有興趣，歡迎來github社區找我們玩~

3. HDFS文件

Hadoop支持的文件系統由很多（見下圖），HDFS只是其中一種實現。java抽象類 org.apache.hadoop.fs.FileSystem 定義了Hadoop中一個文件系統的客戶端介面，並且該抽象類有幾個具體實現。Hadoop一般使用URI（下圖）方案來選取合適的文件系統實例進行交互。

特別的，HDFS文件系統的操作可以使用 FsSystem shell 、客戶端（http rest api、Java api、C api等）。

FsSystem shell 的用法基本同本地shell類似，命令可參考 FsSystem shell

Hadoop是用Java寫的，通過Java Api（ FileSystem 類）可以調用大部分Hadoop文件系統的交互操作。更詳細的介紹可參考 hadoop Filesystem 。

非Java開發的應用可以使用由WebHDFS協議提供的HTTP REST API，但是HTTP比原生的Java客戶端要慢，所以不到萬不得已盡量不要使用HTTP傳輸特大數據。通過HTTP來訪問HDFS有兩種方法：

兩種如圖

在第一種情況中，namenode和datanode內嵌的web服務作為WebHDFS的端節點運行（是否啟用WebHDFS可通過dfs.webhdfs.enabled設置，默認為true）。文件元數據在namenode上，文件讀寫操作首先被發往namenode，有namenode發送一個HTTP重定向至某個客戶端，指示以流的方式傳輸文件數據的目的或源datanode。

第二種方法依靠一個或多個獨立代理伺服器通過HTTP訪問HDFS。所有集群的網路通信都需要通過代理，因此客戶端從來不直接訪問namenode或datanode。使用代理後可以使用更嚴格的防火牆策略和帶寬策略。

HttpFs代理提供和WebHDFS相同的HTTP介面，這樣客戶端能夠通過webhdfs URI訪問介面。HttpFS代理啟動獨立於namenode和datanode的守護進程，使用httpfs.sh 腳本，默認在一個不同的埠上監聽（14000）。

下圖描述了

讀文件時客戶端與 HDFS 中的 namenode， datanode 之間的數據流動。

對上圖的解釋如下：

在讀取過程中，如果 FSDataInputStream 在和一個 datanode 進行交流時出現了一個錯誤，他就去試一試下一個最接近的塊，他當然也會記住剛才發生錯誤的 datanode 以至於之後不會再在這個 datanode 上進行沒必要的嘗試。 DFSInputStream 也會在 datanode 上傳輸出的數據上核查檢查數(checknums).如果損壞的塊被發現了， DFSInputStream 就試圖從另一個擁有備份的 datanode 中去讀取備份塊中的數據。

在這個設計中一個重要的方面就是客戶端直接從 datanode 上檢索數據，並通過 namenode 指導來得到每一個塊的最佳 datanode。這種設計允許 HDFS 擴展大量的並發客戶端，因為數據傳輸只是集群上的所有 datanode 展開的。期間，namenode 僅僅只需要服務於獲取塊位置的請求（塊位置信息是存放在內存中，所以效率很高）。如果不這樣設計，隨著客戶端數據量的增長，數據服務就會很快成為一個瓶頸。

我們知道，相對於客戶端(之後就是 maprece task 了)，塊的位置有以下可能性：

我們認為他們對於客戶端的帶寬遞減，距離遞增（括弧中表示距離）。示意圖如下：

如果集群中的機器都在同一個機架上，我們無需其他配置，若集群比較復雜，由於hadoop無法自動發現網路拓撲，所以需要額外配置網路拓撲。

基本讀取程序，將文件內容輸出到console

FileSystemCat

隨機讀取

展開原碼

下圖描述了寫文件時客戶端與 HDFS 中的 namenode， datanode 之間的數據流動。

對上圖的解釋如下：

如果在任何一個 datanode 在寫入數據的時候失敗了，接下來所做的一切對客戶端都是透明的：首先， pipeline 被關閉，在確認隊列中的剩下的包會被添加進數據隊列的起始位置上，以至於在失敗的節點下游的任何節點都不會丟失任何的包。然後與 namenode 聯系後，當前在一個好的 datanode 會聯系 namenode，給失敗節點上還未寫完的塊生成一個新的標識ID，以至於如果這個失敗的 datanode 不久後恢復了，這個不完整的塊將會被刪除。失敗節點會從 pipeline 中移除，然後剩下兩個好的 datanode 會組成一個的新的 pipeline ，剩下的這些塊的包(也就是剛才放在數據隊列隊首的包)會繼續寫進 pipeline 中好的 datanode 中。最後，namenode 注意到塊備份數小於規定的備份數，他就安排在另一個節點上創建完成備份，直接從已有的塊中復制就可以。然後一直到滿足了備份數( dfs.replication )。如果有多個節點的寫入失敗了，如果滿足了最小備份數的設置( dfs.namenode.repliction.min ),寫入也將會成功，然後剩下的備份會被集群非同步的執行備份，直到滿足了備份數( dfs.replication )。

創建目錄

文件壓縮有兩大好處：

Hadoop 對於壓縮格式的是自動識別。如果我們壓縮的文件有相應壓縮格式的擴展名（比如 lzo，gz，bzip2 等）。Hadoop 會根據壓縮格式的擴展名自動選擇相對應的解碼器來解壓數據，此過程完全是 Hadoop 自動處理，我們只需要確保輸入的壓縮文件有擴展名。

Hadoop中有多種壓縮格式、演算法和工具，下圖列出了常用的壓縮方法。

表中的「是否可切分」表示對應的壓縮演算法是否支持切分，也就是說是否可以搜索數據流的任意位置並進一步往下讀取數據，可切分的壓縮格式尤其適合MapRece。

所有的壓縮演算法都需要權衡空間/時間：壓縮和解壓縮速度更快，其代價通常是只能節省少量的空間。不同的壓縮工具有不同的特性：

更詳細的比較如下

1.壓縮性能比較

2.優缺點

另外使用hadoop原生（native）類庫比其他java實現有更快的壓縮和解壓縮速度。特徵比較如下：

使用容器文件格式結合壓縮演算法也能更好的提高效率。順序文件、Arvo文件、ORCFiles、Parqurt文件同時支持壓縮和切分。

壓縮舉例（Java）

壓縮

解壓縮

六、文件序列化

序列化是指將結構化數據轉換為位元組流以便在網路上傳輸或寫到磁碟進行永久存儲。反序列化獅子將位元組流轉換回結構化對象的逆過程。

序列化用於分布式數據處理的兩大領域：進程間通信和永久存儲。

對序列化的要求時是格式緊湊（高效使用存儲空間）、快速（讀寫效率高）、可擴展（可以透明地讀取老格式數據）且可以互操作（可以使用不同的語言讀寫數據）。

Hadoop使用的是自己的序列化格式 Writable ，它絕對緊湊、速度快，但不太容易用java以外的語言進行擴展或使用。

當然，用戶也可以使用其他序列化框架或者自定義序列化方式，如 Avro 框架。

Hadoop內部還使用了 Apache Thrift 和 Protocal Buffers 來實現RPC和數據交換。

4. 電腦的壓縮文件有什麼用

如果你要一次上傳多個文件，可以用Winrar壓縮成一個文件，不僅方便而且壓縮以後原文件將縮小一些。
文件壓縮，原本是在那個存儲空間甚至需要以位元組來計算的時代，為了節省文件所佔用的空間而誕生的。而隨著網路的普及，為了節省文件在網路上傳輸的流量及時間，對文件進行壓縮也幾乎成為了必備的過程。
根據所使用的壓縮演算法的不同，壓縮文件也被區分為不同的格式。下面列表中的是所有的壓縮文件格式，不過常用的並沒有那麼多，而在Windows系統上面常用的就更少了。下面介紹一下壓縮文件的所有格式：
* .0 - Hacha Split存檔
* .000 - DoubleSpace壓縮檔
* .001 - 7-Zip壓縮Split檔
* .7z - 7-Zip壓縮檔
* .ace -WinAce壓縮檔
* .ain - AIN壓縮存檔
* .alz - ALZip存檔
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc壓縮存檔
* .ari - ARI壓縮存檔
* .arj - ARJ壓縮存檔
* .axx - AxCrypt加密檔
* .bh - BlakHole存檔
* .bhx - BinHex編碼檔
* .boo - Booasm壓縮存檔
* .bz - Bzip壓縮檔
* .bza -
* .bz2 - Bzip2壓縮檔
* .bzip2 - Bzip2壓縮存檔
* .c00 -WinAceSplit存檔
* .c01 -WinAceSplit存檔分卷
* .c02 -WinAceSplit存檔分卷
* .cab -
* .car - CAR存檔
* .cbr - Comic Book RAR存檔
* .cbz - Comic Book ZIP存檔
* .cp9 - ChoicePoint Encrypted檔
* .cpgz - 壓縮CPIO存檔
* .cpt - Compact Pro存檔
* .dar - DAR Disk存檔
* .dd - DiskDouber存檔
* .deb - Debian軟體包
* .dgc - DGCA存檔
* .dist - Mac OS X Distribution Script
* .ecs - Sony Ericsson Phone備份檔
* .efw - Renamed Zip or Executable檔
* .f - Freeze壓縮檔
* .fdp - MySafe加密數據
* .gca - GCA存檔
* .gz - Gnu Zipped檔
* .gzi - Unix Gzip檔
* .gzip - Gnu Zipped檔
* .ha - HA壓縮存檔
* .hbc - HyperBac壓縮存檔
* .hbc2 - HyperBac壓縮存檔
* .hbe - HyperBac壓縮加密存檔
* .hki - WinHKI存檔
* .hki1 - WinHKI HKI1存檔
* .hki2 - WinHKI HKI2存檔
* .hki3 - WinHKI HKI3存檔
* .hpk - HPack壓縮存檔
* .hyp- HYPER壓縮存檔
* .ice - ICE存檔
* .imp - Winimp壓縮存檔
* .ipg - iPod游戲檔
* .ipk - Itsy包
* .ish - ISH壓縮存檔
* .j - JAR存檔
* .jar - JAR存檔
* .jgz - Gzipped Javascript檔
* .jic - Java Icon檔
* .kgb - KGB存檔
*.kz -快壓存檔
* .lbr - LU Library存檔
* .lha - LHARC壓縮存檔
* .lnx - Commodore 64 Lynx存檔
* .lqr - SQ壓縮LBR存檔
* .lzh - LZH壓縮檔
* .lzm - Slax Mole
* .lzma - LZMA壓縮檔
* .lzo - LZO壓縮檔
* .lzx - Amiga LZX壓縮檔
* .md - MDCD壓縮存檔
* .mint - Linux Mint安裝程序檔
* .mou - Winmount壓縮檔
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip壓縮檔
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage檔
* .pae - PowerArchiver加密存檔
* .pak- PAK (Packed)檔
* .paq6 - PAQ6數據存檔
* .paq7 - PAQ7數據存檔
* .paq8 - PAQ8數據存檔
* .par - Parchive Index檔
* .par2 - Parchive 2 Index檔
* .pbi - PC BSD安裝程序包
* .pcv - Mozilla Profile備份
* .pea - PEA存檔
* .pf - Private檔
* .pim - PIM存檔
* .pit - PackIt壓縮存檔
* .piz - Zipped檔
* .pkg - Mac OS X安裝程序包
* .pup - PlayStation 3 Update檔
* .pup - Puppy Linux DotPup安裝程序包
* .puz - Packed Publisher檔
* .pwa - Password Agent檔
* .qda - Quadruple D存檔
* .r00 - WinRAR壓縮存檔
* .r01 - WinRAR Split存檔分卷1
* .r02 - WinRAR Split存檔分卷2
* .r03 - WinRAR Split存檔分卷3
* .rar - WinRAR壓縮存檔
* .rk - WinRK存檔
* .rnc - RNC ProPack存檔
* .rpm - Red Hat Package Manager檔
* .rte - RTE編碼檔
* .rz - Rzip壓縮檔
* .rzs - Red Zion Security檔
* .s00 - ZipSplitter分卷1存檔
* .s01 - ZipSplitter分卷2存檔
* .s02 - ZipSplitter分卷3存檔
* .s7z - Mac OS X 7-Zip檔
* .sar - Service存檔
* .sdn - Shareware Distributors Network檔
* .sea - Self-Extracting存檔
* .sfs- SquashFS存檔
* .sfx - Windows自解壓存檔
* .sh - Unix Shell存檔
* .shar - Unix Shar存檔
* .shk - ShrinkIt存檔
* .shr - Unix Shell存檔
* .sit - Stuffit存檔
* .sitx - Stuffit X存檔
* .spt - TM File Packer壓縮存檔
* .sqx - SQX存檔
* .sqz - Squeezed Video檔
* .tar - Consolidated Unix檔
* .tbz2 - Tar BZip 2壓縮檔
* .tgz - Gzipped Tar檔
* .tlz - Tar LZMA壓縮檔
* .uc2 - UltraCompressor 2存檔
* .uha -UHarc壓縮存檔
* .uue - UUEncoded檔
* .vsi- Visual Studio Content安裝程序檔
* .wad - Compressed游戲數據
* .war - Java Web存檔
* .wot - Web Of Trust檔
* .xef -WinAce加密檔
* .xez - eManager Template包
* .xpi - Mozilla安裝程序包
* .xx - XXEncoded檔
* .xxe - XXEncoded檔
* .y - Amiga Yabba壓縮檔
* .yz - YAC壓縮檔
* .z - Unix壓縮檔
* .zap - FileWrangler存檔
* .zfsendtotarget -壓縮檔夾
* .zip - Zipped檔
* .zipx- Winzip壓縮檔
* .zix - WinZix壓縮檔
* .zoo - Zoo壓縮檔
* .zz - Zzip壓縮存檔
*.exe - 自解壓格式

5. 天聯高級版客戶端出現無法載入資源怎麼處理

多刷新幾次，如果確實不行建議更換瀏覽器重新搜索。
天聯高級版客戶端是一款功能全面的網路工具，這款軟體可以為用戶提供高效的跨平台數據交互傳遞，天聯高級客戶端最新版可以讓企業內部下達指令或傳輸文件時更加方便，並且使用非常簡單，無需公網IP，無需埠映射。軟體特色
1、動態負載均衡
天聯伺服器具有動態負載均衡功能，可根據系統的使用及負載情況，隨時對原有系統進行擴充和調整。當某台伺服器出現故障時，集群中的其它伺服器會自動選舉一台伺服器出來承擔服務，從而不會出現因主伺服器失效而導致整個系統的癱瘓，這對一些關鍵業務應用的用戶來說，是一種穩定保障。
2、天聯標准版客戶端最新版採用最先進的優化技術，選擇最快的連接線路
天聯採用了虛擬鏈路優化技術，解決了國內跨運營商部署網路時遇到的帶寬小，延遲大的問題。天聯會根據客戶的實際網路環境對虛擬專用鏈路進行優化。
3、採用高效壓縮演算法，提高訪問速度
天聯採用了GZIP和LZO高速流壓縮演算法，對所有的壓縮後傳送，大大提高了終端用戶在使用Web資源和C/S應用時的訪問速度，減少下載時間和網路流量。尤其當終端用戶在GPRS/CDMA等移動網路上使用時，效果更為明顯，速度可以提高一倍以上。
4、安全的加密認證
天聯(TeamLink)採用標準的SSL協議加密建立安全的專用通道，使用RC4 (128 位)加密演算法進行加密，並通過RSA(1024 位交換)非對稱密鑰進行簽名，保證了數據在傳輸過程中的安全性。
5、身份認證和簡訊提醒
天聯每個客戶端都要到天聯伺服器做一下驗證，只能在驗證通過後成功，伺服器這端通過各種認證方法來保證客戶端的正確性;同時在每一個客戶端成功後，和該組綁定的手機就會收到一條提示簡訊，保證系統的安全性，防止用戶名或者密碼泄露。
6、應用廣泛，完整支持
天聯實現了對應用程序的完整支持，客戶端在登陸的過程中在客戶端的機器上會生成一塊專門用於通訊的虛擬網卡，因而天聯遠程登錄用戶便可使用所有基於IP網路層以上的應用。同時總部網路還能夠實現與遠程接入用戶的雙向訪問。這種領先技術的應用，使得第三代——天聯能夠支持任何復雜的各種B/S和C/S的應用。

6. 壓縮文件格式是什麼有哪些

本文操作環境：windows7系統、Dell G3電腦。
壓縮文件格式指的是文件經過某個程序執行壓縮後的文件格式。
任何一個文件存儲在電腦上都有它的格式，例如文本格式像.txt .doc，圖像格式 .jpg .tif .bmp等。所有壓縮文件也有壓縮的格式，一沒橘磨般我們看到的壓縮格式有 .rar .zip，但主要壓縮的作用就是讓某一個文件佔用空間小點。比如原來是30MB,可以壓縮到20多MB。
壓縮文件格式
常見擴展名－文件說明
* .rar - WinRAR壓縮存檔
rar是一種常見的壓縮格式，而且，rar是一種專利文件格式，是由俄羅斯人尤金·羅謝爾開發，主要用於數據壓縮和歸檔打包方面，rar的全稱為「Roshal ARchive」，翻譯為中文就是「羅謝爾的歸檔之意」。相比於另一種常見的壓縮格式zip，rar壓縮格式有著更高的壓縮比，但也存在著壓縮和解壓速度較慢的特點。
* .7z - 7-Zip壓縮檔
7-zip壓縮格式是一款免費開源的壓縮軟體格式，7-zip是基於GNU LGPL協議發布的軟體，是完全開源的，7-zip是通過全新的演算法來使壓縮比大幅提高。7-zip 不僅比zip壓縮比更高，而且相對於rar，佔用更少的系統資源。
* .zip - Zipped檔
zip文件壓縮格式是另一種常見的數據壓縮和文檔歸檔存儲格式，zip的發明人是美國人菲爾·卡茨（Phil Katz），zip格式的推出是早於rar的，由於zip的伍謹出現時間較早的緣故，zip與後來者的壓縮過格式有一些無法忽視的缺點，比如zip原聲不支持unicode，這容易導致一部分的資源共享困難，壓縮和解壓會出現亂碼，尤其在東亞文化圈中尤其顯著。
其他擴展名－文件說枯斗明
* .ace -WinAce壓縮檔
* .ain - AIN壓縮存檔
* .alz - ALZip存檔
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc壓縮存檔
* .ari - ARI壓縮存檔
* .arj - ARJ壓縮存檔
* .axx - AxCrypt加密檔
* .bh - BlakHole存檔
* .bhx - BinHex編碼檔
* .boo - Booasm壓縮存檔
* .bz - Bzip壓縮檔
* .bza -LZArc bza 壓縮檔
* .bz2 - Bzip2壓縮檔
* .c00 -WinAceSplit存檔
* .c01 -WinAceSplit存檔分卷
* .c02 -WinAceSplit存檔分卷
* .cab -cab 存檔
* .car - CAR Archiver存檔
* .cbr - Comic Book RAR存檔
* .cbz - Comic Book ZIP存檔
* .cp9 - ChoicePoint Encrypted檔
* .cpgz - 壓縮CPIO存檔
* .cpt - Compact Pro存檔
* .dar - DAR Disk存檔
* .dd - DiskDouber存檔
* .dgc -DGCA存檔
* .efw - Renamed Zip or Executable檔
* .f - Freeze壓縮檔
* .gca - GCA存檔
* .gz - Gnu Zipped檔
* .ha - HA壓縮存檔
* .hbc - HyperBac壓縮存檔
* .hbc2 - HyperBac壓縮存檔
* .hbe - HyperBac壓縮加密存檔
* .hki - WinHKI存檔
* .hki1 - WinHKI HKI1存檔
* .hki2 - WinHKI HKI2存檔
* .hki3 - WinHKI HKI3存檔
* .hpk - HPack壓縮存檔
* .hyp- HYPER壓縮存檔
* .ice - ICE存檔
* .imp - Winimp壓縮存檔
* .ipk - Itsy包
* .ish - ISH壓縮存檔
* .jar - JAVA ARCHIVE
* .jgz - 經gzip壓縮的* .JS代碼文件
* .jic - Java Icon檔
* .kgb - KGB存檔
*.kz - 快壓(kuaizip)存檔
* .lbr - LU Library存檔
* .lha - LHARC壓縮存檔
* .lnx - Commodore 64 Lynx存檔
* .lqr - SQ壓縮LBR存檔
* .lz4 - LZ4壓縮檔
* .lzh - LZH壓縮檔
* .lzm - Slax Mole
* .lzma - LZMA壓縮檔
* .lzo - LZO壓縮檔
* .lzx - Amiga LZX壓縮檔
* .md - MDCD壓縮存檔
* .mint - Linux Mint安裝程序檔
* .mou - Winmount壓縮檔
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip壓縮檔
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage檔
* .pae - PowerArchiver加密存檔
* .pak- PAK (Packed)檔
* .paq6 - PAQ6數據存檔
* .paq7 - PAQ7數據存檔
* .paq8 - PAQ8數據存檔
* .par - Parchive Index檔
* .par2 - Parchive 2 Index檔
* .pbi - PC BSD安裝程序包
* .pcv - Mozilla Profile備份
* .pea - PEA存檔
* .pf - Private檔
* .pim - PIM存檔
* .pit - PackIt壓縮存檔
* .piz - Zipped檔
* .puz - Packed Publisher檔
* .pwa - Password Agent檔
* .qda - Quadruple D存檔
* .r00 - WinRAR壓縮存檔
* .r01 - WinRAR Split存檔分卷1
* .r02 - WinRAR Split存檔分卷2
* .r03 - WinRAR Split存檔分卷3
* .rk - WinRK存檔
* .rnc - RNC ProPack存檔
* .rpm - Red Hat Package Manager檔
* .rte - RTE編碼檔
* .rz - Rzip壓縮檔
* .rzs - Red Zion Security檔
* .s00 - ZipSplitter分卷1存檔
* .s01 - ZipSplitter分卷2存檔
* .s02 - ZipSplitter分卷3存檔
* .s7z - Mac OS X 7-Zip檔
* .sar - Service存檔
* .sdn - Shareware Distributors Network檔
* .sea - Self-Extracting存檔
* .sfs- SquashFS存檔
* .sfx - Windows自解壓存檔
* .sh - Unix Shell存檔
* .shar - Unix Shar存檔
* .shk - ShrinkIt存檔
* .shr - Unix Shell存檔
* .sit - Stuffit存檔
* .sitx - Stuffit X存檔
* .spt - TM File Packer壓縮存檔
* .sqx - SQX存檔
* .sqz - Squeezed Video檔
* .tar - Consolidated Unix檔
* .taz - UinxTar.Z壓縮檔
* .tbz - Tar Bzip 檔
* .tbz2 - Tar BZip 2壓縮檔
* .tgz - Gzipped Tar檔
* .tlz - Tar LZMA壓縮檔
* .tlz4-Tar Lz4 壓縮檔
* .txz-Tar XZ壓縮檔
* .uc2 - UltraCompressor 2存檔
* .uha -UHarc壓縮存檔
* .uue - UUEncoded檔
* .wot - Web Of Trust檔
* .xef -WinAce加密檔
* .xx - XXEncoded檔
* .xxe - XXEncoded檔
*.xz-XZ壓縮檔
* .y - Amiga Yabba壓縮檔
* .yz - YAC壓縮檔
* .yz1 - LZArc yz1 壓縮檔
* .z - Unix壓縮檔
* .zap - FileWrangler存檔
* .zipx- Winzip壓縮檔
* .zix - WinZix壓縮檔
* .zoo - Zoo壓縮檔
* .zz - Zzip壓縮存檔
*.exe - 自解壓格式

7. 大數據培訓到底是培訓什麼

一、基礎部分：JAVA語言和 LINUX系統

二、數據開發:

1、數據分析與挖掘

一般工作包括數據清洗，執行分析和數據可視化。學習Python、資料庫、網路爬蟲、數據分析與處理等。

大數據培訓一般是指大數據開發培訓。

大數據技術龐大復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。

2、大數據開發

數據工程師建設和優化系統。學習hadoop、spark、storm、超大集群調優、機器學習、Docker容器引擎、ElasticSearch、並發編程等；

課程學習一共分為六個階段：

導航:首頁 > 源碼編譯 > lzo演算法

lzo演算法

與lzo演算法相關的資料