㈠ Hadoop到底是什麼玩意
Hadoop到底是個啥?
答:Hadoop是基於廉價設備利用集群的威力對海量數據進行安全存儲和高效計算的分布式存儲和分析框架,Hadoop本身是一個龐大的項目家族,其核心 家族或者底層是HDFS和MapRece,HDFS和MapRece分別用來實現對海量數據的存儲和分析,其它的項目,例如Hive、HBase 等都是基於HDFS和MapRece,是為了解決特定類型的大數據處理問題而提出的子項目,使用Hive、HBase等子項目可以在更高的抽象的基礎上更簡單的編寫分布式大數據處理程序。Hadoop的其它子項目還包括Common, Avro, Pig, ZooKeeper, Sqoop, Oozie 等,隨著時間的推移一些新的子項目會被加入進來,一些關注度不高的項目會被移除Hadoop家族,所以Hadoop是一個充滿活力的系統。
Apache Hadoop: 是Apache開源組織的一個分布式計算開源框架,提供了一個分布式文件系統子項目(HDFS)和支持MapRece分布式計算的軟體架構。
Apache Hive: 是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,通過類SQL語句快速實現簡單的MapRece統計,不必開發專門的MapRece應用,十分適合數據倉庫的統計分析。
ApachePig: 是一個基於Hadoop的大規模數據分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapRece運算。
ApacheHBase: 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。
Apache Sqoop: 是一個用來將Hadoop和關系型資料庫中的數據相互轉移的工具,可以將一個關系型資料庫(MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型資料庫中。
Apache Zookeeper: 是一個為分布式應用所設計的分布的、開源的協調服務,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,簡化分布式應用協調及其管理的難度,提供高性能的分布式服務 ApacheMahout:是基於Hadoop的機器學習和數據挖掘的一個分布式框架。Mahout用MapRece實現了部分數據挖掘演算法,解決了並行挖掘的問題。
ApacheCassandra:是一套開源分布式NoSQL資料庫系統。它最初由Facebook開發,用於儲存簡單格式數據,集Google BigTable的數據模型與AmazonDynamo的完全分布式的架構於一身 Apache Avro: 是一個數據序列化系統,設計用於支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制 ApacheAmbari: 是一種基於Web的工具,支持Hadoop集群的供應、管理和監控。
ApacheChukwa: 是一個開源的用於監控大型分布式系統的數據收集系統,它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供Hadoop 進行各種 MapRece 操作。
ApacheHama: 是一個基於HDFS的BSP(Bulk Synchronous Parallel)並行計算框架, Hama可用於包括圖、矩陣和網路演算法在內的大規模、大數據計算。
ApacheFlume: 是一個分布的、可靠的、高可用的海量日誌聚合的系統,可用於日誌數據收集,日誌數據處理,日誌數據傳輸。
ApacheGiraph: 是一個可伸縮的分布式迭代圖處理系統, 基於Hadoop平台,靈感來自 BSP (bulk synchronous parallel) 和Google 的 Pregel。
ApacheOozie: 是一個工作流引擎伺服器, 用於管理和協調運行在Hadoop平台上(HDFS、Pig和MapRece)的任務。
ApacheCrunch: 是基於Google的Flumejava庫編寫的Java庫,用於創建MapRece程序。與Hive,Pig類似,Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫 ApacheWhirr: 是一套運行於雲服務的類庫(包括Hadoop),可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。
ApacheBigtop: 是一個對Hadoop及其周邊生態進行打包,分發和測試的工具。
ApacheHCatalog: 是基於Hadoop的數據表和存儲管理,實現中央的元數據和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關系視圖。
ClouderaHue: 是一個基於WEB的監控和管理系統,實現對HDFS,MapRece/YARN, HBase, Hive, Pig的web化操作和管理。
㈡ Docker的mysql集群節點可以正常創建,但無法正常連接到宿主機的mysql應該如何解決
Ambari是Apache的開源項目,它幫助用戶在GUI頁面上簡單的部署、管理、監控Hadoop集群環境。Ambari支持的Hadoop組件包括HDFS、Hive、HBase、Spark、Yarn等,HortonWorks官方也是採用Ambari來完成自家HDP套件的安裝、管理及監控的。除了預置的組件之外,Ambari還支持自定義組件的安裝,同時,支持RESTful的API,繼而可以通過命令行等方式調用Ambari來完成一些自動化的任務。
本文共分為兩部分,第一部分介紹如何在Docker虛擬化環境中部署Ambari;第二部分介紹如何基於Ambari來部署和管理Hadoop集群。
### 環境信息
* Docker發行版:Docker for Mac
* Docker版本:17.06.2-ce
* Docker容器OS:Ubuntu 14.04
* Ambari版本:2.5.2.0
Docker環境准備
拉取Docker鏡像:在宿主機上執行命令docker pull ubuntu:14.04從遠端倉庫中獲取Ubuntu的鏡像,也可以獲取其他OS的鏡像,本文以Ubuntu為例
啟動Docker容器:執行如下命令,以ubuntu:14.04鏡像為基礎啟動容器:
docker run -itd --name ambari_new -p 8080:8080 -p 3306:3306 -v /Users/yuxiaolei/Workspace/dockerShared:/dockerShared ubuntu:14.04 /bin/bash
由於Ambari啟動Web程序的時候佔用8080埠,因此要從Docker宿主機上訪問Ambari頁面,需要通過參數 -p 來制定埠映射;
作為新手,筆者在容器內部署好Ambari之後,才發現Web頁面的8080埠和MySQL的3306埠(可選)沒有暴露給Docker宿主機,也就沒法從宿主機上通過瀏覽器來登陸Ambari,因此必須想辦法在已有容器上開放埠。
有兩個方法:
1)如果宿主機為Linux系統,則修改iptables防火牆來指定埠映射規則;
2)如果是非Linux系統,可以將已裝Ambari的容器commit為新的鏡像,再基於該鏡像創建新的容器。此時,就可以在docker run命令中添加參數 -p 來指定埠映射了。
還有一個問題,Ambari將其數據存儲在資料庫中,支持MySQL、PostgreSQL等資料庫;容器內安裝MySQL之後,基於上一步創建的新容器里,會發現MySQL啟動不起來,執行命令/etc/init.d/mysql restart啟動失敗,在/var/log/mysql/error.log日誌文件中列印有170802 14:02:59 [ERROR] Fatal error: Can't open and lock privilege tables: Got error 140 from storage engine的錯誤,經過網上查資料,需要在創建容器的時候添加參數-v /var/lib/mysql將MySQL數據存儲路徑聲明為數據卷,即可解決問題。
啟動容器之後,執行命令docker exec -it ambari /bin/bash進入容器內部。
Ambari安裝
配置Ubuntu的軟體倉庫源:
國內建議採用阿里雲的軟體源,在root賬號下用vim打開/etc/apt/sources.list文件,刪除文件所有內容,粘貼如下內容:
執行命令apt-get update完成軟體列表更新
安裝Ambari所依賴的軟體
apt-get install software-properties-common時間同步伺服器ntp:執行命令apt-get install ntp安裝ntp時間同步伺服器,以便於集群環境中各節點的時鍾一致;執行命令sudo service ntp restart重啟ntp服務。
MySQL:執行命令apt-get install mysql-server安裝MySQL伺服器,安裝完成後執行命令mysql -uroot -proot進入MySQL客戶端,執行如下SQL代碼:
Oracle JDK:逐條執行如下命令,以添加WebUpd8團隊(https://launchpad.net/~webupd8team/+archive/ubuntu/java)提供的Oracle JDK倉庫源,並從該倉庫安裝JDK:
下載Ambari倉庫文件
進入cd /etc/apt/sources.list.d目錄,執行命令wget http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.5.2.0/ambari.list從HortonWorks倉庫中下載Ambari源文件,下載後切勿修改list文件名;
執行命令apt-key adv --recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD以信任遠端倉庫的GPG簽名
執行命令apt-get update更新Ambari軟體源
執行命令apt-get install ambari安裝Ambari套件,由於軟體包較大(700多MB),這里情耐心等待,不過apt-get支持斷點下載,網路終端後重新執行命令時不會從零開始下載
配置Ambari:
執行命令mysql -uroot -proot進入MySQL客戶端,執行命令source ambari進入ambari的資料庫,並執行命令source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql來完成Ambari的資料庫表初始化操作;
執行命令ambari-server setup啟動Ambari的引導式配置操作,根據指導做配置即可。需要注意的是,JDK不要選擇由Ambari從網路下載,應該選擇自定義路徑,然後輸入/usr/lib/jvm/java-8-oracle即可;
啟動Ambari:執行命令ambari-server start,啟動日誌存儲路徑為/var/log/ambari-server/ambari-server.log
啟動之後,由於我們之前做了Docker容器的埠映射,因此可以在宿主機上打開瀏覽器輸入http://localhost:8080即可訪問Ambari登陸頁面
登陸用戶名和密碼均為admin,登陸之後就可以看到Ambari的首頁了,如下圖:
{% asset_img
㈢ 做大數據分析一般用什麼工具呢
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據。基礎
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
記住學到這里可以作為你學大數據的一個節點。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
㈣ 大數據分析一般用什麼工具呢
雖然數據分析的工具千萬種,綜合起來萬變不離其宗。無非是數據獲取、數據存儲、數據管理、數據計算、數據分析、數據展示等幾個方面。而SAS、R、SPSS、python、excel是被提到頻率最高的數據分析工具。
Python
Python,是一種面向對象、解釋型計算機程序設計語言。Python語法簡潔而清晰,具有豐富和強大的類庫。它常被昵稱為膠水語言,能夠把用其他語言製作的各種模塊(尤其是C/C++)很輕松地聯結在一起。
常見的一種應用情形是,使用Python快速生成程序的原型(有時甚至是程序的最終界面),然後對其中有特別要求的部分,用更合適的語言改寫,比如3D游戲中的圖形渲染模塊,性能要求特別高,就可以用C/C++重寫,而後封裝為Python可以調用的擴展類庫。需要注意的是在您使用擴展類庫時可能需要考慮平台問題,某些可能不提供跨平台的實現。
R軟體
R是一套完整的數據處理、計算和制圖軟體系統。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。
SPSS
SPSS是世界上最早的統計分析軟體,具有完整的數據輸入、編輯、統計分析、報表、圖形製作等功能,能夠讀取及輸出多種格式的文件。
Excel
可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用於管理、統計財經、金融等眾多領域。
SAS軟體
SAS把數據存取、管理、分析和展現有機地融為一體。提供了從基本統計數的計算到各種試驗設計的方差分析,相關回歸分析以及多變數分析的多種統計分析過程,幾乎囊括了所有最新分析方法,其分析技術先進,可靠。分析方法的實現通過過程調用完成。許多過程同時提供了多種演算法和選項。
㈤ 大數據分析一般用什麼工具分析
在大數據處理分析過程中常用的六大工具:
Hadoop
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與 通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆 比特網路技術,擴展研究和教育機構及網路連接能力。
Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。
Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。Apache Drill 實現了 Google's Dremel.
據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
Pentaho BI
Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
㈥ ambari 這個能二次開發成中文版嗎
可以的,兩種方法
(1)你可以修改源碼中的ambari-web---->app---->messages.js,將messages.js 中對應的地方翻譯成中文即可。
(2)你可以使用ftp 工具進入將你安裝好的ambari服務的/usr/lib/ambari-server/web/javascript/app.js文件下載到你本地。使用編輯工具打開,然後找到Em.I18n.translations 這個節點,然後翻譯對應的英文。大概在58237行的地方,然後將文件替換回去,重啟ambari
㈦ 大數據分析一般用什麼工具分析
大數據分析是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬體和軟體工具進行處理。該數據集通常是萬億或EB的大小。這些數據集收集自各種各樣的來源:感測器,氣候信息,公開的信息,如雜志,報紙,文章。大數據分析產生的其他例子包括購買交易記錄,網路日誌,病歷,軍事監控,視頻和圖像檔案,及大型電子商務。
大數據分析,他們對企業的影響有一個興趣高漲。大數據分析是研究大量的數據的過程中尋找模式,相關性和其他有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。
一、Hadoop
Hadoop是一個開源框架,它允許在整個集群使用簡單編程模型計算機的分布式環境存儲並處理大數據。它的目的是從單一的伺服器到上千台機器的擴展,每一個台機都可以提供本地計算和存儲。
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop
是可靠的,即使計算元素和存儲會失敗,它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,它採用並行的方式工作,通過並行處理加快處理速度。Hadoop
還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
Pentaho BI 平台,Pentaho Open BI
套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI
平台上執行的商業智能流程。流程可以很容易的被定製,也可以添加新的流程。BI
平台包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過
J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平台中來。
Pentaho的發行,主要以Pentaho SDK的形式進行。
Pentaho
SDK共包含五個部分:Pentaho平台、Pentaho示例資料庫、可獨立運行的Pentaho平台、Pentaho解決方案示例和一個預先配製好的
Pentaho網路伺服器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代碼的主體;Pentaho資料庫為
Pentaho平台的正常運行提供的數據服務,包括配置信息、Solution相關的信息等等,對於Pentaho平台來說它不是必須的,通過配置是可以用其它資料庫服務取代的;可獨立運行的Pentaho平台是Pentaho平台的獨立運行模式的示例,它演示了如何使Pentaho平台在沒有應用伺服器支持的情況下獨立運行;
Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平台開發相關的商業智能解決方案。
Pentaho BI 平台構建於伺服器,引擎和組件的基礎之上。這些提供了系統的J2EE
伺服器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,數據集成,分析和建模功能。這些組件的大部分是基於標準的,可使用其他產品替換之。
七、Druid
Druid是實時數據分析存儲系統,Java語言中最好的資料庫連接池。Druid能夠提供強大的監控和擴展功能。
八、Ambari
大數據平台搭建、監控利器;類似的還有CDH
1、提供Hadoop集群
Ambari為在任意數量的主機上安裝Hadoop服務提供了一個逐步向導。
Ambari處理集群Hadoop服務的配置。
2、管理Hadoop集群
Ambari為整個集群提供啟動、停止和重新配置Hadoop服務的中央管理。
3、監視Hadoop集群
Ambari為監視Hadoop集群的健康狀況和狀態提供了一個儀錶板。
九、Spark
大規模數據處理框架(可以應付企業中常見的三種數據處理場景:復雜的批量數據處理(batch data
processing);基於歷史數據的互動式查詢;基於實時數據流的數據處理,Ceph:Linux分布式文件系統。
十、Tableau Public
1、什麼是Tableau Public - 大數據分析工具
這是一個簡單直觀的工具。因為它通過數據可視化提供了有趣的見解。Tableau
Public的百萬行限制。因為它比數據分析市場中的大多數其他玩家更容易使用票價。使用Tableau的視覺效果,您可以調查一個假設。此外,瀏覽數據,並交叉核對您的見解。
2、Tableau Public的使用
您可以免費將互動式數據可視化發布到Web;無需編程技能;發布到Tableau
Public的可視化可以嵌入到博客中。此外,還可以通過電子郵件或社交媒體分享網頁。共享的內容可以進行有效硫的下載。這使其成為最佳的大數據分析工具。
3、Tableau Public的限制
所有數據都是公開的,並且限制訪問的范圍很小;數據大小限制;無法連接到[R ;讀取的唯一方法是通過OData源,是Excel或txt。
十一、OpenRefine
1、什麼是OpenRefine - 數據分析工具
以前稱為GoogleRefine的數據清理軟體。因為它可以幫助您清理數據以進行分析。它對一行數據進行操作。此外,將列放在列下,與關系資料庫表非常相似。
2、OpenRefine的使用
清理凌亂的數據;數據轉換;從網站解析數據;通過從Web服務獲取數據將數據添加到數據集。例如,OpenRefine可用於將地址地理編碼到地理坐標。
3、OpenRefine的局限性
Open Refine不適用於大型數據集;精煉對大數據不起作用
十二、KNIME
1、什麼是KNIME - 數據分析工具
KNIME通過可視化編程幫助您操作,分析和建模數據。它用於集成各種組件,用於數據挖掘和機器學習。
2、KNIME的用途
不要寫代碼塊。相反,您必須在活動之間刪除和拖動連接點;該數據分析工具支持編程語言;事實上,分析工具,例如可擴展運行化學數據,文本挖掘,蟒蛇,和[R
。
3、KNIME的限制
數據可視化不佳
十三、Google Fusion Tables
1、什麼是Google Fusion Tables
對於數據工具,我們有更酷,更大版本的Google Spreadsheets。一個令人難以置信的數據分析,映射和大型數據集可視化工具。此外,Google
Fusion Tables可以添加到業務分析工具列表中。這也是最好的大數據分析工具之一。
2、使用Google Fusion Tables
在線可視化更大的表格數據;跨越數十萬行進行過濾和總結;將表與Web上的其他數據組合在一起;您可以合並兩個或三個表以生成包含數據集的單個可視化;
3、Google Fusion Tables的限制
表中只有前100,000行數據包含在查詢結果中或已映射;在一次API調用中發送的數據總大小不能超過1MB。
十四、NodeXL
1、什麼是NodeXL
它是關系和網路的可視化和分析軟體。NodeXL提供精確的計算。它是一個免費的(不是專業的)和開源網路分析和可視化軟體。NodeXL是用於數據分析的最佳統計工具之一。其中包括高級網路指標。此外,訪問社交媒體網路數據導入程序和自動化。
2、NodeXL的用途
這是Excel中的一種數據分析工具,可幫助實現以下方面:
數據導入;圖形可視化;圖形分析;數據表示;該軟體集成到Microsoft Excel
2007,2010,2013和2016中。它作為工作簿打開,包含各種包含圖形結構元素的工作表。這就像節點和邊緣;該軟體可以導入各種圖形格式。這種鄰接矩陣,Pajek
.net,UCINet .dl,GraphML和邊緣列表。
3、NodeXL的局限性
您需要為特定問題使用多個種子術語;在稍微不同的時間運行數據提取。
十五、Wolfram Alpha
1、什麼是Wolfram Alpha
它是Stephen Wolfram創建的計算知識引擎或應答引擎。
2、Wolfram Alpha的使用
是Apple的Siri的附加組件;提供技術搜索的詳細響應並解決微積分問題;幫助業務用戶獲取信息圖表和圖形。並有助於創建主題概述,商品信息和高級定價歷史記錄。
3、Wolfram Alpha的局限性
Wolfram Alpha只能處理公開數字和事實,而不能處理觀點;它限制了每個查詢的計算時間;這些數據分析統計工具有何疑問?
十六、Google搜索運營商
1、什麼是Google搜索運營商
它是一種強大的資源,可幫助您過濾Google結果。這立即得到最相關和有用的信息。
2、Google搜索運算符的使用
更快速地過濾Google搜索結果;Google強大的數據分析工具可以幫助發現新信息。
十七、Excel解算器
1、什麼是Excel解算器
Solver載入項是Microsoft Office Excel載入項程序。此外,它在您安裝Microsoft
Excel或Office時可用。它是excel中的線性編程和優化工具。這允許您設置約束。它是一種先進的優化工具,有助於快速解決問題。
2、求解器的使用
Solver找到的最終值是相互關系和決策的解決方案;它採用了多種方法,來自非線性優化。還有線性規劃到進化演算法和遺傳演算法,以找到解決方案。
3、求解器的局限性
不良擴展是Excel Solver缺乏的領域之一;它會影響解決方案的時間和質量;求解器會影響模型的內在可解性;
十八、Dataiku DSS
1、什麼是Dataiku DSS
這是一個協作數據科學軟體平台。此外,它還有助於團隊構建,原型和探索。雖然,它可以更有效地提供自己的數據產品。
2、Dataiku DSS的使用
Dataiku DSS - 數據分析工具提供互動式可視化界面。因此,他們可以構建,單擊,指向或使用SQL等語言。
3、Dataiku DSS的局限性
有限的可視化功能;UI障礙:重新載入代碼/數據集;無法輕松地將整個代碼編譯到單個文檔/筆記本中;仍然需要與SPARK集成
以上的工具只是大數據分析所用的部分工具,小編就不一一列舉了,下面把部分工具的用途進行分類:
1、前端展現
用於展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用於展現分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft
Power BI, Oracle,Microstrategy,QlikView、 Tableau 。
國內的有BDP,國雲數據(大數據分析魔鏡),思邁特,FineBI等等。
2、數據倉庫
有Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
3、數據集市
有QlikView、 Tableau 、Style Intelligence等等。