導航:首頁 > 源碼編譯 > 數據挖掘演算法並行化

數據挖掘演算法並行化

發布時間:2023-04-05 08:16:08

1. 什麼是並行數據挖掘

並行數據挖掘技術不同於其它並行演算法的地方在於它需要處理的數據的規模很大。在並行演算法中有一點是不可取的,那就是:演算法主要是把磁碟和處理雀則器之間以及各個處理器之間的數據規模盡量減少到最小。人們知道,對於並行而言,交互之間的消耗(即內存的使用)是比執行時間(計算階段)重要得多的因素。數據挖掘演算法已經給出了一系列的例子和學習概念(使例子的特徵更簡單)。並且概念很容易用謂詞來表示,在一些事件中,演算法的目的是把頃察棚這些概念嵌入到一個分類器中,決策樹就是這樣一個例子。而在其它的事件中,演算法的目的是自己定沒雹義這些概念,因為它們提供了數據的結構。串列數據挖掘演算法對於規模很小的數據也需要大量的運行時間,而且可用於分析的數據增長得很快,這樣就需要尋找用於數據挖掘的並行演算法,目前並行數據挖掘演算法已有了充分的研究

並行數據挖掘的策略
一個演算法的復雜性可以表示為空間復雜性和時間復雜性兩個方面。並行演算法的目標是盡可能減少時間復雜性,但其代價是通過增加空間復雜性(如增加空間的維數及增加處理器的台數)來實現的。從演算法樹的結構來看,通常的串列演算法樹「深而窄」;而並行演算法樹的結構截然不同。為了達到把時間復雜性轉化為空間復雜性的目的,並行演算法樹採用「淺而寬」的結構即每個時刻可容納的計算量相應增加,使整個演算法的步數盡可能減少。

常用的三種並行策略:
樸素並行

典型並行

邏輯並行

2. 並行數據挖掘是指什麼並行呢

並行數據挖掘技術不同於其它並行演算法的地方在於它需要處理的數據的規模很大。人們知道,對於並行而言,交互之間的消耗(即內存的使用)是比執行時間(計算階段)重要得多的因素。串列數據挖掘演算法對於規模很小的數據也需要大量的運行時間,而且可用於分析的數據增長得很快,這樣就需要尋找用於數據挖掘的並行演算法,目前對並行數據挖掘演算法已有了充分的研究

並行數據挖掘的策略
一個演算法的復雜性可以表示為空間復雜性和時間復雜性兩個方面。並行演算法的目標是盡可能減少時間復雜性,但其代價是通過增加空間復雜性(如增加空間的維數及增加處理器的台數)來實現的。從演算法樹的結構來看,通常的串列演算法樹「深而窄」;而並行演算法樹的結構截然不同。為了達到把時間復雜性轉化為空間復雜性的目的,並行演算法樹採用「淺而寬」的結構即每個時刻可容納的計算量相應增加,使整個演算法的步數盡可能減少。

並行數據挖掘策略通常是有三種:
1.樸素並行,也就是人們通常說的網路並行。網路並行,就是通過高速信息網路充分利用網上的計算機資源,實現大規模數據上的並行計算。在這種並行類型中用於計算的時間會減少但是每一個處理器都要掃描所有的數據,這樣就阻礙了演算法性能的提高。

2.典型並行是當前並行數據挖掘策略的典型代表(這里稱為典型並行)。在演算法的每一步中,一個處理器只處理 1/p 的數據,而且在步驟的最後需要交換從數據中收集到的信息。

3邏輯並行類型 的技術是適用於邏輯性較強的並行。對於這種類型的並行數據挖掘策略,初始化階段可能要重復進行是為了給該類型技術的結構減小數據規模。然而,該結構進一步發生在進一步抽取信息的過程中。許多歸納的邏輯方法(如的處理是ProgoL) 就是這種並行類型。

3. 雲計算的海量數據挖掘工作是怎樣實現的

雲計算屬於新興技術領域,群英雲計算轉一篇關於問題的學術報告吧。對您應該有所幫助。

1引言

目前,人們正處於一個「無處不網、無時不網,人人上網、時時在線」的時代,圖靈獎獲得者吉姆·格雷(Jim Gray)認為,網路環境下每18個月產生的數據量等於過去幾千年的數據量之和。目前互聯網的數據具有海量增長、用戶廣泛、動態變化等特徵。2010年,QQ同時在線的用戶超過1億人,淘寶一年交易次數比上年增長150%,視頻服務Animoto在3天內通過Amazon將其服務能力迅速擴展至75萬用戶。

數據挖掘能夠發現隱含在大規模數據中的知識,提高信息服務的質量。如伊朗事件中twitter快速傳播假消息的識別、Amazon和淘寶網中商品關聯關系分析,以及優酷網中視頻個性化推薦等。海量數據挖掘在國家安全、國民經濟和現代服務業中具有廣泛應用,有助於提升網路環境下信息服務的質量,實現以人為本的信息服務。

從數據挖掘技術的發展歷史看,隨著互聯網的蓬勃發展,數據的規模越來越大,從KB級發展到TB甚至PB級海量數據;數據挖掘的對象也變得越來越復雜,從資料庫、到多媒體數據和復雜社會網路;數據挖掘的需求也從分類、聚類和關聯到復雜的演化和預測分析;挖掘過程中的交互方式從單機的人機交互發展到現在社會網路群體的交互。這種發展給數據挖掘帶來了巨大的挑戰:對於網路環境下產生的TB級和PB級的復雜數據,需要有高效的海量數據挖掘演算法;網路環境下大眾的廣泛參與,需要在數據挖掘演算法中能夠融入群體智慧;同時社會網路的迅速發展使得信息服務的個性化成為必然,要求能夠滿足即時組合的個性化挖掘服務。

雲計算是一種基於互聯網的、大眾參與的計算模式,其計算資源(包括計算能力、存儲能力、交互能力等)是動態、可伸縮、被虛擬化的,並以服務的方式提供 [1] 。具體表現在:雲計算的動態和可伸縮的計算能力為高效海量數據挖掘帶來可能性;雲計算環境下大眾參與的群體智能為研究集群體智慧的新的數據挖掘方法研究提供了環境;雲計算的服務化特徵使面向大眾的數據挖掘成為可能。同時,雲計算發展也離不開數據挖掘的支持,以搜索為例,基於雲計算的搜索包括網頁存儲、搜索處理和前端交互三大部分。數據挖掘在這幾部分中都有廣泛應用,例如網頁存儲中網頁去重、搜索處理中網頁排序和前端交互中的查詢建議,其中每部分都需要數據挖掘技術的支持。

因此,雲計算為海量和復雜數據對象的數據挖掘提供了基礎設施,為網路環境下面向大眾的數據挖掘服務帶來了機遇,同時也為數據挖掘研究提出了新的挑戰性課題。

下面將對並行編程模型、基於並行編程模型高效海量數據挖掘演算法,以及基於雲計算的海量數據挖掘服務相關研究進行綜述。

2並行編程模型相關方法

為了使用戶能夠通過簡單的開發來方便地達到並行計算的效果,研究人員提出了一系列的並行計算模型。並行計算模型在用戶需求和底層的硬體系統之間搭建橋梁使得並行演算法的表示變得更加直觀,對大規模數據的處理更加便捷。根據用戶使用硬體環境的不同,並行編程模型又可以分為在多核機器、GPU計算、大型計算機以及計算機集群上的多種類型。目前比較常用的並行編程介面和模型包括:

pThread介面[2]。pThread是在類Unix系統上進行多線程編程的通用API,為用戶提供了一系列對線程進行創建、管理和各類操作的函數,使用戶能夠方便地編寫多線程程序。

MPI模型[3]。MPI的全稱為消息傳遞介面(Message Passing Interface),它為用戶提供了一系列的介面,使用戶利用消息傳遞的方式來建立進程間的通信機制,從而方便地對各種演算法進行並行實現。

MapRece模型[4]。MapRece模型是由谷歌公司提出的並行編程框架,它首先為用戶提供分布式的文件系統,使用戶能方便地處理大規模數據;然後將所有的程序運算抽象為Map和Rece兩個基本操作,在Map階段模型將問題分解為更小規模的問題,並在集群的不同節點上執行,在Rece階段將結果歸並匯總。MapRece是一個簡單,但是非常有效的並行編程模型。

Pregel模型[5]。Pregel同樣是由谷歌公司提出的專門針對圖演算法的編程模型,能夠為大規模數據的圖演算法提供並行支持。一個典型的Pregel計算過程將在圖上進行一系列的超級步驟(SuperSteps),在每個超級步驟中,所有頂點的計算都並行地執行用戶定義的同一個函數,並通過一個「投票」機制來決定程序是否停止。

CUDA模型①。CUDA是由NVIDIA公司提出的一個基於GPU的並行計算模型。由於GPU在設計需求上與普通CPU不同,GPU通常被設計為能較慢地執行許多並發的線程,而不是較快的連續執行多個線程,這使得GPU在並行計算上有先天的優勢。CUDA為用戶提供了利用GPU計算的各種介面,使程序員能夠像在普通電腦上進行CPU編程那樣進行GPU程序的編寫。

此外還有OpenMP、PVM、OpenCL等各種並行編程模型和方法。這些並行編程和方法一般都提供了主流編程語言的實現,從而使得用戶能根據自身編程習慣來選用。

另一方面,隨著雲計算的不斷推廣,還出現了各種商用的並行計算/雲計算平台,為用戶提供並行計算服務。這其中比較著名的包括微軟的Azure平台、Amazon公司的EC2平台、IBM公司的藍雲平台、谷歌公司的Google App Engine等。各大IT公司也紛紛開發自己的並行計算模型/框架作為自身技術服務的基本平台,這使得並行計算技術得到了更加快速的發展。

3基於並行編程模型高效海量數據挖掘演算法研究

為了實現海量數據上的數據挖掘,大量分布式並行數據挖掘演算法被提出。Bhari et al[6]整理了一個十分詳盡的並行數據挖掘演算法文獻目錄,包含了關聯規則學習、分類、聚類、流數據挖掘四大類分布式數據挖掘演算法,同時還包括分布式系統、隱私保護等相關的研究工作。

MapRece並行編程模型具有強大的處理大規模數據的能力,因而是海量數據挖掘的理想編程平台。數據挖掘演算法通常需要遍歷訓練數據獲得相關的統計信息,用於求解或優化模型參數。在大規模數據上進行頻繁的數據訪問需要耗費大量運算時間。為了提高演算法效率,斯坦福大學Chu et al[7]提出了一種適用於大量機器學習演算法的通用並行編程方法。通過對經典的機器學習演算法進行分析可以發現,演算法學習過程中的運算都能轉化為若干在訓練數據集上的求和操作;求和操作可以獨立地在不同數據子集上進行,因此很容易在MapRece編程平台上實現並行化執行。將大規模的數據集分割為若乾子集分配給多個Mapper節點,在Mapper節點上分別執行各種求和操作得到中間結果,最後通過Rece節點將求和結果合並,實現學習演算法的並行執行。在該框架下,Chu et al實現了十種經典的數據挖掘演算法,包括線性回歸、樸素貝葉斯、神經網路、主成分分析和支持向量機等,相關成果在NIPS 2006會議上發表。

Ranger et al[8]提出了一個基於MapRece的應用程序編程介面Phoenix,支持多核和多處理器系統環境下的並行程序設計。Phoenix能夠進行緩存管理、錯誤恢復和並發管理。他們使用Phoenix實現了K-Means、主成分分析和線性回歸三種數據挖掘演算法。

Gillick et al[9]對單程學習(Single-pass)、迭代學習(Iterative Learning)和基於查詢的學習(Query-based Learning)三類機器學習演算法在MapRece框架下的性能分別做了評測。他們對並行學習演算法涉及到的如何在計算節點之間的共享數據、如何處理分布式存儲數據等問題進行了研究。

Mahout①是APS(Apache Software Foundation)旗下的一個開源數據挖掘項目,通過使用Apache Hadoop庫,可以實現大規模數據上的並行數據挖掘,包括分類、聚類、頻繁模式挖掘、回歸、降維等演算法,目前已經發布了四個版本。

4基於雲計算的海量數據挖掘服務研究

雲計算除了給用戶提供通用的並行編程模型和大規模數據處理能力之外,另一個重要的特點是為用戶提供開放的計算服務平台。在數據挖掘方向,現在也有一系列的系統被開發出來,面向公眾提供數據挖掘服務雲計算平台。

Talia et al[10]提出可以從四個層次提供雲計算數據挖掘服務:底層為組成數據挖掘演算法的基本步驟;第二層為單獨的數據挖掘服務,例如分類、聚類等;第三層為分布式的數據挖掘模式,例如並行分類、聚合式機器學習等;第四層為之前三層元素構成的完整的數據挖掘應用。在此設計基礎上,他們設計了基於雲計算的數據挖掘開放服務框架,並開發了一系列的數據挖掘服務系統,例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等,用戶可以利用圖形界面定義自己的數據挖掘工作流,然後在平台上執行。

PDMiner[11]是由中國科學院計算技術研究所開發的基於Hadoop的並行分布式數據挖掘平台,該系統現在已經用於中國移動通信企業TB級實際數據的挖掘。PDMiner提供了一系列並行挖掘演算法和ETL操作組件,開發的ETL演算法絕大多數達到了線性加速比,同時具有很好的容錯性。PDMiner的開放式架構可以使用戶將演算法組件經過簡單配置方便地封裝載入到系統中。

此外,商業智能領域的各大公司也提供面向企業的大規模數據挖掘服務,例如微策略、IBM、Oracle等公司都擁有自己的基於雲計算的數據挖掘服務平台。

5總結和展望

通過雲計算的海量數據存儲和分布計算,為雲計算環境下的海量數據挖掘提供了新方法和手段,有效解決了海量數據挖掘的分布存儲和高效計算問題。開展基於雲計算特點的數據挖掘方法的研究,可以為更多、更復雜的海量數據挖掘問題提供新的理論與支撐工具。而作為傳統數據挖掘向雲計算的延伸和豐富,基於雲計算的海量數據挖掘將推動互聯網先進技術成果服務於大眾,是促進信息資源的深度分享和可持續利用的新方法、新途徑。

4. 數據挖掘的方法有哪些

數據挖掘的的方法主要有以下幾點:
1.分類挖掘方法。分類挖掘方法主要利用決策樹進行分類,是一種高效且在數據挖掘方法中佔有重要地位的挖掘方法。為了對數據進行較為准確的測試並據此分類,我們採用決策樹演算法,而決策樹中比較典型的幾種方法為:ID3演算法,此方法具有較強的實用性,適用於大規模數據處理;KNN演算法,此方法算量較大,適用於分別類別的數據處理。
2..聚類分析挖掘方法。聚類分析挖掘方法主要應用於樣品與指標分類研究領域,是一種典型的統計方法,廣泛應用於商業領域。此聚類分析方法根據適用對象不同又可分為四種分析挖掘方法:基於網格的聚類分析方法、基於分層的聚類方法、基於密度的聚類挖掘方法和基於模型的聚類方法。
3.預測方法。預測方法主要用於對知識的預測以及對連續數值型數據的挖掘,傳統的預測方法主要分為:時間序列方法、回歸模型分析法、灰色系統模型分析。而現在預測方法主要採用神經網路與支持向量機演算法,進行數據分析計算,同時可預測未來數據的走向趨勢。

關於大數據挖掘工程師的課程推薦CDA數據分析師的相關課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」點擊預約免費試聽課。

5. 常見的數據挖掘方法有哪些

數據挖掘的常用方法有:

6. 大數據挖掘有哪些方法

方法1.可視化分析


無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。


方法2.數據挖掘演算法


如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。


方法3.預測分析能力


數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。


方法4.語義引擎


由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。


方法5.數據質量和主數據管理


數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。

7. 大數據處理的五大關鍵技術及其應用

作者 | 網路大數據

來源 | 產業智能官

數據處理是對紛繁復雜的海量數據價值的提煉,而其中最有價值的地方在於預測性分析,即可以通過數據可視化、統計模式識別、數據描述等數據挖掘形式幫助數據科學家更好的理解數據,根據數據挖掘的結果得出預測性決策。其中主要工作環節包括:

大數據採集 大數據預處理 大數據存儲及管理 大數據分析及挖掘 大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

一、大數據採集技術

數據是指通過RFID射頻數據、感測器數據、社交網路交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。重點要突破分布式高速高可靠數據爬取或採集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。

大數據採集一般分為:

大數據智能感知層:主要包括數據感測體系、網路通信體系、感測適配體系、智能識別體系及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。

基礎支撐層:提供大數據服務平台所需的虛擬伺服器,結構化、半結構化及非結構化數據的資料庫及物聯網路資源等基礎支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化介面技術,大數據的網路傳輸與壓縮技術,大數據隱私保護技術等。

二、大數據預處理技術

完成對已接收數據的辨析、抽取、清洗等操作。

抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。

清洗:對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾「去噪」從而提取出有效數據。

三、大數據存儲及管理技術

大數據存儲與管理要用存儲器把採集到的數據存儲起來,建立相應的資料庫,並進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。

開發新型資料庫技術,資料庫分為關系型資料庫、非關系型資料庫以及資料庫緩存系統。其中,非關系型資料庫主要指的是NoSQL資料庫,分為:鍵值資料庫、列存資料庫、圖存資料庫以及文檔資料庫等類型。關系型資料庫包含了傳統關系資料庫系統以及NewSQL資料庫。

開發大數據安全技術:改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隱私保護和推理控制、數據真偽識別和取證、數據持有完整性驗證等技術。

四、大數據分析及挖掘技術

大數據分析技術:改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。

數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。

機器學習中,可細分為歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。

數據挖掘主要過程是:根據分析挖掘目標,從資料庫中把數據提取出來,然後經過ETL組織成適合分析挖掘演算法使用寬表,然後利用數據挖掘軟體進行挖掘。傳統的數據挖掘軟體,一般只能支持在單機上進行小規模數據處理,受此限制傳統數據分析挖掘一般會採用抽樣方式來減少數據分析規模。

數據挖掘的計算復雜度和靈活度遠遠超過前兩類需求。一是由於數據挖掘問題開放性,導致數據挖掘會涉及大量衍生變數計算,衍生變數多變導致數據預處理計算復雜性;二是很多數據挖掘演算法本身就比較復雜,計算量就很大,特別是大量機器學習演算法,都是迭代計算,需要通過多次迭代來求最優解,例如K-means聚類演算法、PageRank演算法等。

從挖掘任務和挖掘方法的角度,著重突破:

可視化分析。數據可視化無論對於普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。 數據挖掘演算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的演算法讓我們精煉數據,挖掘價值。這些演算法一定要能夠應付大數據的量,同時還具有很高的處理速度。 預測性分析。預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。 語義引擎。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。 數據質量和數據管理。數據質量與管理是管理的最佳實踐,透過標准化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。

預測分析成功的7個秘訣

預測未來一直是一個冒險的命題。幸運的是,預測分析技術的出現使得用戶能夠基於歷史數據和分析技術(如統計建模和機器學習)預測未來的結果,這使得預測結果和趨勢變得比過去幾年更加可靠。

盡管如此,與任何新興技術一樣,想要充分發揮預測分析的潛力也是很難的。而可能使挑戰變得更加復雜的是,由不完善的策略或預測分析工具的誤用導致的不準確或誤導性的結果可能在幾周、幾個月甚至幾年內才會顯現出來。

預測分析有可能徹底改變許多的行業和業務,包括零售、製造、供應鏈、網路管理、金融服務和醫療保健。AI網路技術公司Mist Systems的聯合創始人、首席技術官Bob fridy預測:「深度學習和預測性AI分析技術將會改變我們社會的所有部分,就像十年來互聯網和蜂窩技術所帶來的轉變一樣。」。

這里有七個建議,旨在幫助您的組織充分利用其預測分析計劃。

1.能夠訪問高質量、易於理解的數據

預測分析應用程序需要大量數據,並依賴於通過反饋循環提供的信息來不斷改進。全球IT解決方案和服務提供商Infotech的首席數據和分析官Soumendra Mohanty評論道:「數據和預測分析之間是相互促進的關系。」

了解流入預測分析模型的數據類型非常重要。「一個人身上會有什麼樣的數據?」 Eric Feigl - Ding問道,他是流行病學家、營養學家和健康經濟學家,目前是哈佛陳氏公共衛生學院的訪問科學家。「是每天都在Facebook和谷歌上收集的實時數據,還是難以訪問的醫療記錄所需的醫療數據?」為了做出准確的預測,模型需要被設計成能夠處理它所吸收的特定類型的數據。

簡單地將大量數據扔向計算資源的預測建模工作註定會失敗。「由於存在大量數據,而其中大部分數據可能與特定問題無關,只是在給定樣本中可能存在相關關系,」FactSet投資組合管理和交易解決方案副總裁兼研究主管Henri Waelbroeck解釋道,FactSet是一家金融數據和軟體公司。「如果不了解產生數據的過程,一個在有偏見的數據上訓練的模型可能是完全錯誤的。」

2.找到合適的模式

SAP高級分析產品經理Richard Mooney指出,每個人都痴迷於演算法,但是演算法必須和輸入到演算法中的數據一樣好。「如果找不到適合的模式,那麼他們就毫無用處,」他寫道。「大多數數據集都有其隱藏的模式。」

模式通常以兩種方式隱藏:

模式位於兩列之間的關系中。例如,可以通過即將進行的交易的截止日期信息與相關的電子郵件開盤價數據進行比較來發現一種模式。Mooney說:「如果交易即將結束,電子郵件的公開率應該會大幅提高,因為買方會有很多人需要閱讀並審查合同。」

模式顯示了變數隨時間變化的關系。「以上面的例子為例,了解客戶打開了200次電子郵件並不像知道他們在上周打開了175次那樣有用,」Mooney說。

3 .專注於可管理的任務,這些任務可能會帶來積極的投資回報

紐約理工學院的分析和商業智能主任Michael Urmeneta稱:「如今,人們很想把機器學習演算法應用到海量數據上,以期獲得更深刻的見解。」他說,這種方法的問題在於,它就像試圖一次治癒所有形式的癌症一樣。Urmeneta解釋說:「這會導致問題太大,數據太亂——沒有足夠的資金和足夠的支持。這樣是不可能獲得成功的。」

而當任務相對集中時,成功的可能性就會大得多。Urmeneta指出:「如果有問題的話,我們很可能會接觸到那些能夠理解復雜關系的專家」 。「這樣,我們就很可能會有更清晰或更好理解的數據來進行處理。」

4.使用正確的方法來完成工作

好消息是,幾乎有無數的方法可以用來生成精確的預測分析。然而,這也是個壞消息。芝加哥大學NORC (前國家意見研究中心)的行為、經濟分析和決策實踐主任Angela Fontes說:「每天都有新的、熱門的分析方法出現,使用新方法很容易讓人興奮」。「然而,根據我的經驗,最成功的項目是那些真正深入思考分析結果並讓其指導他們選擇方法的項目——即使最合適的方法並不是最性感、最新的方法。」

羅切斯特理工學院計算機工程系主任、副教授shanchie Jay Yang建議說:「用戶必須謹慎選擇適合他們需求的方法」。「必須擁有一種高效且可解釋的技術,一種可以利用序列數據、時間數據的統計特性,然後將其外推到最有可能的未來,」Yang說。

5.用精確定義的目標構建模型

這似乎是顯而易見的,但許多預測分析項目開始時的目標是構建一個宏偉的模型,卻沒有一個明確的最終使用計劃。「有很多很棒的模型從來沒有被人使用過,因為沒有人知道如何使用這些模型來實現或提供價值,」汽車、保險和碰撞修復行業的SaaS提供商CCC信息服務公司的產品管理高級副總裁Jason Verlen評論道。

對此,Fontes也表示同意。「使用正確的工具肯定會確保我們從分析中得到想要的結果……」因為這迫使我們必須對自己的目標非常清楚,」她解釋道。「如果我們不清楚分析的目標,就永遠也不可能真正得到我們想要的東西。」

6.在IT和相關業務部門之間建立密切的合作關系

在業務和技術組織之間建立牢固的合作夥伴關系是至關重要的。客戶體驗技術提供商Genesys的人工智慧產品管理副總裁Paul lasserr說:「你應該能夠理解新技術如何應對業務挑戰或改善現有的業務環境。」然後,一旦設置了目標,就可以在一個限定范圍的應用程序中測試模型,以確定解決方案是否真正提供了所需的價值。

7.不要被設計不良的模型誤導

模型是由人設計的,所以它們經常包含著潛在的缺陷。錯誤的模型或使用不正確或不當的數據構建的模型很容易產生誤導,在極端情況下,甚至會產生完全錯誤的預測。

沒有實現適當隨機化的選擇偏差會混淆預測。例如,在一項假設的減肥研究中,可能有50%的參與者選擇退出後續的體重測量。然而,那些中途退出的人與留下來的人有著不同的體重軌跡。這使得分析變得復雜,因為在這樣的研究中,那些堅持參加這個項目的人通常是那些真正減肥的人。另一方面,戒煙者通常是那些很少或根本沒有減肥經歷的人。因此,雖然減肥在整個世界都是具有因果性和可預測性的,但在一個有50%退出率的有限資料庫中,實際的減肥結果可能會被隱藏起來。

六、大數據展現與應用技術

大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。

在我國,大數據將重點應用於以下三大領域:商業智能 、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務雲應用系統(道路監控、視頻監控、網路監控、智能交通、反電信詐騙、指揮調度等公安信息系統),大規模基因序列分析比對技術,Web信息挖掘技術,多媒體數據並行化處理技術,影視製作渲染技術,其他各種行業的雲計算和海量數據處理應用技術等。

閱讀全文

與數據挖掘演算法並行化相關的資料

熱點內容
安卓手機連車載的叫什麼 瀏覽:223
怎麼讓自己的手機鍵盤變得好看app 瀏覽:53
能看qq的文件夾 瀏覽:515
android二維碼生成代碼 瀏覽:567
焦爐氣壓縮機 瀏覽:400
imap接收郵件伺服器地址 瀏覽:291
小喬肖恩解壓密碼 瀏覽:643
php網頁網盤源碼 瀏覽:181
簽到任務源碼 瀏覽:814
母親節的文案怎麼寫app 瀏覽:984
加密協議aes找不到 瀏覽:250
java伺服器端開發源碼 瀏覽:551
編譯器編譯運行快捷鍵 瀏覽:333
住房app怎麼快速選房 瀏覽:174
怎麼在電腦上編譯成功 瀏覽:214
單片機可調時鍾設計方案 瀏覽:192
qq文件夾密碼忘記怎麼找回 瀏覽:683
php擴展插件 瀏覽:608
解壓視頻廁所抽紙 瀏覽:952
app減脂怎麼用 瀏覽:452