數據倉庫演算法分析報告_數據倉庫與數據挖掘問題

Ⅰ 數據倉庫與數據挖掘問題

公眾交流平台
1 介紹
數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。數據倉庫技術是基於信息系統業務發展的需要，基於資料庫系統技術發展而來，並逐步獨立的一系列新的應用技術。數據倉庫系統可以看作是基於數學及統計學嚴謹邏輯思維的並達成「科學的判斷、有效的行為」的一個工具，也是一種達成「數據整合、知識管理」的有效手段。隨著數據倉庫技術應用的不斷深入，越來越多的企業開始使用數據倉庫技術建設自己的數據倉庫系統，希望能對歷史數據進行具體而又有針對性的分析與挖掘，以期從中發現新客戶和客戶新的需求。
目前主要的數據倉庫產品供應商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收購)等。Oracle公司的數據倉庫解決方案包含了業界領先的資料庫平台、開發工具和應用系統，能夠提供一系列的數據倉庫工具集和服務，具有多用戶數據倉庫管理能力，多種分區方式，較強的與OLAP工具的交互能力，及快速和便捷的數據移動機制等特性;IBM公司的數據倉庫產品稱為DB2 Data Warehouse Edition，它結合了DB2數據伺服器的長處和IBM的商業智能基礎設施，集成了用於倉庫管理、數據轉換、數據挖掘以及OLAP分析和報告的核心組件，提供了一套基於可視數據倉庫的商業智能解決方案;微軟的SQL Server提供了三大服務和一個工具來實現數據倉庫系統的整合，為用戶提供了可用於構建典型和創新的分析應用程序所需的各種特性、工具和功能，可以實現建模、ETL、建立查詢分析或圖表、定製KPI、建立報表和構造數據挖掘應用及發布等功能;SAS公司的數據倉庫解決方案是一個由30多個專用模塊構成的架構體系，適應於對企業級的數據進行重新整合，支持多維、快速查詢，提供服務於OLAP操作和決策支持的數據採集、管理、處理和展現功能;Teradata公司提出了可擴展數據倉庫基本架構，包括數據裝載、數據管理和信息訪問幾個部分，是高端數據倉庫市場最有力競爭者，主要運行在基於Unix操作系統平台的NCR硬體設備上;Sybase提供了稱為Warehouse Studio的一整套覆蓋整個數據倉庫建立周期的產品包，包括數據倉庫的建模、數據集成和轉換、數據存儲和管理、元數據管理和數據可視化分析等產品;Business Objects是集查詢、報表和OLAP技術為一身的智能決策支持系統，具有較好的查詢和報表功能，提供多維分析技術，支持多種資料庫，同時它還支持基於Web瀏覽器的查詢、報表和分析決策。
根據IDC發布的2006年數據倉庫市場分析報告，上述公司占據了全球近90%的市場份額，提供的數據倉庫產品的功能特性已經成為市場的主流。這些公司在推出各自的數據倉庫產品的同時也提供了相應的數據倉庫解決方案。本文後續內容將針對這些數據倉庫產品和解決方案的主要支撐技術進行比較，並結合IDC和ChinaBI相關報告給出相應的市場情況分析。
2 支撐技術
在數據倉庫系列技術中，主要的支撐技術包括資料庫技術、ETL技術、OLAP技術、報表技術、數據挖掘技術。
2.1 資料庫技術
資料庫技術是支撐數據倉庫技術的基礎技術。盡管在數據倉庫技術存儲模型方面，基於資料庫技術而發展的關系模式的理念已經被顛覆，取而代之是各種各樣的數據倉庫數據模型，如星型模型，雪花模型等。然而，在已有的數據倉庫實踐中，關系資料庫仍然是實質的資料庫存儲工具，只是將資料庫表改稱為了事實表和維表，將屬性域之間的關系重新定義為維度，量度，層次，粒度等。
成熟的數據倉庫後台資料庫包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查詢效率方面，Sybase IQ由於採用了列存儲技術，查詢效率比較高;在兼容性方面，Teradata從軟體到硬體都必須是專用的，因而兼容性最差;在管理平台和海量數據管理方面，Oracle、DB2和SQL Server都提供了一系列完整的工具，相對於其它產品有著明顯的優勢;在磁碟空間利用方面，Sybase IQ的壓縮比是所有資料庫中最好的，而Teradata最為浪費。
另外，SAS公司和BO公司也擁有自己的數據管理能力，但對於大型數據倉庫的數據管理，仍然需要使用上述資料庫產品，SAS和BO都提供了與這些資料庫進行連接的專門介面。
2.2 ETL技術
數據倉庫系統是集成的、與時間相關的數據集合，ETL作為數據倉庫的核心，負責將分布的、異構數據源中的數據進行抽取、清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。ETL能夠按照統一的規則集成並提高數據的價值，是負責完成數據從數據源向目標數據倉庫轉化的過程，是實施數據倉庫的重要步驟。要實現數據倉庫中數據的自動更新運轉，ETL技術是必不可少的關鍵技術之一。
主流數據倉庫產品供應商都擁有各自的ETL能力。IBM的ETL工具稱為IBM WebSphere DataStage，它為整個ETL過程提供了一個圖形化的開發環境，支持對多種操作數據源的數據抽取、轉換和維護，並將其輸入數據集或數據倉庫;Teradata的ETL工具稱為ETL Automation，它利用Teradata資料庫本身的並行處理能力，通過SQL語句實現數據的轉換，提供對ETL流程的支持，包括前後依賴、執行和監控等;SAS的ETL工具稱為ETL Studio，提供管理ETL流程和建立數據倉庫、數據集市和OLAP結構的單控制點。其他幾家公司則將其工具融合在大的數據倉庫組件中，如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可擴展數據整合平台Data Integrator。
上述各公司提供的ETL相關工具功能相近，在易用性、效率、價格等方面各有千秋，但就工具的二次開發、集成和開放性而言，與專業的數據集成平台，如Informatica公司的PowerCenter，相比還是存在一定的差距。
2.3 OLAP技術
聯機分析處理(OLAP)是針對特定問題的聯機數據訪問和分析，通過對信息進行快速、穩定、一致和互動式的存取，對數據進行多層次、多階段的分析處理，以獲得高度歸納的分析結果。聯機事務處理(OLTP)已不能滿足終端用戶對資料庫查詢分析的需要，SQL對大資料庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系資料庫進行大量計算才能得到結果，而查詢的結果並不能滿足決策者提出的需求，由此出現了多維資料庫和多維分析的概念。
目前主流的OLAP產品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等，這些產品都可以生成多維數據立方體，提供多維數據的快速分析，支持所有主流關系型資料庫如DB2，Oracle，SQL Server，Sybase等，同時可讀取關系資料庫中細節數據，實現混合在線分析(HOLAP)或關系型在線分析(ROLAP)。並且，各廠商的OLAP Sever對自己的資料庫產品的支持均好於其它資料庫，各自的分析工具也都基於開放的OLE DB標准，可以訪問支持OLE DB標準的數據立方體。
BO公司和Sybase公司則分別提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension，支持標准OLAP API，如OLEDB for OLAP，能夠對Microsoft、IBM等OLAP數據進行劃分、鑽取等處理，兼容第三方報表和展現工具。Teradata盡管不提供獨立的OLAP工具，但提供了相關技術，用於提升運行於Teradata資料庫上的OLAP應用系統的性能。
2.4 報表技術
報表技術主要是將集成在數據模型里的數據，按照復雜的格式、指定行列統計項，計算形成的特殊表格。一般的簡單報表可以使用通用的前台展現技術實現，而復雜的報表則需要使用特定的報表技術。主流的報表技術都可以靈活的制定各種報表模版庫和指標庫，並根據每個區塊或單元格的需要引用指標，實現一系列復雜的符合要求的報表的自動生成。
主流數據倉庫廠商的報表工具中較為有影響包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通過收購Cognos公司獲得了完整的報表產品Cognos ReportNet，覆蓋了各種報表需求，包括管理報表、商業報表、賬單和發票等;BO公司提供了一個完整的企業報表解決方案Crystal Reports Server，支持通過Web快速便捷的創建、管理和交付報表;Oracle Reports工具提供了自由的數據格式方式，可以自動生成個性化字母或矩陣風格的布局，包括動態、數據驅動的圖表;SQL Server的報表功能包含在Reporting Services (SSRS)中，包括處理組件、一整套可用於創建和管理報表的工具、在自定義應用程序中集成和擴展數據和報表處理的API。與上述產品相比，Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等報表產品在功能、性能、二次開發等方面都還存在著一定的差距。
總的來說，這些產品在大部分通用軟體領域相對國產軟體都要優秀，但在有中國特色的報表領域內卻是例外，在處理能力存在一定的不適應性。另外這些產品的數學模型都是基於SQL/OLAP理論設計的，在技術上也不能滿足國內復雜報表的製作需求。
2.5 數據挖掘技術
當數據積累到一定數量時，某些潛在聯系、分類、推導結果和待發現價值隱藏在其中，可以使用數據發掘工具幫助發現這些有價值的數據。數據挖掘就是從海量數據中，提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。通過數據挖掘能找出資料庫中隱藏的信息，實現用模型來擬合數據、探索型數據分析，數據驅動型的發現，演繹型學習等功能。
目前，IBM公司的IBM Intelligent Miner支持典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現，可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作;Oracle公司提供的數據挖掘平台稱為Oracle Data Miner，它提供了的一個圖形用戶界面，通過簡單易用的向導來指導完成數據准備、數據挖掘、模型評估和模型評價過程，根據需要自動生成將數據挖掘步驟轉換成一個集成的數據挖掘/BI應用程序所需的代碼;SAS公司的SAS Enterprise Miner將數據挖掘過程簡單流程化，支持關聯、聚類、決策樹、神經元網路和經典的統計回歸技術;Teradata公司的挖掘工具稱為Teradata Warehouse Miner，它通過將數據挖掘技術整合到數據倉庫來簡化數據挖掘流程，該工具還可實現將多家廠商的數據挖掘技術嵌入Teradata企業級數據倉庫環境中運行;Microsoft數據挖掘平台不同於傳統數據挖掘應用程序，它支持組織中數據的整個開發生命周期，允許第三方添加自定義演算法以支持特定的挖掘需求，支持實時根據挖掘的數據集進行數據驗證。對比於上述公司，Sybase和BO公司並沒有推出專門的數據挖掘平台或工具。
和前幾項支撐技術相比，數據挖掘技術的專業性更強，與應用領域的特殊背景結合得更加緊密。上述產品除了在性能、通用性、數據展示、二次開發上有一定差異外，沒有一個能夠占據絕對技術和市場優勢，反而是一些專門領域內的專業挖掘工具更具競爭性，如Fair Isaac公司占據了全球信用卡積分市場近7成的份額。
3 市場分析
國際權威市場分析機構IDC將數據倉庫平台工具市場細分為數據倉庫生成(Data Warehouse Generation)工具市場和數據倉庫管理(Data Warehouse Management)工具市場兩個部分，前者涵蓋數據倉庫的設計和ETL過程的各種工具，後者指數據倉庫後台資料庫的管理工具，如DBMS。根據IDC發布的《全球數據倉庫平台工具2006年度供應商市場份額》分析報告，2006年該市場增長率為12.5%，規模達到57億美元，其中數據倉庫生成工具和數據倉庫管理工具兩個市場的比重分別為23.3%和76.7%，相對於數據倉庫管理工具市場，數據倉庫生成工具市場的增長進一步放緩。可以預見，整個數據倉庫市場將進一步向擁有強大後台資料庫系統的傳統廠商傾斜。從供應商看，Oracle公司繼續占據數據倉庫管理領域的領先供應商地位，並且與其主要競爭者IBM之間的這種領先優勢正逐漸擴大。Microsoft緊追IBM之後，與其之間的差距則在逐漸縮小。
在國內，商業智能已經成為企業信息化中最重要的組成部分，而數據倉庫相關技術在其中扮演著無可替代的重要角色。據ChinaBI統計，2007年中國大陸地區的BI市場份額約為20億元人民幣，同比2006年增長35%，其中BI產品許可證約為9億元人民幣，BI系統集成約為11億元人民幣。現有BI廠商包括產品提供商、集成商、分銷商、服務商等有近500家，在未來幾年內商業智能市場需求旺盛，市場規模增長迅速。從國內數據倉庫實踐看，根據ChinaBI評選的2007年中國十大數據倉庫的初步結果，傳統資料庫廠商占據7個，分別是IBM 3個、Oracle 3個、SQL Server 1個，其餘3個屬於NCR/Teradata公司;從數據倉庫規模來看，傳統資料庫廠商更佔有巨大優勢，總數據量為536.3T，Teradata則為54T。涉及的行業包括通信、郵政、稅務、證券和保險等。
在數據倉庫市場快速發展的同時，市場競爭也日趨激烈，其中尤其以Oracle收購Hyperion、SAP收購BO、IBM收購Cognos具有代表意義。截至2007年底，混亂的市場已經基本明朗化，三個層次逐漸浮現出來。Oracle，IBM，Microsoft和SAP位居第一層次，能夠提供全面的解決方案;第二層次是NCR Teradata和SAS等產品相對獨立的供應商，可以提供解決方案中的部分應用;第三層次是只專注於單一領域的專業廠商，但其在並購的硝煙中日趨難以存活。

Ⅱ 銀行數據倉庫體系實踐（18）--數據應用之信用風險建模

信用風險

        銀行的經營風險的機構，那在第15節也提到了巴塞爾新資本協議對於銀行風險的計量和監管要求，其中信用風險是銀行經營的主要風險之一，它的管理好壞直接影響到銀行的經營利潤和穩定經營。信用風險是指交易對手未能履行約定契約中的義務而給銀行造成經濟損失的風險。典型的表現形式包括借款人發生違約或信用等級下降。借款人因各種原因未能及時、足額償還債務/銀行貸款、未能履行合同義務而發生違約時，債權人或銀行必將因為未能得到預期的收益而承擔財務上的損失。

        那如何來表示某個交易對手的信用情況呢，一般使用信用等級或信用評分來來表示，等級越低或評分越低，發生違約的概率會增加。這個信用評分主要應用在客戶的貸前和貸後管理中，貸前是指客戶貸款申請階段，銀行受理客戶貸款申請時會根據客戶提交的信息、人行徵信、其它數據源按一定的規則計算出一個違約概率和風險評分或信用等級。再根據這個評分或評級來確定客戶的授信額度和利率。計算出的評分或評級越高，違約概率越低，比如在進行個人貸前評分時主要關注以下5方面：

        （1）People：貸款人狀況，包括歷史還款表現、當前負債情況、資金飢渴度等；

        （2）Payment：還款來源，如基本收入、資產水平、月收支負債比、無擔保總負債等；

        （3）Purpose：資金用途，如消費、買房，需要規避貸款資金用於投資或投機性質較高領域，如股票和數字貨幣；

        （4）Protection：債權確保，主要是看是否有抵押物或擔保，需要看抵押物用途、質量、價格等關鍵要素；

        （5）Perspective：借款戶展望，從地域、行業、人生階段等考察穩定性及潛力；

        貸後是指客戶借款後銀行持續跟進客戶的信用情況，如果發現信用評分降低或者某些指標達到風險預警指標的閾值，說明風險升高，則會進行凍結額度甚至提前進行貸款收回。特別是對於逾期客戶。

風險建模步驟

       在進行信用評估時如何選擇客戶屬性、如何確定評分或評級規則呢？這就需要進行風險建模，通過分析歷史數據來確定哪些特徵或指標對客戶的違約相關性大，可以了解客戶的還款能力以及還款意願。並通過一定方法來建立評分和評級的規則。那風險建模主要分為以下步驟：

        （1）業務理解：主要評估當前現狀、確定業務目標，選擇建模方法，比如需要進行XX貸款產品的貸前評分模型並確定準入規則，建模方式比如為評分卡，評分應用為基於評分確定貸款准入規則以及額度和利率規則，同時需要確定分析數據的好客戶和壞客戶標准，如逾期90天以上為壞客戶；

        （2）數據理解：首先需要准備建模的樣本數據，如抽取近2年的獲得類似產品的客戶相關信息以及根據好客戶和壞客戶標准確定的結果。並針對業務數據進行業務含義理解、對數據進行收集、探索，了解每個變數的數據質量、缺失情況，數據分布等。比如對於客戶在人行的徵信數據、客戶在銀行的存款、理財等信息、以及客戶申請填寫的家庭、房產信息、外部獲得的客戶教育、司法等相關信息進行業務理解和數據分布、質量的探索，對缺失值比例過大的變數或准確性不高的變數進行剔除，同時也要確定對於樣本數據中哪些數據進行建模，哪些數據進行驗證。

        （3）數據准備：主要對數據進行預處理和指標加工，指標加工指基於基礎數據進行指標加工，如最近1個月的徵信查詢次數，最近1年的逾期次數等，數據預處理主要工作包括對每一個變數進行數據清洗、缺失值處理、異常值處理、數據標准化等，主要目的是將獲取的原始數據轉變成可用於建模的結構化數據。

        比如對於連續變數，就是要尋找合適的切割點把變數分為幾個區間段以使其具有最強的預測能力，也稱為「分箱」。例如客戶年齡就是連續變數，在這一步就是要研究分成幾組、每組切割點在哪裡預測能力是最強的。分箱的方法有等寬、等頻、聚類（k-means）、卡方分箱法、單變數決策樹演算法（ID3、C4.5、CART）、IV最大化分箱法、best-ks分箱法等。如果是離散變數，每個變數值都有一定的預測能力，但是考慮到可能幾個變數值有相近的預測能力，因此也需要進行分組。

        通過對變數的分割、分組和合並轉換，分析每個變數對於結果的相關性，剔除掉預測能力較弱的變數，篩選出符合實際業務需求、具有較強預測能力的變數。檢測變數預測能力的方法有：WOE(weight of Evidence) 、IV(informationvalue)等。

        （4）分析建模：即對於篩選出來的變數以及完成好壞定義的樣本結果。放入模型進行擬合。如評分卡一般採用常見的邏輯回歸的模型，PYTHON、SAS、R都有相關的函數實現模型擬合。以下是生成的評分卡的例子。

        （5）評估及報告：即通過驗證樣本對模型的預測進行校驗。評估模型的准確性和穩健性，並得出分析報告。常用的方法有ROC曲線、lift提升指數、KS(Kolmogorov-Smirnov)曲線、GINI系數等。

        （6）應用：對模型進行實際部署和應用，如基於評分進行客戶准入和產生額度，並在貸款系統進行模型部署，自動對申請客戶進行評分。

        （7）監測：建立多種報表對模型的有效性、穩定性進行監測，如穩定性監控報表來比較新申請客戶與開發樣本客戶的分值分布，不良貸款分析報表來評估不同分數段的不良貸款，並且與開發時的預測進行比較，監控客戶信貸質量。隨著時間的推移和環境變化，評分模型的預測力會減弱，所以需要持續監控並進行適當調整或重建。

        在信用風險建模中，目前評分卡建模還是主要的方式，除了申請評分（A卡（Application score card））還有B卡（Behavior score card）行為評分卡、C卡（Collection score card）催收評分卡。B卡主要進行客戶貸後管理，如何進行風險預警，C卡進行催收管理，確定如何催收以及催收方式和時間點。信用風險模型中還有一個是反欺詐模型，它主要是識別假冒身份、虛假信息、批量薅羊毛等欺詐行為。隨著機器學習和大數據的發展，其它的一些建模方式如決策樹、深度神經網路也越來越多的應用到了風險建模中。

        信用風險模型是數據倉庫支持的重要數據應用之一，在風險建模分析階段，數據倉庫是建模樣本數據以及衍生指標加工的主要提供者，業務人員一般在自助分析平台進行數據分析和建模，模型建立完成並部署後，會基於數據倉庫數據進行模型效果的監控。在貸後管理中，風險集市也會進行貸後指標的加工。另外風險模型以及預警中會經常使用到外部數據，這部分數據也是通過數據倉庫進行對接、加工和存儲。

Ⅲ 銀行數據倉庫體系實踐（7）--數據模型設計及流程

        數據倉庫作為全行或全公司的數據中心和匯流排，匯集了全行各系統以及外部數據，通過良好的系統架構可以保證系統穩定性和處理高效性，那如何保障系統數據的完備性、規范性和統一性呢？這里就需要有良好的數據分區和數據模型，那數據分區在第三部分數據架構中已經介紹，本節將介紹如何進行數據模型的設計。

1、各數據分區的模型設計思路：

       數據架構部分中提到了在數據倉庫中主要分為以下區域，那各數據區域的主要設計原則如下：

       （1）主數據區：主數據區是全行最全的基礎數據區，保留歷史並作為整個數據倉庫的數據主存儲區，後續的數據都可以從主數據區數據加工獲得，因此主數據區的數據天然就要保留所有歷史數據軌跡。

1) 近源模型區：主要是將所有入數據倉庫的數據表按歷史拉鏈表或事件表（APPEND演算法）的方式保留所有歷史數據，因此模型設計較簡單，只需要基於源系統表結構，對欄位進行數據標准化後，增加保留歷史數據演算法所需要的日期欄位即可。

2)整合模型區：該模型區域按主題方式對數據進行建模，需要對源系統表欄位按主題分類劃分到不同的主題區域中，並主要按3範式的方式設計表結構，通過主題模型的設計並匯總各系統數據，可以從全行及集團角度進行客戶、產品、協議（賬戶、合同）分析，獲得統一視圖。比如說，全行有多少客戶、有多少產品？通過主題模型事先良好的設計和梳理，可以很快獲得相關統計數據。

       主數據區的模型設計按頂層設計（自上而下）為主，兼顧應用需求（自下而上）的方式，即需要有全局視角，也要滿足應用需求。那頂層設計主要是需要從全行數據角度對源系統的主要業務數據進行入倉，獲得全行客戶、業務數據的整體視角，同時又保存所有交易明細數據，滿足後續的數據分析需求；應用需求指源系統數據的入倉也需要考慮當前集市、數據應用系統的數據需求，因為數據需求是千變萬化的，但是只要保留全面的基礎的業務數據，就有了加工的基礎，當前的數據需求只是考慮的一部分，更多的需要根據業務經驗以及主題模型進行數據入倉和模型設計。

        主數據模型的設計主要自上而下，近源模型層雖然比較簡單，但設計步驟和整合模型類型，分為以下幾個步驟：

     步驟1：系統信息調研，篩選入倉的系統並深入了解業務數據；

     步驟2：對入倉系統進行表級篩選和欄位篩選，並將欄位進行初步映射；

      步驟3：根據入倉欄位按一定規范設計邏輯模型；

     步驟4：對邏輯模型進行物理化；

       （2）集市區：集市區的設計表結構設計主要按維度模型（雪花模型、星形模型）進行設計，主要是為了方便應用分析，滿足數據應用需求，集市區一般以切片的形式保留結果歷史數據，但保留期限不會太長，比如只保留月末數據以及當前月份的每日切片數據。

       數據集市需要從數據倉庫獲得基礎數據，對於倉內集市，可以直接訪問或通過視圖訪問，減少數據存儲，倉外集市則需要從數據倉庫獲得批量數據作為基礎數據進行存儲加工。因此倉外集市還需要設計基礎數據的保留策略。

      集市區的設計步驟如下：

（3）介面區：介面區的設計完全根據數據應用系統的介面方式來進行，一般也是維度模型（事實表+維度表）方式，介面區之前也提到過，不做復雜計算，只做簡單關聯，可以將復雜計算放到集市或指標匯總層加工。

        （4）指標匯總區：作為集市介面區和主數據區的中間層，主要是提供基於各集市和介面數據的共性需求，基於主模型區數據進行統一加工。即面向所有的應用需求來設計，那中間層一般採用維度模型，按從細粒度到粗粒度的方式逐步匯總。由於各數據應用及集市的需求不斷變化，指標匯總區也是不斷進行完善，許多一開始在集市的加工由於其它集市或應用也需要，則會從集市轉移到指標匯總層。常見的數據就是客戶、賬戶、合同等常用的數據實體的寬表（事實表），統一進行匯總後供各數據應用使用。

        另外指標匯總層也包括共性指標的加工，指標可以通過基礎指標配置指標計算加工方式獲得衍生指標，那這些基礎指標和衍生指標的定義、口徑以及加工方式可以由指標管理系統來維護並集成到數據標准系統和元數據管理系統中。

        指標匯總區設計步驟如下：

        （5）非結構化數據存儲區：非結構化存儲區的設計不僅需要考慮非結構化數據本身的存儲，同時需要考慮非結構化數據所帶有的結構化屬性，因此在設計時主要考慮以下幾點：

         1）存儲路徑規劃：是需要將非結構化數據按源系統、類型、日期、外部來源等角度進行存儲路徑的規劃，分門別類，便於管理。

         2）對非結構化數據的元數據建立索引：比如對於憑證的影像，需要有賬戶、流水號、客戶名等相關結構化數據，以便完整描述影像圖片的來源，通過對這些結構化數據建立索引，方便查找。

         3）對部分文檔內容建立索引：對於部分文檔如合同電子版、紅頭文件PDF需要建立內容索引，以便快速搜索查找文件內容，一般可用支持HADOOP的ElasticSearch來實現。

         4）設立計算區和結果區：由於非結構化數據往往需要使用MAPREDUCE或程序化語言進行處理，也會產生中間臨時文件和結果數據，因此需要規劃計算區和結果區來存放這些數據。

        （6）歷史數據存儲區：歷史數據區作為歷史數據的歸檔，即包括結構化數據，也包括非結構化數據，對於歷史數據除了存儲也需要方便查找，歷史數據區的規劃設計需要考慮非結構化數據存儲區的存儲、索引設計外，還需要考慮以下幾點：

        1）壓縮，由於歷史數據使用頻率低，可以選擇壓縮率較高的演算法，降低存儲空間。

         2）容量規劃：由於歷史數據歸檔會越來越大，因此需要提前進行容量規劃以及歷史數據清理。比如10年以上的數據進行刪除。

         3）可設計一個管理系統對歷史數據進行歸檔、查找以及管理。

        （7）實時數據區：實時數據區需要使用部分批量數據來和實時流數據進行關聯加工，因此可從主數據區獲得所需要的數據後進行存放在實時數據區的關聯數據區，同時對於加工結果不僅可以推送到KAFKA等消息中間件，同時也可輸出到實時數據區的結果區進行保留。

        （8）在線查詢區：在線查詢區主要在線提供計算結果查詢，常用HBASE來實現，設計按照介面來分別存放到不同的HBASE表，欄位內容也主要是介面欄位內容。HBASE表可以根據應用或者介面類型進行分目錄和分用戶。由於在線查詢區和實時數據區考慮到作業的保障級別以及資源競爭，往往會單獨建立一套集群，與批量作業集群進行隔離，在線查詢的結果計算可以在批量集群計算後載入到在線查詢區。

    後續將分別對主數據區、集市及匯總指標層模型設計進行介紹，敬請關注。

Ⅳ 數據倉庫數據集成演算法

數據倉庫將源系統數據抽取到ODS或者ODS提供數據給數據倉庫後，需要將不同來源的數據根據業務需求集成在同一模型中。總體來說，集成演算法與ODS演算法基本相同，區別在於集成時當日數據來源並不是唯一的。從模型上來說，大體分為歷史表模型，當前表模型，流水表模型，特殊數據模型將根據業務需求特殊載入。

歷史表指當源系統數據被刪除（物理刪除或邏輯刪除）或者失效後，數據倉庫不會將數據物理刪除，只將數據的結束日期閉鏈，從而保證將源系統數據變化的過程保留下來。基本載入演算法如下：

通常流水表只保留在ODS層，但某些流水數據可能來源於多個源系統，為了後續數據使用方便，也將多個來源的流水表集成到一起。

當前表是指只保留最新的數據，源系統失效或者刪除（物理刪除或邏輯刪除）的數據，在數據倉庫集成的時候，不再保留，直接物理刪除。當前表只保留有效的數據。演算法與歷史表基本相同(只是wt_u是直接刪除，而不是關鏈)

Ⅳ 初學者如何學習數據倉庫與數據挖掘技術

初學者短期學會數據倉庫與數據挖掘技術比較不現實，不過學術性的隨便做個主題應該還不是很難。要想深入學習，建議報培訓機構。

1.數據倉庫，是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性（屬於Association rule learning）的信息的過程。數據挖掘通常與計算機科學有關，所以學好數據倉庫與數據挖掘技術還是有必要的。
2.數據挖掘（英語：Data mining），又譯為資料探勘、數據采礦。它是資料庫知識發現。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。數據挖掘通常與計算機科學有關，並通過統計、在線分析處理、情報檢索、機器學習、專家系統（依靠過去的經驗法則）和模式識別等諸多方法來實現上述目標。

如果說想要了解數據倉庫和數據挖掘技術，這里推薦CDA數據分析師的相關課程。CDA數據分析師覆蓋了國內企業招聘數據分析師所要求的所有技能，包括概率統計知識、軟體應用、數據挖掘、資料庫、數據報告、業務應用等。CDA數據分析師分為LEVELⅠ、Ⅱ、Ⅲ三個等級，成為一名合格的CDA數據分析師能夠勝任企業不同層次的數據分析工作。點擊預約免費試聽課。

導航:首頁 > 源碼編譯 > 數據倉庫演算法分析報告

數據倉庫演算法分析報告

與數據倉庫演算法分析報告相關的資料