数据仓库算法分析报告_数据仓库与数据挖掘问题

Ⅰ 数据仓库与数据挖掘问题

公众交流平台
1 介绍
数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要，基于数据库系统技术发展而来，并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具，也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入，越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统，希望能对历史数据进行具体而又有针对性的分析与挖掘，以期从中发现新客户和客户新的需求。
目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统，能够提供一系列的数据仓库工具集和服务，具有多用户数据仓库管理能力，多种分区方式，较强的与OLAP工具的交互能力，及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse Edition，它结合了DB2数据服务器的长处和IBM的商业智能基础设施，集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件，提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL Server提供了三大服务和一个工具来实现数据仓库系统的整合，为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能，可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系，适应于对企业级的数据进行重新整合，支持多维、快速查询，提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构，包括数据装载、数据管理和信息访问几个部分，是高端数据仓库市场最有力竞争者，主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包，包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business Objects是集查询、报表和OLAP技术为一身的智能决策支持系统，具有较好的查询和报表功能，提供多维分析技术，支持多种数据库，同时它还支持基于Web浏览器的查询、报表和分析决策。
根据IDC发布的2006年数据仓库市场分析报告，上述公司占据了全球近90%的市场份额，提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较，并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
2 支撑技术
在数据仓库系列技术中，主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术。
2.1 数据库技术
数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面，基于数据库技术而发展的关系模式的理念已经被颠覆，取而代之是各种各样的数据仓库数据模型，如星型模型，雪花模型等。然而，在已有的数据仓库实践中，关系数据库仍然是实质的数据库存储工具，只是将数据库表改称为了事实表和维表，将属性域之间的关系重新定义为维度，量度，层次，粒度等。
成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面，Sybase IQ由于采用了列存储技术，查询效率比较高;在兼容性方面，Teradata从软件到硬件都必须是专用的，因而兼容性最差;在管理平台和海量数据管理方面，Oracle、DB2和SQL Server都提供了一系列完整的工具，相对于其它产品有着明显的优势;在磁盘空间利用方面，Sybase IQ的压缩比是所有数据库中最好的，而Teradata最为浪费。
另外，SAS公司和BO公司也拥有自己的数据管理能力，但对于大型数据仓库的数据管理，仍然需要使用上述数据库产品，SAS和BO都提供了与这些数据库进行连接的专门接口。
2.2 ETL技术
数据仓库系统是集成的、与时间相关的数据集合，ETL作为数据仓库的核心，负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转，ETL技术是必不可少的关键技术之一。
主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere DataStage，它为整个ETL过程提供了一个图形化的开发环境，支持对多种操作数据源的数据抽取、转换和维护，并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL Automation，它利用Teradata数据库本身的并行处理能力，通过SQL语句实现数据的转换，提供对ETL流程的支持，包括前后依赖、执行和监控等;SAS的ETL工具称为ETL Studio，提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中，如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可扩展数据整合平台Data Integrator。
上述各公司提供的ETL相关工具功能相近，在易用性、效率、价格等方面各有千秋，但就工具的二次开发、集成和开放性而言，与专业的数据集成平台，如Informatica公司的PowerCenter，相比还是存在一定的差距。
2.3 OLAP技术
联机分析处理(OLAP)是针对特定问题的联机数据访问和分析，通过对信息进行快速、稳定、一致和交互式的存取，对数据进行多层次、多阶段的分析处理，以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要，SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求，由此出现了多维数据库和多维分析的概念。
目前主流的OLAP产品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等，这些产品都可以生成多维数据立方体，提供多维数据的快速分析，支持所有主流关系型数据库如DB2，Oracle，SQL Server，Sybase等，同时可读取关系数据库中细节数据，实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)。并且，各厂商的OLAP Sever对自己的数据库产品的支持均好于其它数据库，各自的分析工具也都基于开放的OLE DB标准，可以访问支持OLE DB标准的数据立方体。
BO公司和Sybase公司则分别提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension，支持标准OLAP API，如OLEDB for OLAP，能够对Microsoft、IBM等OLAP数据进行划分、钻取等处理，兼容第三方报表和展现工具。Teradata尽管不提供独立的OLAP工具，但提供了相关技术，用于提升运行于Teradata数据库上的OLAP应用系统的性能。
2.4 报表技术
报表技术主要是将集成在数据模型里的数据，按照复杂的格式、指定行列统计项，计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现，而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库，并根据每个区块或单元格的需要引用指标，实现一系列复杂的符合要求的报表的自动生成。
主流数据仓库厂商的报表工具中较为有影响包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通过收购Cognos公司获得了完整的报表产品Cognos ReportNet，覆盖了各种报表需求，包括管理报表、商业报表、账单和发票等;BO公司提供了一个完整的企业报表解决方案Crystal Reports Server，支持通过Web快速便捷的创建、管理和交付报表;Oracle Reports工具提供了自由的数据格式方式，可以自动生成个性化字母或矩阵风格的布局，包括动态、数据驱动的图表;SQL Server的报表功能包含在Reporting Services (SSRS)中，包括处理组件、一整套可用于创建和管理报表的工具、在自定义应用程序中集成和扩展数据和报表处理的API。与上述产品相比，Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等报表产品在功能、性能、二次开发等方面都还存在着一定的差距。
总的来说，这些产品在大部分通用软件领域相对国产软件都要优秀，但在有中国特色的报表领域内却是例外，在处理能力存在一定的不适应性。另外这些产品的数学模型都是基于SQL/OLAP理论设计的，在技术上也不能满足国内复杂报表的制作需求。
2.5 数据挖掘技术
当数据积累到一定数量时，某些潜在联系、分类、推导结果和待发现价值隐藏在其中，可以使用数据发掘工具帮助发现这些有价值的数据。数据挖掘就是从海量数据中，提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。通过数据挖掘能找出数据库中隐藏的信息，实现用模型来拟合数据、探索型数据分析，数据驱动型的发现，演绎型学习等功能。
目前，IBM公司的IBM Intelligent Miner支持典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现，可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作;Oracle公司提供的数据挖掘平台称为Oracle Data Miner，它提供了的一个图形用户界面，通过简单易用的向导来指导完成数据准备、数据挖掘、模型评估和模型评价过程，根据需要自动生成将数据挖掘步骤转换成一个集成的数据挖掘/BI应用程序所需的代码;SAS公司的SAS Enterprise Miner将数据挖掘过程简单流程化，支持关联、聚类、决策树、神经元网络和经典的统计回归技术;Teradata公司的挖掘工具称为Teradata Warehouse Miner，它通过将数据挖掘技术整合到数据仓库来简化数据挖掘流程，该工具还可实现将多家厂商的数据挖掘技术嵌入Teradata企业级数据仓库环境中运行;Microsoft数据挖掘平台不同于传统数据挖掘应用程序，它支持组织中数据的整个开发生命周期，允许第三方添加自定义算法以支持特定的挖掘需求，支持实时根据挖掘的数据集进行数据验证。对比于上述公司，Sybase和BO公司并没有推出专门的数据挖掘平台或工具。
和前几项支撑技术相比，数据挖掘技术的专业性更强，与应用领域的特殊背景结合得更加紧密。上述产品除了在性能、通用性、数据展示、二次开发上有一定差异外，没有一个能够占据绝对技术和市场优势，反而是一些专门领域内的专业挖掘工具更具竞争性，如Fair Isaac公司占据了全球信用卡积分市场近7成的份额。
3 市场分析
国际权威市场分析机构IDC将数据仓库平台工具市场细分为数据仓库生成(Data Warehouse Generation)工具市场和数据仓库管理(Data Warehouse Management)工具市场两个部分，前者涵盖数据仓库的设计和ETL过程的各种工具，后者指数据仓库后台数据库的管理工具，如DBMS。根据IDC发布的《全球数据仓库平台工具2006年度供应商市场份额》分析报告，2006年该市场增长率为12.5%，规模达到57亿美元，其中数据仓库生成工具和数据仓库管理工具两个市场的比重分别为23.3%和76.7%，相对于数据仓库管理工具市场，数据仓库生成工具市场的增长进一步放缓。可以预见，整个数据仓库市场将进一步向拥有强大后台数据库系统的传统厂商倾斜。从供应商看，Oracle公司继续占据数据仓库管理领域的领先供应商地位，并且与其主要竞争者IBM之间的这种领先优势正逐渐扩大。Microsoft紧追IBM之后，与其之间的差距则在逐渐缩小。
在国内，商业智能已经成为企业信息化中最重要的组成部分，而数据仓库相关技术在其中扮演着无可替代的重要角色。据ChinaBI统计，2007年中国大陆地区的BI市场份额约为20亿元人民币，同比2006年增长35%，其中BI产品许可证约为9亿元人民币，BI系统集成约为11亿元人民币。现有BI厂商包括产品提供商、集成商、分销商、服务商等有近500家，在未来几年内商业智能市场需求旺盛，市场规模增长迅速。从国内数据仓库实践看，根据ChinaBI评选的2007年中国十大数据仓库的初步结果，传统数据库厂商占据7个，分别是IBM 3个、Oracle 3个、SQL Server 1个，其余3个属于NCR/Teradata公司;从数据仓库规模来看，传统数据库厂商更占有巨大优势，总数据量为536.3T，Teradata则为54T。涉及的行业包括通信、邮政、税务、证券和保险等。
在数据仓库市场快速发展的同时，市场竞争也日趋激烈，其中尤其以Oracle收购Hyperion、SAP收购BO、IBM收购Cognos具有代表意义。截至2007年底，混乱的市场已经基本明朗化，三个层次逐渐浮现出来。Oracle，IBM，Microsoft和SAP位居第一层次，能够提供全面的解决方案;第二层次是NCR Teradata和SAS等产品相对独立的供应商，可以提供解决方案中的部分应用;第三层次是只专注于单一领域的专业厂商，但其在并购的硝烟中日趋难以存活。

Ⅱ 银行数据仓库体系实践（18）--数据应用之信用风险建模

信用风险

        银行的经营风险的机构，那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求，其中信用风险是银行经营的主要风险之一，它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时，债权人或银行必将因为未能得到预期的收益而承担财务上的损失。

        那如何来表示某个交易对手的信用情况呢，一般使用信用等级或信用评分来来表示，等级越低或评分越低，发生违约的概率会增加。这个信用评分主要应用在客户的贷前和贷后管理中，贷前是指客户贷款申请阶段，银行受理客户贷款申请时会根据客户提交的信息、人行征信、其它数据源按一定的规则计算出一个违约概率和风险评分或信用等级。再根据这个评分或评级来确定客户的授信额度和利率。计算出的评分或评级越高，违约概率越低，比如在进行个人贷前评分时主要关注以下5方面：

        （1）People：贷款人状况，包括历史还款表现、当前负债情况、资金饥渴度等；

        （2）Payment：还款来源，如基本收入、资产水平、月收支负债比、无担保总负债等；

        （3）Purpose：资金用途，如消费、买房，需要规避贷款资金用于投资或投机性质较高领域，如股票和数字货币；

        （4）Protection：债权确保，主要是看是否有抵押物或担保，需要看抵押物用途、质量、价格等关键要素；

        （5）Perspective：借款户展望，从地域、行业、人生阶段等考察稳定性及潜力；

        贷后是指客户借款后银行持续跟进客户的信用情况，如果发现信用评分降低或者某些指标达到风险预警指标的阈值，说明风险升高，则会进行冻结额度甚至提前进行贷款收回。特别是对于逾期客户。

风险建模步骤

       在进行信用评估时如何选择客户属性、如何确定评分或评级规则呢？这就需要进行风险建模，通过分析历史数据来确定哪些特征或指标对客户的违约相关性大，可以了解客户的还款能力以及还款意愿。并通过一定方法来建立评分和评级的规则。那风险建模主要分为以下步骤：

        （1）业务理解：主要评估当前现状、确定业务目标，选择建模方法，比如需要进行XX贷款产品的贷前评分模型并确定准入规则，建模方式比如为评分卡，评分应用为基于评分确定贷款准入规则以及额度和利率规则，同时需要确定分析数据的好客户和坏客户标准，如逾期90天以上为坏客户；

        （2）数据理解：首先需要准备建模的样本数据，如抽取近2年的获得类似产品的客户相关信息以及根据好客户和坏客户标准确定的结果。并针对业务数据进行业务含义理解、对数据进行收集、探索，了解每个变量的数据质量、缺失情况，数据分布等。比如对于客户在人行的征信数据、客户在银行的存款、理财等信息、以及客户申请填写的家庭、房产信息、外部获得的客户教育、司法等相关信息进行业务理解和数据分布、质量的探索，对缺失值比例过大的变量或准确性不高的变量进行剔除，同时也要确定对于样本数据中哪些数据进行建模，哪些数据进行验证。

        （3）数据准备：主要对数据进行预处理和指标加工，指标加工指基于基础数据进行指标加工，如最近1个月的征信查询次数，最近1年的逾期次数等，数据预处理主要工作包括对每一个变量进行数据清洗、缺失值处理、异常值处理、数据标准化等，主要目的是将获取的原始数据转变成可用于建模的结构化数据。

        比如对于连续变量，就是要寻找合适的切割点把变量分为几个区间段以使其具有最强的预测能力，也称为“分箱”。例如客户年龄就是连续变量，在这一步就是要研究分成几组、每组切割点在哪里预测能力是最强的。分箱的方法有等宽、等频、聚类（k-means）、卡方分箱法、单变量决策树算法（ID3、C4.5、CART）、IV最大化分箱法、best-ks分箱法等。如果是离散变量，每个变量值都有一定的预测能力，但是考虑到可能几个变量值有相近的预测能力，因此也需要进行分组。

        通过对变量的分割、分组和合并转换，分析每个变量对于结果的相关性，剔除掉预测能力较弱的变量，筛选出符合实际业务需求、具有较强预测能力的变量。检测变量预测能力的方法有：WOE(weight of Evidence) 、IV(informationvalue)等。

        （4）分析建模：即对于筛选出来的变量以及完成好坏定义的样本结果。放入模型进行拟合。如评分卡一般采用常见的逻辑回归的模型，PYTHON、SAS、R都有相关的函数实现模型拟合。以下是生成的评分卡的例子。

        （5）评估及报告：即通过验证样本对模型的预测进行校验。评估模型的准确性和稳健性，并得出分析报告。常用的方法有ROC曲线、lift提升指数、KS(Kolmogorov-Smirnov)曲线、GINI系数等。

        （6）应用：对模型进行实际部署和应用，如基于评分进行客户准入和产生额度，并在贷款系统进行模型部署，自动对申请客户进行评分。

        （7）监测：建立多种报表对模型的有效性、稳定性进行监测，如稳定性监控报表来比较新申请客户与开发样本客户的分值分布，不良贷款分析报表来评估不同分数段的不良贷款，并且与开发时的预测进行比较，监控客户信贷质量。随着时间的推移和环境变化，评分模型的预测力会减弱，所以需要持续监控并进行适当调整或重建。

        在信用风险建模中，目前评分卡建模还是主要的方式，除了申请评分（A卡（Application score card））还有B卡（Behavior score card）行为评分卡、C卡（Collection score card）催收评分卡。B卡主要进行客户贷后管理，如何进行风险预警，C卡进行催收管理，确定如何催收以及催收方式和时间点。信用风险模型中还有一个是反欺诈模型，它主要是识别假冒身份、虚假信息、批量薅羊毛等欺诈行为。随着机器学习和大数据的发展，其它的一些建模方式如决策树、深度神经网络也越来越多的应用到了风险建模中。

        信用风险模型是数据仓库支持的重要数据应用之一，在风险建模分析阶段，数据仓库是建模样本数据以及衍生指标加工的主要提供者，业务人员一般在自助分析平台进行数据分析和建模，模型建立完成并部署后，会基于数据仓库数据进行模型效果的监控。在贷后管理中，风险集市也会进行贷后指标的加工。另外风险模型以及预警中会经常使用到外部数据，这部分数据也是通过数据仓库进行对接、加工和存储。

Ⅲ 银行数据仓库体系实践（7）--数据模型设计及流程

        数据仓库作为全行或全公司的数据中心和总线，汇集了全行各系统以及外部数据，通过良好的系统架构可以保证系统稳定性和处理高效性，那如何保障系统数据的完备性、规范性和统一性呢？这里就需要有良好的数据分区和数据模型，那数据分区在第三部分数据架构中已经介绍，本节将介绍如何进行数据模型的设计。

1、各数据分区的模型设计思路：

       数据架构部分中提到了在数据仓库中主要分为以下区域，那各数据区域的主要设计原则如下：

       （1）主数据区：主数据区是全行最全的基础数据区，保留历史并作为整个数据仓库的数据主存储区，后续的数据都可以从主数据区数据加工获得，因此主数据区的数据天然就要保留所有历史数据轨迹。

1) 近源模型区：主要是将所有入数据仓库的数据表按历史拉链表或事件表（APPEND算法）的方式保留所有历史数据，因此模型设计较简单，只需要基于源系统表结构，对字段进行数据标准化后，增加保留历史数据算法所需要的日期字段即可。

2)整合模型区：该模型区域按主题方式对数据进行建模，需要对源系统表字段按主题分类划分到不同的主题区域中，并主要按3范式的方式设计表结构，通过主题模型的设计并汇总各系统数据，可以从全行及集团角度进行客户、产品、协议（账户、合同）分析，获得统一视图。比如说，全行有多少客户、有多少产品？通过主题模型事先良好的设计和梳理，可以很快获得相关统计数据。

       主数据区的模型设计按顶层设计（自上而下）为主，兼顾应用需求（自下而上）的方式，即需要有全局视角，也要满足应用需求。那顶层设计主要是需要从全行数据角度对源系统的主要业务数据进行入仓，获得全行客户、业务数据的整体视角，同时又保存所有交易明细数据，满足后续的数据分析需求；应用需求指源系统数据的入仓也需要考虑当前集市、数据应用系统的数据需求，因为数据需求是千变万化的，但是只要保留全面的基础的业务数据，就有了加工的基础，当前的数据需求只是考虑的一部分，更多的需要根据业务经验以及主题模型进行数据入仓和模型设计。

        主数据模型的设计主要自上而下，近源模型层虽然比较简单，但设计步骤和整合模型类型，分为以下几个步骤：

     步骤1：系统信息调研，筛选入仓的系统并深入了解业务数据；

     步骤2：对入仓系统进行表级筛选和字段筛选，并将字段进行初步映射；

      步骤3：根据入仓字段按一定规范设计逻辑模型；

     步骤4：对逻辑模型进行物理化；

       （2）集市区：集市区的设计表结构设计主要按维度模型（雪花模型、星形模型）进行设计，主要是为了方便应用分析，满足数据应用需求，集市区一般以切片的形式保留结果历史数据，但保留期限不会太长，比如只保留月末数据以及当前月份的每日切片数据。

       数据集市需要从数据仓库获得基础数据，对于仓内集市，可以直接访问或通过视图访问，减少数据存储，仓外集市则需要从数据仓库获得批量数据作为基础数据进行存储加工。因此仓外集市还需要设计基础数据的保留策略。

      集市区的设计步骤如下：

（3）接口区：接口区的设计完全根据数据应用系统的接口方式来进行，一般也是维度模型（事实表+维度表）方式，接口区之前也提到过，不做复杂计算，只做简单关联，可以将复杂计算放到集市或指标汇总层加工。

        （4）指标汇总区：作为集市接口区和主数据区的中间层，主要是提供基于各集市和接口数据的共性需求，基于主模型区数据进行统一加工。即面向所有的应用需求来设计，那中间层一般采用维度模型，按从细粒度到粗粒度的方式逐步汇总。由于各数据应用及集市的需求不断变化，指标汇总区也是不断进行完善，许多一开始在集市的加工由于其它集市或应用也需要，则会从集市转移到指标汇总层。常见的数据就是客户、账户、合同等常用的数据实体的宽表（事实表），统一进行汇总后供各数据应用使用。

        另外指标汇总层也包括共性指标的加工，指标可以通过基础指标配置指标计算加工方式获得衍生指标，那这些基础指标和衍生指标的定义、口径以及加工方式可以由指标管理系统来维护并集成到数据标准系统和元数据管理系统中。

        指标汇总区设计步骤如下：

        （5）非结构化数据存储区：非结构化存储区的设计不仅需要考虑非结构化数据本身的存储，同时需要考虑非结构化数据所带有的结构化属性，因此在设计时主要考虑以下几点：

         1）存储路径规划：是需要将非结构化数据按源系统、类型、日期、外部来源等角度进行存储路径的规划，分门别类，便于管理。

         2）对非结构化数据的元数据建立索引：比如对于凭证的影像，需要有账户、流水号、客户名等相关结构化数据，以便完整描述影像图片的来源，通过对这些结构化数据建立索引，方便查找。

         3）对部分文档内容建立索引：对于部分文档如合同电子版、红头文件PDF需要建立内容索引，以便快速搜索查找文件内容，一般可用支持HADOOP的ElasticSearch来实现。

         4）设立计算区和结果区：由于非结构化数据往往需要使用MAPREDUCE或程序化语言进行处理，也会产生中间临时文件和结果数据，因此需要规划计算区和结果区来存放这些数据。

        （6）历史数据存储区：历史数据区作为历史数据的归档，即包括结构化数据，也包括非结构化数据，对于历史数据除了存储也需要方便查找，历史数据区的规划设计需要考虑非结构化数据存储区的存储、索引设计外，还需要考虑以下几点：

        1）压缩，由于历史数据使用频率低，可以选择压缩率较高的算法，降低存储空间。

         2）容量规划：由于历史数据归档会越来越大，因此需要提前进行容量规划以及历史数据清理。比如10年以上的数据进行删除。

         3）可设计一个管理系统对历史数据进行归档、查找以及管理。

        （7）实时数据区：实时数据区需要使用部分批量数据来和实时流数据进行关联加工，因此可从主数据区获得所需要的数据后进行存放在实时数据区的关联数据区，同时对于加工结果不仅可以推送到KAFKA等消息中间件，同时也可输出到实时数据区的结果区进行保留。

        （8）在线查询区：在线查询区主要在线提供计算结果查询，常用HBASE来实现，设计按照接口来分别存放到不同的HBASE表，字段内容也主要是接口字段内容。HBASE表可以根据应用或者接口类型进行分目录和分用户。由于在线查询区和实时数据区考虑到作业的保障级别以及资源竞争，往往会单独建立一套集群，与批量作业集群进行隔离，在线查询的结果计算可以在批量集群计算后加载到在线查询区。

    后续将分别对主数据区、集市及汇总指标层模型设计进行介绍，敬请关注。

Ⅳ 数据仓库数据集成算法

数据仓库将源系统数据抽取到ODS或者ODS提供数据给数据仓库后，需要将不同来源的数据根据业务需求集成在同一模型中。总体来说，集成算法与ODS算法基本相同，区别在于集成时当日数据来源并不是唯一的。从模型上来说，大体分为历史表模型，当前表模型，流水表模型，特殊数据模型将根据业务需求特殊加载。

历史表指当源系统数据被删除（物理删除或逻辑删除）或者失效后，数据仓库不会将数据物理删除，只将数据的结束日期闭链，从而保证将源系统数据变化的过程保留下来。基本加载算法如下：

通常流水表只保留在ODS层，但某些流水数据可能来源于多个源系统，为了后续数据使用方便，也将多个来源的流水表集成到一起。

当前表是指只保留最新的数据，源系统失效或者删除（物理删除或逻辑删除）的数据，在数据仓库集成的时候，不再保留，直接物理删除。当前表只保留有效的数据。算法与历史表基本相同(只是wt_u是直接删除，而不是关链)

Ⅳ 初学者如何学习数据仓库与数据挖掘技术

初学者短期学会数据仓库与数据挖掘技术比较不现实，不过学术性的随便做个主题应该还不是很难。要想深入学习，建议报培训机构。

1.数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。数据挖掘通常与计算机科学有关，所以学好数据仓库与数据挖掘技术还是有必要的。
2.数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

如果说想要了解数据仓库和数据挖掘技术，这里推荐CDA数据分析师的相关课程。CDA数据分析师覆盖了国内企业招聘数据分析师所要求的所有技能，包括概率统计知识、软件应用、数据挖掘、数据库、数据报告、业务应用等。CDA数据分析师分为LEVELⅠ、Ⅱ、Ⅲ三个等级，成为一名合格的CDA数据分析师能够胜任企业不同层次的数据分析工作。点击预约免费试听课。

导航:首页 > 源码编译 > 数据仓库算法分析报告

数据仓库算法分析报告

与数据仓库算法分析报告相关的资料