azkaban编译源码_大数据分析应该掌握哪些基础知识

① 哈利波特1\2\3\4\5\6\7部分别是什么

1. 英文名：Harry Potter and the Philosopher's Stone（英文：1997年6月26日）
美国版小说及电影名：Harry Potter and the Sorcerer's Stone
正体译名：《哈利波特—神秘的魔法石》（2000年6月23日，彭倩文译）
简体译名：《哈利·波特与魔法石》（2000年9月，曹苏玲、马爱农译）
故事发生时间：1981年、1991年—1992年
电影公映日期：2001年11月15日
影史全球票房排名：第5名（截至2008年11月2日），共美金976,475,550元
2. 英文名：Harry Potter and the Chamber of Secrets（英文：1998年7月2日）
正体译名：《哈利波特—消失的密室》（2000年12月22日，彭倩文译）
简体译名：《哈利·波特与密室》（2000年9月日，马爱新译）
故事发生时间：1992年—1993年
电影公映日期：2002年11月16日
影史全球票房排名：第14名（截至2008年11月2日），共美金878,988,482元
3. 英文名：Harry Potter and the Prisoner of Azkaban（英文：1999年9月8日）
正体译名：《哈利波特—阿兹卡班的逃犯》（2001年6月22日，彭倩文译）
简体译名：《哈利·波特与阿兹卡班的囚徒》（2000年9月，郑须弥译）
故事发生时间：1993年—1994年
电影公映日期：2004年06月04日
影史全球票房排名：第21名（截至2008年11月2日），共美金795,541,069元
4. 英文名：Harry Potter and the Goblet of Fire（英文：2000年7月8日）
正体译名：《哈利波特—火杯的考验》（2001年12月31日，彭倩文译）
简体译名：《哈利·波特与火焰杯》（2001年5月，马爱新译）
故事发生时间：1994年—1995年
电影全球首映日：2005年11月18日
影史全球票房排名：第12名（截至2008年11月2日），共美金896,016,159元
5. 英文名：Harry Potter and the Order of the Phoenix（英文：2003年6月21日）
正体译名：《哈利波特—凤凰会的密令》（2003年9月29日，皇冠编译组译）
简体译名：《哈利·波特与凤凰社》（2003年9月21日，马爱农、马爱新、蔡文译）
故事发生时间：1995年—1996年
电影全球首映日：2007年07月11日
影史全球票房排名：第7名（截至2008年11月2日），共美金936,816,204元
6. 英文名：Harry Potter and the Half-Blood Prince（英文：2005年7月16日）
正体译名：《哈利波特—混血王子的背叛》（2005年10月1日，皇冠编译组译）
简体译名：《哈利·波特与“混血王子”》（2005年10月15日，马爱农、马爱新译）
故事发生时间：1996年—1997年
预定电影首映时间：2009年7月17日
7. 英文名：Harry Potter and the Deathly Hallows（英文：2007年7月21日）
正体译名：《哈利波特—死神的圣物》（2007年10月20日，皇冠编译组译）
简体译名：《哈利·波特与死亡圣器》（2007年10月28日，马爱农、马爱新译）
故事发生时间：1997年—1998年，2017年
预定电影首映时间：2010年11月19日（上集），2011年5月（下集）

② 大数据saprk培训去哪家比较好

你问问中诚智远这个机构，我们之前学过，他们spark包含了Maprece、storm和spark模型的比较和使用场景介绍、Spark产生背景、Spark（内存计算框架）、SparkSteaming（流式计算框架）、Spark SQL（ad-hoc）、Mllib（MachineLearning）、GraphX（bagel将被代）、DlinkDB介绍、SparkR介绍、
Spark安装简介、Spark的源码编译、Spark Standalone安装、Spark应用程序部署工具spark-submit、Spark的高可用性部署、Spark的运行架构• 基本术语• 运行架构• Spark on Standalone运行过程• Spark on YARN 运行过程、Spark运行实例解析
• Spark on Standalone实例解析• Spark on YARN实例解析• 比较 Standalone与YARN模式下的优缺点、• Scala基本语法与高阶语法• Scala基本语法• Scala开发环境搭建• Scala开发Spark应用程序• 使用java 编程• 使用scala编程• 使用python编程，这些模块，写的不详细，你去站上看看吧.纯手工输入，采纳亲。

③ 这几个大数据GitHub项目，太强了吧

大家好，我是 梦想家 Alex 。我们都知道 github 对于程序员们而言，就是一个巨大的“聚宝盆”，上面不仅有很多优质的开源项目，还有很多热爱开源分享的开发者。但如何从浩如烟海的宝藏中，筛选出适合自己的优质项目呢？本期内容，我就为大家推荐几个我认为还不错的大数据学习必备的牛 X 项目，希望大家看完有所收获。

首推 heiying 的 BigData-Notes，该项目目前已经有高达 10.2K 的star，正如该仓库的介绍上简短几个字：大数据入门指南。这个项目也是我认为目前 最适合初学者学习和参考的项目 。

为什么说这个项目适合大数据初学者呢，可以通过观察项目的介绍文档，该项目包含了大数据学习必须要掌握的几种组件，包括 Hadoop，Hive，Spark，Flink，Kafka，Zookeeper，Flume，Sqoop，Azkaban，以及 Scala 函数式编程语言的教程 ，可谓是非常的系统全面

我们再借助谷歌插件 Octotree 观察项目的结构，可以看到该项目主要分为 code，notes，pictures，resources 四个目录

其中 code 目录主要用来存放各个组件使用相关的代码，正如统计的结果一样，这个项目中 Java 代码占了 94.8%，Scala 占了 5.2%，所以对于喜欢用 Java 编写代码的小伙伴们来说，这是一个不容错过的宝藏学习机会。

notes 部分主要存放相关组件的介绍和使用文档，其中 installation 子目录主要存放了相关组件编译，以及在Linux环境下各个组件的安装，单机/集群环境搭建的教程，我看过了内容，介绍的非常清晰详细。

另外两个目录 pictures 和 resources 就不做过多介绍了，一个是存放相关的图片教程，另一个是存放编写的代码中所需要用到的文本文件。

这个项目同样给力，是由 BAT 高级大数据架构师王知无创建的，该项目目前也已经斩获高达 5.2k star，是为数不多， 集基础学习和进阶实战 于一体的优质项目。

该项目按照大数据不同阶段的学习，所列举不同的文章干货

大数据开发基础篇

大数据框架学习篇

大数据开发实战进阶篇

大数据开发面试篇

从不同的分类足以见王老师的用心。同时，王知无前辈也是 51CTO 上的认证讲师，来看看官方的介绍。

相信很多同学在学习大数据的过程中，不清楚 Java 需要学习哪些内容，掌握到什么程度，这个时候完全可以借鉴王老师的这个仓库内容。

同时，学习这个仓库的内容，可以学习到作者作为架构师本身对于 JVM，分布式理论和基础，大数据框架基石之网路通信Netty，以及各个框架的源码学习，可谓“ 真.宝藏仓库 ”

除了基础的理论学习以外，还有大量实战性的内容可以借鉴参考

以及大量的面试题，还有自己从零到大数据专家一路走来的心路历程，学习路径指南，和自己对于技术学习的一些深入思考，相信大家拜读过后一定能收获满满，

这个项目比较特殊，是一个国外开发者开源的项目，英文翻译过来的意思是“很棒的大数据”，实际上呢~他列举的是很多很棒的大数据框架、资源和其他很棒的精选列表。灵感来自 awesome-php 、 awesome-python 、 awesome-ruby 、 hadoopecosystemtable 和 big-data 。目前也已经斩获 10.2K 的 star，非常强势。

为了方便阅读，我将其全部翻译成中文进行展示。

我们跳转到分布式编程，可以看到很多我们熟悉的技术，例如 Flink，Spark，Pig，MapRece 等等 ....

亦或者“分布式文件系统”，我们所熟知的 HDFS，Ku，GFS ...

点击对应的链接，可以跳转到对应的官方介绍页，方便我们减少搜索成本，快速了解不同领域大数据常用的技术组件，为我们之后做技术调研省了很多的时间。

让我厚颜无耻的夹带一下“私货”。这是我在今年年初的时候，创建的一个仓库，目前也已经有了快 200 的star 。从资历和star的数量显然不能跟前面几个大佬相比，但却是我第一次花费了大量精力，将一个项目像孩子一样进行“培养”。

为了设计一个好看的图标，还花了不少的精力。设置不同媒体平台的徽标设计，还参考了像 JavaGuide 这样的头部项目，也算是在亲力亲为的这个过程中，学到了不少东西。

可以放点内容给大家show一下

另外，我还开设了“福利”专栏，将自己学习过程中收集到的学习干货毫无保留地分享给大家，方便大家获取。

显而易见，这个是专注于 flink 学习的开源项目，其中的内容包含Flink 入门、概念、原理、实战、性能调优、源码解析等等，目前已经斩获了 10.5k 的 star，非常强势。

其维护的开发人员也是非常用心负责，一路跟随 flink 的版本，不停的在维护更新。

同时，主要维护者 zisheng 还将 flink 的研究做到了极致，不仅有 flink 成体系的博客链接，还有对应的源码系列。

还自己创建了专栏《从1到100深入学习Flink》，并将大家学习过程中有疑惑的地方解决过程统一记录下来，方便有需要的同学查看。虽然是付费的星球专享，但我觉得是真的值！感兴趣的话大家可以自行去了解。

④ 大数据分析应该掌握哪些基础知识

Java基础语法

· 分支结构if/switch

· 循环结构for/while/do while

· 方法声明和调用

· 方法重载

· 数组的使用

· 命令行参数、可变参数

IDEA

· IDEA常用设置、常用快捷键

· 自定义模板

· 关联Tomcat

· Web项目案例实操

面向对象编程

· 封装、继承、多态、构造器、包

· 异常处理机制

· 抽象类、接口、内部类

· 常有基础API、集合List/Set/Map

· 泛型、线程的创建和启动

· 深入集合源码分析、常见数据结构解析

· 线程的安全、同步和通信、IO流体系

· 反射、类的加载机制、网络编程

Java8/9/10/11新特性

· Lambda表达式、方法引用

· 构造器引用、StreamAPI

· jShell(JShell)命令

· 接口的私有方法、Optional加强

· 局部变量的类型推断

· 更简化的编译运行程序等

MySQL

· DML语言、DDL语言、DCL语言

· 分组查询、Join查询、子查询、Union查询、函数

· 流程控制语句、事务的特点、事务的隔离级别等

JDBC

· 使用JDBC完成数据库增删改查操作

· 批处理的操作

· 数据库连接池的原理及应用

· 常见数据库连接池C3P0、DBCP、Druid等

Maven

· Maven环境搭建

· 本地仓库&中央仓库

· 创建Web工程

· 自动部署

· 持续继承

· 持续部署

Linux

· VI/VIM编辑器

· 系统管理操作&远程登录

· 常用命令

· 软件包管理&企业真题

Shell编程

· 自定义变量与特殊变量

· 运算符

· 条件判断

· 流程控制

· 系统函数&自定义函数

· 常用工具命令

· 面试真题

Hadoop

· Hadoop生态介绍

· Hadoop运行模式

· 源码编译

· HDFS文件系统底层详解

· DN&NN工作机制

· HDFS的API操作

· MapRece框架原理

· 数据压缩

· Yarn工作机制

· MapRece案例详解

· Hadoop参数调优

· HDFS存储多目录

· 多磁盘数据均衡

· LZO压缩

· Hadoop基准测试

Zookeeper

· Zookeeper数据结果

· 内部原理

· 选举机制

· Stat结构体

· 监听器

· 分布式安装部署

· API操作

· 实战案例

· 面试真题

· 启动停止脚本

HA+新特性

· HDFS-HA集群配置

Hive

· Hive架构原理

· 安装部署

· 远程连接

· 常见命令及基本数据类型

· DML数据操作

· 查询语句

· Join&排序

· 分桶&函数

· 压缩&存储

· 企业级调优

· 实战案例

· 面试真题

Flume

· Flume架构

· Agent内部原理

· 事务

· 安装部署

· 实战案例

· 自定义Source

· 自定义Sink

· Ganglia监控

Kafka

· 消息队列

· Kafka架构

· 集群部署

· 命令行操作

· 工作流程分析

· 分区分配策略

· 数据写入流程

· 存储策略

· 高阶API

· 低级API

· 拦截器

· 监控

· 高可靠性存储

· 数据可靠性和持久性保证

· ISR机制

· Kafka压测

· 机器数量计算

· 分区数计算

· 启动停止脚本

DataX

· 安装

· 原理

· 数据一致性

· 空值处理

· LZO压缩处理

Scala

· Scala基础入门

· 函数式编程

· 数据结构

· 面向对象编程

· 模式匹配

· 高阶函数

· 特质

· 注解&类型参数

· 隐式转换

· 高级类型

· 案例实操

Spark Core

· 安装部署

· RDD概述

· 编程模型

· 持久化&检查点机制

· DAG

· 算子详解

· RDD编程进阶

· 累加器&广播变量

Spark SQL

· SparkSQL

· DataFrame

· DataSet

· 自定义UDF&UDAF函数

Spark Streaming

· SparkStreaming

· 背压机制原理

· Receiver和Direct模式原理

· Window原理及案例实操

· 7x24 不间断运行&性能考量

Spark内核&优化

· 内核源码详解

· 优化详解

Hbase

· Hbase原理及架构

· 数据读写流程

· API使用

· 与Hive和Sqoop集成

· 企业级调优

Presto

· Presto的安装部署

· 使用Presto执行数仓项目的即席查询模块

Ranger2.0

· 权限管理工具Ranger的安装和使用

Azkaban3.0

· 任务调度工具Azkaban3.0的安装部署

· 使用Azkaban进行项目任务调度，实现电话邮件报警

Kylin3.0

· Kylin的安装部署

· Kylin核心思想

· 使用Kylin对接数据源构建模型

Atlas2.0

· 元数据管理工具Atlas的安装部署

Zabbix

· 集群监控工具Zabbix的安装部署

DolphinScheler

· 任务调度工具DolphinScheler的安装部署

· 实现数仓项目任务的自动化调度、配置邮件报警

Superset

· 使用SuperSet对数仓项目的计算结果进行可视化展示

Echarts

· 使用Echarts对数仓项目的计算结果进行可视化展示

Redis

· Redis安装部署

· 五大数据类型

· 总体配置

· 持久化

· 事务

· 发布订阅

· 主从复制

Canal

· 使用Canal实时监控MySQL数据变化采集至实时项目

Flink

· 运行时架构

· 数据源Source

· Window API

· Water Mark

· 状态编程

· CEP复杂事件处理

Flink SQL

· Flink SQL和Table API详细解读

Flink 内核

· Flink内核源码讲解

· 经典面试题讲解

Git&GitHub

· 安装配置

· 本地库搭建

· 基本操作

· 工作流

· 集中式

ClickHouse

· ClickHouse的安装部署

· 读写机制

· 数据类型

· 执行引擎

DataV

· 使用DataV对实时项目需求计算结果进行可视化展示

sugar

· 结合Springboot对接网络sugar实现数据可视化大屏展示

Maxwell

· 使用Maxwell实时监控MySQL数据变化采集至实时项目

ElasticSearch

· ElasticSearch索引基本操作、案例实操

Kibana

· 通过Kibana配置可视化分析

Springboot

· 利用Springboot开发可视化接口程序

⑤ 大数据三大核心技术：拿数据、算数据、卖数据！

大数据的由来

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大数据的应用领域

大数据无处不在，大数据应用于各个行业，包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。

制造业，利用工业大数据提升制造业水平，包括产品故障诊断与预测、分析工艺流程、改进生产工艺，优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业，大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车行业，利用大数据和物联网技术的无人驾驶汽车，在不远的未来将走入我们的日常生活。

互联网行业，借助于大数据技术，可以分析客户行为，进行商品推荐和针对性广告投放。

电信行业，利用大数据技术实现客户离网分析，及时掌握客户离网倾向，出台客户挽留措施。

能源行业，随着智能电网的发展，电力公司可以掌握海量的用户用电信息，利用大数据技术分析用户用电模式，可以改进电网运行，合理设计电力需求响应系统，确保电网运行安全。

物流行业，利用大数据优化物流网络，提高物流效率，降低物流成本。

城市管理，可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

体育娱乐，大数据可以帮助我们训练球队，决定投拍哪种题财的影视作品，以及预测比赛结果。

安全领域，政府可以利用大数据技术构建起强大的国家安全保障体系，企业可以利用大数据抵御网络攻击，警察可以借助大数据来预防犯罪。

个人生活，大数据还可以应用于个人生活，利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周到的个性化服务。

大数据的价值，远远不止于此，大数据对各行各业的渗透，大大推动了社会生产和生活，未来必将产生重大而深远的影响。

大数据方面核心技术有哪些？

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

数据采集与预处理

对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结构化和非结构化的海量数据是零散的，也就是所谓的数据孤岛，此时的这些数据并没有什么意义，数据采集就是将这些数据写入数据仓库中，把零散的数据整合在一起，对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候，可以写个定时的脚本将日志写入存储系统，但随着数据量的增长，这些方法无法提供数据安全保障，并且运维困难，需要更强壮的解决方案。

Flume NG

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，source用来消费(收集)数据源到channel组件中，channel作为中间临时存储，保存所有source的组件信息，sink从channel中读取数据，读取成功之后会删除channel中的信息。

NDC

Logstash

Logstash是开源的服务器端数据处理管道，能够同时从多个来源采集数据、转换数据，然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择，可以在同一时间从众多常用的数据来源捕捉事件，能够以连续的流式传输方式，轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

Sqoop

Sqoop，用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapRece 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

流式计算

流式计算是行业研究的一个热点，流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析，可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈，目前大数据流分析工具有很多，比如开源的strom，spark streaming等。

Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构，主节点通过配置静态指定或者在运行时动态选举，nimbus与supervisor都是Storm提供的后台守护进程，之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上，如果由supervisor启动的某个worker因为错误异常退出(或被kill掉)，supervisor会尝试重新生成新的worker进程。

Zookeeper

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置，那么对这个地方的配置感兴趣的所有的都可以获得变更，省去了手动拷贝配置的繁琐，还很好的保证了数据的可靠和一致性，同时它可以通过名字来获取资源或者服务的地址等信息，可以监控集群中机器的变化，实现了类似于心跳机制的功能。

数据存储

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

HBase

HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统，部署在hdfs上，克服了hdfs在随机读写这个方面的缺点，与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

Phoenix

Phoenix，相当于一个Java中间件，帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Yarn

Yarn是一种Hadoop资源管理器，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成：一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

Mesos

Mesos是一款开源的集群管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

Redis

Redis是一种速度非常快的非关系数据库，可以存储键与5种不同类型的值之间的映射，可以将存储在内存的键值对数据持久化到硬盘中，使用复制特性来扩展性能，还可以使用客户端分片来扩展写性能。

Atlas

Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来，Atlas相当于连接它的客户端，在前端应用看来，Atlas相当于一个DB。Atlas作为服务端与应用程序通讯，它实现了MySQL的客户端和服务端协议，同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节，同时为了降低MySQL负担，它还维护了连接池。Atlas启动后会创建多个线程，其中一个为主线程，其余为工作线程。主线程负责监听所有的客户端连接请求，工作线程只监听主线程的命令请求。

Ku是围绕Hadoop生态圈建立的存储引擎，Ku拥有和Hadoop生态圈共同的设计理念，它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Ku不但提供了行级的插入、更新、删除API，同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储，既可以进行随机读写，也可以满足数据分析的要求。Ku的应用场景很广泛，比如可以进行实时的数据分析，用于数据可能会存在变化的时序数据应用等。

在数据存储过程中，涉及到的数据表都是成千上百列，包含各种复杂的Query，推荐使用列式存储方法，比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项，显着减少磁盘上的存储。

数据清洗

MapRece作为Hadoop的查询引擎，用于大规模数据集的并行计算，”Map(映射)”和”Rece(归约)”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。

随着业务数据量的增多，需要进行训练和清洗的数据会变得越来越复杂，这个时候就需要任务调度系统，比如oozie或者azkaban，对关键任务进行调度和监控。

Oozie

Oozie是用于Hadoop平台的一种工作流调度引擎，提供了RESTful API接口来接受用户的提交请求(提交工作流作业)，当提交了workflow后，由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式，再将workflow对应的Action提交给hadoop执行。

Azkaban

Azkaban也是一种工作流的控制引擎，可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务，记录工作流或者任务的日志。

流计算任务的处理平台Sloth，是网易首个自研流计算平台，旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台，其特点是易用、实时、可靠，为用户节省技术方面(开发、运维)的投入，帮助用户专注于解决产品本身的流计算需求

数据查询分析

Hive

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据，它完全依赖于HDFS和MapRece。可以将Hive理解为一个客户端工具，将SQL操作转换为相应的MapRece jobs，然后在hadoop上面运行。Hive支持标准的SQL语法，免去了用户编写MapRece程序的过程，它的出现可以让那些精通SQL技能、但是不熟悉MapRece 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

Hive是为大数据批量处理而生的，Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。Hive 将执行计划分成map->shuffle->rece->map->shuffle->rece…的模型。如果一个Query会被编译成多轮MapRece，则会有更多的写中间结果。由于MapRece执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中，用户只需要创建表，导入数据，编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

Impala

Impala是对Hive的一个补充，可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop，用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据，同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapRece批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成)，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。Impala将整个查询分成一执行计划树，而不是一连串的MapRece任务，相比Hive没了MapRece启动时间。

Hive 适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据人员提供了快速实验，验证想法的大数据分析工具，可以先使用Hive进行数据转换处理，之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说：Impala把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的map->rece模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF，能处理的问题有一定的限制。

Spark

Spark拥有Hadoop MapRece所具有的特点，它将Job中间输出结果保存在内存中，从而不需要读取HDFS。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。

Solr

Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引;也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

Elasticsearch

Elasticsearch是一个开源的全文搜索引擎，基于Lucene的搜索服务器，可以快速的储存、搜索和分析海量的数据。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

还涉及到一些机器学习语言，比如，Mahout主要目标是创建一些可伸缩的机器学习算法，供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等，常用的机器学习算法比如，贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

数据可视化

对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。主流的BI平台比如，国外的敏捷BI Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数等。

在上面的每一个阶段，保障数据的安全是不可忽视的问题。

基于网络身份认证的协议Kerberos，用来在非安全网络中，对个人通信以安全的手段进行身份认证，它允许某实体在非安全网络环境下通信，向另一个实体以一种安全的方式证明自己的身份。

控制权限的ranger是一个Hadoop集群权限框架，提供操作、监控、管理复杂的数据权限，它提供一个集中的管理机制，管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive，Hbase进行细粒度的数据访问控制。通过操作Ranger控制台，管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置，同时权限可与hadoop无缝对接。

简单说有三大核心技术：拿数据，算数据，卖数据。

⑥ 大数据核心技术有哪些

一、数据采集与预处理

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，source用来消费（收集）数据源到channel组件中，channel作为中间临时存储，保存所有source的组件信息，sink从channel中读取数据，读取成功之后会删除channel中的信息。

NDC，Netease Data Canal，直译为网易数据运河系统，是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各种工具和经验，将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外，NDC的设计遵循了单元化和平台化的设计哲学。

Sqoop，用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapRece 作业（极其容错的分布式并行计算）来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

Strom集群结构是有一个主节点（nimbus）和多个工作节点（supervisor）组成的主从结构，主节点通过配置静态指定或者在运行时动态选举，nimbus与supervisor都是Storm提供的后台守护进程，之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology（包括topology的发布、任务指派、事件处理时重新指派任务等）。supervisor进程等待nimbus分配任务后生成并监控worker（jvm进程）执行任务。supervisor与worker运行在不同的jvm上，如果由supervisor启动的某个worker因为错误异常退出（或被kill掉），supervisor会尝试重新生成新的worker进程。

当使用上游模块的数据进行计算、统计、分析时，就可以使用消息系统，尤其是分布式消息系统。Kafka使用Scala进行编写，是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心，Kafka可以有许多的生产者和消费者分享多个主题，将消息以topic为单位进行归纳；Kafka发布消息的程序称为procer，也叫生产者，预订topics并消费消息的程序称为consumer，也叫消费者；当Kafka以集群的方式运行时，可以由一个服务或者多个服务组成，每个服务叫做一个broker，运行过程中procer通过网络将消息发送到Kafka集群，集群向消费者提供消息。Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。Procer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作，如果需要将流式数据从Kafka转移到hadoop，可以使用Flume代理agent，将Kafka当做一个来源source，这样可以从Kafka读取数据到Hadoop。

二、数据存储

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

Phoenix，相当于一个Java中间件，帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Mesos是一款开源的集群管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

三、数据清洗

MapRece作为Hadoop的查询引擎，用于大规模数据集的并行计算，”Map（映射）”和”Rece（归约）”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。

Oozie是用于Hadoop平台的一种工作流调度引擎，提供了RESTful API接口来接受用户的提交请求(提交工作流作业)，当提交了workflow后，由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成（因为有些大作业可能会执行很久(几个小时甚至几天)）。Oozie在后台以异步方式，再将workflow对应的Action提交给hadoop执行。

Azkaban也是一种工作流的控制引擎，可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、认证、调度以及对工作流执行过程中的监控等；Azkaban Executor Server用来调度工作流和任务，记录工作流或者任务的日志。

流计算任务的处理平台Sloth，是网易首个自研流计算平台，旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台，其特点是易用、实时、可靠，为用户节省技术方面（开发、运维）的投入，帮助用户专注于解决产品本身的流计算需求。

四、数据查询分析

Impala是对Hive的一个补充，可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop，用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据，同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapRece批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。Impala将整个查询分成一执行计划树，而不是一连串的MapRece任务，相比Hive没了MapRece启动时间。

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。

Solr用Java编写、运行在Servlet容器（如Apache Tomcat或Jetty）的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

还涉及到一些机器学习语言，比如，Mahout主要目标是创建一些可伸缩的机器学习算法，供开发人员在Apache的许可下免费使用；深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等，常用的机器学习算法比如，贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

五、数据可视化

对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。主流的BI平台比如，国外的敏捷BI Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数（可点击这里免费试用）等。

在上面的每一个阶段，保障数据的安全是不可忽视的问题。

⑦ 哈里波特的书分那七本

1. 《哈利波特与魔法石》(Harry Potter and the Sorcerer's Stone)

一岁的哈利·波特失去父母后，神秘地出现在姨夫姨母家的门前。哈利在姨夫家饱受欺凌，度过十年极其痛苦的日子。姨夫和姨母好似凶神恶煞，他们混世魔王的儿子达力--一个肥胖、娇惯、欺负人的大块头，更是对哈利拳脚相加。哈利的"房间"位于楼梯口的一个又暗又小的碗橱。十年来没有人为他过过生日。

但是在他十一岁生日那天，一切都发生了变化，信使猫头鹰带来了一神秘的封信：邀请哈利去一个他--以及所有读到哈利故事的人--会觉得永远难忘的、不可思议的地方--霍格沃茨魔法学校。在魔法学校哈利找着了朋友，学会了空中飞行，骑着一把型号为光轮2000飞天扫帚打魁地奇球，还得到了一件隐形衣。他发现那里的一切--从上课到吃饭到睡觉都充满了魔力，但一块魔石出现了，它与哈利的命运息息相关……
2. 《哈利波特与密室》(Harry Potter and the Chamber of Secrets)

哈利·波特在霍格沃茨魔法学校学习一年之后，暑假开始了。他在姨父、姨妈家熬过痛苦的假期。正当他准备打点行装去学校时，小精灵多比前来发出警告：如果哈利返回霍格沃茨，灾难将会临头。

但哈利义无返顾地回到了霍格沃茨。新来的吉罗德·洛哈特教授装腔作势，让哈利作呕；游荡在女生盥洗室里的幽灵“哭泣的桃金娘”搅得他不得安宁；低年级的小女生金妮对他投来关切的目光，常令他尴尬不已；小男生科林·克里维“追星”式的跟踪又经常使他落荒而逃。

但是，这一切仅仅是灾难的序曲。正如多比所预言的，哈利遭受了重重磨难，经历了种种危险，难解之谜又使他煞费苦心：霍格沃茨的学生接二连三地变成了石头。这一切是品德败坏的学生德拉科·马尔福精心策划的杰作，还是忠厚善良的海格无心铸成的大错？或者另有人将在霍格沃茨制造更大的阴谋？这一切又是否与传说中的密室有关？

最后，哈利又一次战胜了密室中的蛇怪和里德尔——伏地魔，把金妮从死亡中解救出来。

3. 《哈利波特与阿兹卡班的囚徒》(Harry Potter and the Prisoner of Azkaban )
哈利·波特在霍格沃茨魔法学校已经度过了不平凡的两年，而且早已听说魔法世界中有一座守备森严的阿兹卡班监狱，里面关押着一个臭名昭着的囚徒，名字叫小天狼星布莱克。传言布莱克是“黑魔法”高手伏地魔——杀害哈利父母的兇手——的忠实信徒，曾经用一句魔咒接连结束了十三条性命。不幸的是，布莱克逃出了阿兹卡班，一心追寻哈利。有一天，布莱克终于站到了哈利的面前……

4. 《哈利波特与火焰杯》(Harry Potter and the Goblet of Fire)
霍格沃茨新学年开学之前的暑假快结束的一天夜里，哈利·波特突然被噩梦惊醒，额上的伤痕在刺痛——他做了一个怪异的梦，那梦使他担忧起来……，在姨妈德斯礼家度过了可怕的几个星期后，哈利应罗恩一家的邀请与他们一起度过假期的最后两个礼拜，还决定和罗恩、赫敏一起去观看魔法世界着名的魁地奇世界杯决赛。

然而，在魁地奇世界杯上，恐怖的事发生了——消失了十三年的邪恶巫师的恐怖标记在空中出现，而哈利似乎正是目标。虽然心头笼上了一团浓重的阴云，但三个小巫师们更为紧张的是即将到来的圣诞舞会和有一个世纪传统的竞技比赛会：三巫师争霸赛。

争霸赛开始，不够年龄的哈利成为三巫师争霸赛的第四位选手。百年不遇的三强争霸赛，霍格沃茨的精英，法国和比利时对手，三个惊险艰巨的魔法项目，哈利必须打起十二分精神。然而神秘的事情接踵而来，魔法世界里人人谈之色变的邪恶之王——隐匿了13年之久的伏地魔将要回来，而整场比赛都将是一个天大的黑魔法阴谋……

5. 《哈利波特与凤凰社》Harry Potter and the Order of the Phoenix

在第五集中，少年巫师哈利重返霍格华兹魔法学校，开始了他第五年的学习生活。他发现魔法学校的年轻学生们频频遭遇伏地魔，而整个巫师社会却施口否认他的归来，装聋作哑，视而不见。魔法部的部长康奈利·福吉(Cornelius Fudge)担心德高望重的校长阿不思-邓布利多(Albus Dumbledore)谎称伏地魔复活的消息，是为了破坏自己的权威进而取代自己的位置，所以委派一位新的抵御黑魔法的教师监视邓不利多和霍格华兹学生的一举一动。但是德洛丽丝·乌姆里奇(Dolores Umbridge)教授的抵御黑魔法课程并没有起到多大作用，年轻巫师们面对威胁他们和整个巫师社会的黑暗力量时仍旧束手无策，危险重重，所以哈利在好友赫敏和罗恩的帮助下，开始了自己的行动。他与一小群自称“邓不利多之军”的学生秘密会晤后，教会他们如何抵御黑魔法，为横亘在将来的特殊战斗做准备。

6. 哈利波特与混血王子（Harry Potter and the Half-Blood Prince）

新学期就要开始了，邓布利多教授却来到德思礼家找到哈利·波特，哈利六年级的学习似乎就这样出人意料地开始了……更出人意料的事还在接踵而至，哈利从教室的储藏柜里翻到一本魔药课本，它的前任主人是“混血王子”，从此哈利在神秘“王子”的帮助下成为“魔药奇才”……
邓布利多开始了给哈利的单独授课，在课上哈利经历了几段关于少年伏地魔的惊心动魄的记忆，揭开了伏地魔不同寻常的身世之谜……哈利·波特在魔法世界的历险故事再次掀起……

7. 《哈利波特与死圣》Harry Potter and the Deathly Hallows

⑧ 求教本地如何调试azkaban源码

你是调试azkaban web项目，可以找AzkabanWebServer这个类，用这个启动。设置启动参数右键-Run Configurations,在参数栏中加入参数 Program arguments:-config filePath(你的配置文件位置)
VM arguments:-Dlog4j.configuration=file:filePath(log4j.properties的文件位置，应该和上一个位置在同一个地方) -Dserverpath=filePath(你的web服务代码文件地址,类似文件夹azkaban-web-server)

⑨ 数据分析需要掌握哪些知识

Java基础语法

· 分支结构if/switch
· 循环结构for/while/do while
· 方法声明和调用
· 方法重载
· 数组的使用
· 命令行参数、可变参数

IDEA

· IDEA常用设置、常用快捷键
· 自定义模板
· 关联Tomcat
· Web项目案例实操

面向对象编程

· 封装、继承、多态、构造器、包
· 异常处理机制
· 抽象类、接口、内部类
· 常有基础API、集合List/Set/Map
· 泛型、线程的创建和启动
· 深入集合源码分析、常见数据结构解析
· 线程的安全、同步和通信、IO流体系
· 反射、类的加载机制、网络编程

Java8/9/10/11
新特性

· Lambda表达式、方法引用
· 构造器引用、StreamAPI
· jShell(JShell)命令
· 接口的私有方法、Optional加强
· 局部变量的类型推断
· 更简化的编译运行程序等

MySQL

· DML语言、DDL语言、DCL语言
· 分组查询、Join查询、子查询、Union查询、函数
· 流程控制语句、事务的特点、事务的隔离级别等

JDBC

· 使用JDBC完成数据库增删改查操作
· 批处理的操作
· 数据库连接池的原理及应用
· 常见数据库连接池C3P0、DBCP、Druid等

Maven

· Maven环境搭建
· 本地仓库&中央仓库
· 创建Web工程
· 自动部署
· 持续继承
· 持续部署

Linux

· VI/VIM编辑器
· 系统管理操作&远程登录
· 常用命令
· 软件包管理&企业真题

Shell编程

· 自定义变量与特殊变量
· 运算符
· 条件判断
· 流程控制
· 系统函数&自定义函数
· 常用工具命令
· 面试真题

Hadoop

· Hadoop生态介绍
· Hadoop运行模式
· 源码编译
· HDFS文件系统底层详解
· DN&NN工作机制
· HDFS的API操作
· MapRece框架原理
· 数据压缩
· Yarn工作机制
· MapRece案例详解
· Hadoop参数调优
· HDFS存储多目录
· 多磁盘数据均衡
· LZO压缩
· Hadoop基准测试

Zookeeper

· Zookeeper数据结果
· 内部原理
· 选举机制
· Stat结构体
· 监听器
· 分布式安装部署
· API操作
· 实战案例
· 面试真题
· 启动停止脚本

HA+新特性

· HDFS-HA集群配置

Hive

· Hive架构原理
· 安装部署
· 远程连接
· 常见命令及基本数据类型
· DML数据操作
· 查询语句
· Join&排序
· 分桶&函数
· 压缩&存储
· 企业级调优
· 实战案例
· 面试真题

Flume

· Flume架构
· Agent内部原理
· 事务
· 安装部署
· 实战案例
· 自定义Source
· 自定义Sink
· Ganglia监控

Kafka

· 消息队列
· Kafka架构
· 集群部署
· 命令行操作
· 工作流程分析
· 分区分配策略
· 数据写入流程
· 存储策略
· 高阶API
· 低级API
· 拦截器
· 监控
· 高可靠性存储
· 数据可靠性和持久性保证
· ISR机制
· Kafka压测
· 机器数量计算
· 分区数计算
· 启动停止脚本

DataX

· 安装
· 原理
· 数据一致性
· 空值处理
· LZO压缩处理

Scala

· Scala基础入门
· 函数式编程
· 数据结构
· 面向对象编程
· 模式匹配
· 高阶函数
· 特质
· 注解&类型参数
· 隐式转换
· 高级类型
· 案例实操

Spark Core

· 安装部署
· RDD概述
· 编程模型
· 持久化&检查点机制
· DAG
· 算子详解
· RDD编程进阶
· 累加器&广播变量

Spark SQL

· SparkSQL
· DataFrame
· DataSet
· 自定义UDF&UDAF函数

Spark Streaming

· SparkStreaming
· 背压机制原理
· Receiver和Direct模式原理
· Window原理及案例实操
· 7x24 不间断运行&性能考量

Spark内核&优化

· 内核源码详解
· 优化详解

Hbase

· Hbase原理及架构
· 数据读写流程
· API使用
· 与Hive和Sqoop集成
· 企业级调优

Presto

· Presto的安装部署
· 使用Presto执行数仓项目的即席查询模块

Ranger2.0

· 权限管理工具Ranger的安装和使用

Azkaban3.0

· 任务调度工具Azkaban3.0的安装部署
· 使用Azkaban进行项目任务调度，实现电话邮件报警

Kylin3.0

· Kylin的安装部署
· Kylin核心思想
· 使用Kylin对接数据源构建模型

Atlas2.0

· 元数据管理工具Atlas的安装部署

Zabbix

· 集群监控工具Zabbix的安装部署

DolphinScheler

· 任务调度工具DolphinScheler的安装部署
· 实现数仓项目任务的自动化调度、配置邮件报警

Superset

· 使用SuperSet对数仓项目的计算结果进行可视化展示

Echarts

· 使用Echarts对数仓项目的计算结果进行可视化展示

Redis

· Redis安装部署
· 五大数据类型
· 总体配置
· 持久化
· 事务
· 发布订阅
· 主从复制

Canal

· 使用Canal实时监控MySQL数据变化采集至实时项目

Flink

· 运行时架构
· 数据源Source
· Window API
· Water Mark
· 状态编程
· CEP复杂事件处理

Flink SQL

· Flink SQL和Table API详细解读

Flink 内核

· Flink内核源码讲解
· 经典面试题讲解

Git&GitHub

· 安装配置
· 本地库搭建
· 基本操作
· 工作流
· 集中式

ClickHouse

· ClickHouse的安装部署
· 读写机制
· 数据类型
· 执行引擎

DataV

· 使用DataV对实时项目需求计算结果进行可视化展示

sugar

· 结合Springboot对接网络sugar实现数据可视化大屏展示

Maxwell

· 使用Maxwell实时监控MySQL数据变化采集至实时项目

ElasticSearch

· ElasticSearch索引基本操作、案例实操

Kibana

· 通过Kibana配置可视化分析

Springboot

· 利用Springboot开发可视化接口程序

导航:首页 > 源码编译 > azkaban编译源码

azkaban编译源码

与azkaban编译源码相关的资料