大数据面试算法_大数据算法有哪些

‘壹’ 如何准备数据分析师面试

1. 理论知识(概率统计、概率分析等)

掌握与数据分析相关的算法是算法工程师必备的能力，如果你面试的是和算法相关的工作，那么面试官一定会问你和算法相关的问题。比如常用的数据挖掘算法都有哪些，EM 算法和 K-Means 算法的区别和相同之处有哪些等。

有些分析师的工作还需要有一定的数学基础，比如概率论与数理统计，最优化原理等。这些知识在算法优化中会用到。

除此以外，一些数据工程师的工作更偏向于前期的数据预处理，比如 ETL 工程师。这个职位考察你对数据清洗、数据集成的能力。虽然它们不是数据分析的“炼金”环节，却在数据分析过程中占了 80% 的时间。

2. 具体工具(sklearn、Python、Numpy、Pandas 等)

工程师一定需要掌握工具，你通常可以从 JD 中了解一家公司采用的工具有哪些。如果你做的是和算法相关的工作，最好还是掌握一门语言，Python 语言最适合不过，还需要对 Python 的工具，比如 Numpy、Pandas、sklearn 有一定的了解。

数据 ETL 工程师还需要掌握 ETL 工具，比如 Kettle。

如果是数据可视化工作，需要掌握数据可视化工具，比如 Python 可视化，Tableau 等。

如果工作和数据采集相关，你也需要掌握数据采集工具，比如 Python 爬虫、八爪鱼。

3. 业务能力(数据思维)

数据分析的本质是要对业务有帮助。因此数据分析有一个很重要的知识点就是用户画像。

用户画像是企业业务中用到比较多的场景，对于数据分析来说，就是对数据进行标签化，实际上这是一种抽象能力。

关于如何准备数据分析师面试，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

‘贰’ 大数据算法有哪些

大数据是一个很广的概念，并没有大数据算法这种东西，您估计想问的是大数据挖掘的算法：
1.朴素贝叶斯
超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。
2. 回归
LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。
3.决策树
DT容易理解与解释。DT是非参数的，所以你不需要担心野点和数据是否线性可分的问题，此外，RF在很多分类问题中经常表现得最好，且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。
4.支持向量机
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。

想要了解更多有关数据挖掘的信息，可以了解一下CDA数据分析师的课程。大数据分析师现在有专业的国际认证证书了， “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。全球 CDA 持证者秉承着先进商业数据分析的新理念，遵循着《CDA 数据分析师职业道德和行为准则》新规范，发挥着自身数据科学专业能力，推动科技创新进步，助力经济持续发展。点击预约免费试听课。

‘叁’ 大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营，人才需求达到历史最高水平。这对你意味着什么？如果您想在任何大数据岗位上工作，它只能转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。在本文中，慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题，答案取决于您的经验，我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访，采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富，都需要基础知识。因此，让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答：fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答：NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答：$ hdfs namenode -format。

欢迎咨询慧都在线客服，我们将帮您转接大数据专家团队，并发送相关资料给您！

以上就是大数据面试题及答案，希望我的回答对您有帮助！

‘肆’ 算法面试

我在《再谈“我是怎么招程序员”》中比较保守地说过，“问难的算法题并没有错，错的很多面试官只是在肤浅甚至错误地理解着面试算法题的目的。”，今天，我想加强一下这个观点——我反对纯算法题面试！（注意，我说的是纯算法题）图片源Wikipedia（点击图片查看词条）我再次引用我以前的一个观点——能解算法题并不意味着这个人就有能力就能在工作中解决问题，你可以想想，小学奥数题可能比这些题更难，但并不意味着那些奥数能手就能解决实际问题。好了，让我们来看一个示例（这个示例是昨天在微博上的一个讨论），这个题是——“找出无序数组中第2大的数”，几乎所有的人都用了O(n)的算法，我相信对于我们这些应试教育出来的人来说，不用排序用O(n)算法是很正常的事，连我都不由自主地认为O(n)算法是这个题的标准答案。我们太习惯于标准答案了，这是我国教育最悲哀的地方。（广义的洗脑就是让你的意识依赖于某个标准答案，然后通过给你标准答案让你不会思考而控制你）功能性需求分析试想，如果我们在实际工作中得到这样一个题我们会怎么做？我一定会分析这个需求，因为我害怕需求未来会改变，今天你叫我找一个第2大的数，明天你找我找一个第4大的数，后天叫我找一个第100大的数，我不搞死了。需求变化是很正常的事。分析完这个需求后，我会很自然地去写找第K大数的算法——难度一下子就增大了。很多人会以为找第K大的需求是一种“过早扩展”的思路，不是这样的，我相信我们在实际编码中写过太多这样的程序了，你一定不会设计出这样的函数接口 —— Find2ndMaxNum(int* array, int len)，就好像你不会设计出 DestroyBaghdad(); 这样的接口，而是设计一个DestoryCity( City& ); 的接口，而把Baghdad当成参数传进去！所以，你应该是声明一个叫FindKthMaxNum(int* array, int len, int kth)，把2当成参数传进去。这是最基本的编程方法，用数学的话来说，叫代数！最简单的需求分析方法就是把需求翻译成函数名，然后看看是这个接口不是很二？！（注：不要纠结于FindMaxNum()或FindMinNum()，因为这两个函数名的业务意义很清楚了，不像Find2ndMaxNum()那么二）非功能性需求分析性能之类的东西从来都是非功能性需求，对于算法题，我们太喜欢研究算法题的空间和时间复杂度了。我们希望做到空间和时间双丰收，这是算法学术界的风格。所以，习惯于标准答案的我们已经失去思考的能力，只会机械地思考算法之内的性能，而忽略了算法之外的性能。如果题目是——“从无序数组中找到第K个最大的数”，那么，我们一定会去思考用O(n)的线性算法找出第K个数。事实上，也有线性算法——STL中可以用nth_element求得类似的第n大的数，其利用快速排序的思想，从数组S中随机找出一个元素X，把数组分为两部分Sa和Sb。Sa中的元素大于等于X，Sb中元素小于X。这时有两种情况：1）Sa中元素的个数小于k，则Sb中的第 k-|Sa|个元素即为第k大数；2） Sa中元素的个数大于等于k，则返回Sa中的第k大数。时间复杂度近似为O(n)。搞学术的nuts们到了这一步一定会欢呼胜利！但是他们哪里能想得到性能的需求分析也是来源自业务的！我们一说性能，基本上是个人都会问，请求量有多大？如果我们的FindKthMaxNum()的请求量是m次，那么你的这个每次都要O(n)复杂度的算法得到的效果就是O(n*m)，这一点，是书呆子式的学院派人永远想不到的。因为应试教育让我们不会从实际思考了。工程式的解法根据上面的需求分析，有软件工程经验的人的解法通常会这样：1）把数组排序，从大到小。2）于是你要第k大的数，就直接访问 array[k]。排序只需要一次，O(n*log(n))，然后，接下来的m次对FindKthMaxNum()的调用全是O(1)的，整体复杂度反而成了线性的。其实，上述的还不是工程式的最好的解法，因为，在业务中，那数组中的数据可能会是会变化的，所以，如果是用数组排序的话，有数据的改动会让我重新排序，这个太耗性能了，如果实际情况中会有很多的插入或删除操作，那么可以考虑使用B+树。工程式的解法有以下特点：1）很方便扩展，因为数据排好序了，你还可以方便地支持各种需求，如从第k1大到k2大的数据（那些学院派写出来的代码在拿到这个需求时又开始挠头苦想了）2）规整的数据会简化整体的算法复杂度，从而整体性能会更好。（公欲善其事，必先利其器）3）代码变得清晰，易懂，易维护！（学院派的和STL一样的近似O(n)复杂度的算法没人敢动）争论你可能会和我有以下争论，如果程序员做这个算法题用排序的方式，他一定不会像你想那么多。是的，你说得对。但是我想说，很多时候，我们直觉地思考，恰恰是正确的路。因为“排序”这个思路符合人类大脑处理问题的方式，而使用学院派的方式是反大脑直觉的。反大脑直觉的，通常意味着晦涩难懂，维护成本上升。就是一道面试题，我就是想测试一下你的算法技能，这也扯太多了。没问题，不过，我们要清楚我们是在招什么人？是一个只会写算法的人，还是一个会做软件的人？这个只有你自己最清楚。这个算法题太容易诱导到学院派的思路了。是的这道“找出第K大的数”，其实可以变换为更为业务一点的题目——“我要和别的商户竞价，我想排在所有竞争对手报价的第K名，请写一个程序，我输入K，和一个商品名，系统告诉我应该订多少价？（商家的所有商品的报价在一数组中）”——业务分析，整体性能，算法，数据结构，增加需求让应聘者重构，这一个问题就全考了。你是不是在说算法不重要，不用学？千万别这样理解我，搞得好像如果面试不面，我就可以不学。算法很重要，算法题能锻炼我们的思维，而且也有很多实际用处。我这篇文章不是让大家不要去学算法，这是完全错误的，我是让大家带着业务问题去使用算法。问你业务问题，一样会问到算法题上来。小结看过这上面的分析，我相信你明白我为什么反对纯算法面试题了。原因就是纯算法的面试题根本不能反应一个程序的综合素质！那么，在面试中，我们应该要考量程序员的那些综合素质呢？我以为有下面这些东西：会不会做需求分析？怎么理解问题的？解决问题的思路是什么？想法如何？会不会对基础的算法和数据结构灵活运用？另外，我们知道，对于软件开发来说，在工程上，难是的下面是这些挑战：软件的维护成本远远大于软件的开发成本。软件的质量变得越来越重要，所以，测试工作也变得越来越重要。软件的需求总是在变的，软件的需求总是一点一点往上加的。程序中大量的代码都是在处理一些错误的或是不正常的流程。所以，对于编程能力上，我们应该主要考量程序员的如下能力：设计是否满足对需求的理解，并可以应对可能出现的需求变化。

‘伍’ 大数据面试题以及答案整理（一）

一、Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目的是将记录划分到不同的Recer上去，以期望能够达到负载均衡，以后的Recer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Recer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三个阶段，、sort(merge)和rece。

首先要将Map端产生的输出文件拷贝到Rece端，但每个Recer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Recer要处理的数据(partition就对应了Recer)，所以Recer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Recer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段，也称为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Rece端的数据都是有序的，所以很适合归并排序。最终在Rece端生成一个较大的文件作为Rece的输入。

最后就是Rece过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

读：

1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

写：

1、与namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些datanode服务器上

4、namenode返回3个datanode服务器ABC

5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器

‘陆’ 大数据工程师面试攻略有哪些

1、面试过程是一次高效的交流

首先，我觉得面试官有责任保证面试过程是一次高效的交流。你要获取到你需要的信息，对面试者做全方位的考量;面试者也要获取到他需要的信息，面试官(若面试成功很大可能是自己的上级)的水平，公司技术要求水平，自己是否适合这家公司，公司是否需要自己。

面试是一个双向选择的过程，面试官在选人，面试者在选公司。而面试者了解这家公司最直接的途径就是通过面试官。

2、面试官

说说面试官，我先说几个面试官常会有的问题。问题问得太跳跃，想到什么问什么。抓住一个面试官自己很熟的知识点或者方向往死里问，完全不会根据面试者的回答情况做调整(我是来面试的，不是来看你炫技的)。

3、技术问题

只问技术，不问业务，技术问题问得太表面，当然我也见过不错的面试官，问题问得很有水平。那有水平的面试官会给人什么样的感觉?答得很舒服，不管结果怎么样，总之能展现出自己应有的水平面试过程是有收获的，没有白来，知道了自己的欠缺，如果面试者是个到处抢着要的高手，那你有水平的提问会给这个面试者留下深刻印象，毕竟大家都是喜欢和厉害的人当同事的。

4、提问

说说提问，思路想法，表达能力，技术功底，热情。这几个点我是比较看重的。很多问题都是围绕着这几个点展开的，大家看下有没有借鉴意义。

‘柒’ 大数据面试经验：饿了么数据分析师

又有一种数据分析师，岗位职责要求你掌握常用的机器学习算法，面试首先推导一个决策树或者逻辑回归。入职后也是各类代码，和分析打交道的情况不多。

导航:首页 > 源码编译 > 大数据面试算法

大数据面试算法

10个大数据面试入门级问题

与大数据面试算法相关的资料