大數據面試演算法_大數據演算法有哪些

『壹』如何准備數據分析師面試

1. 理論知識(概率統計、概率分析等)

掌握與數據分析相關的演算法是演算法工程師必備的能力，如果你面試的是和演算法相關的工作，那麼面試官一定會問你和演算法相關的問題。比如常用的數據挖掘演算法都有哪些，EM 演算法和 K-Means 演算法的區別和相同之處有哪些等。

有些分析師的工作還需要有一定的數學基礎，比如概率論與數理統計，最優化原理等。這些知識在演算法優化中會用到。

除此以外，一些數據工程師的工作更偏向於前期的數據預處理，比如 ETL 工程師。這個職位考察你對數據清洗、數據集成的能力。雖然它們不是數據分析的“煉金”環節，卻在數據分析過程中佔了 80% 的時間。

2. 具體工具(sklearn、Python、Numpy、Pandas 等)

工程師一定需要掌握工具，你通常可以從 JD 中了解一家公司採用的工具有哪些。如果你做的是和演算法相關的工作，最好還是掌握一門語言，Python 語言最適合不過，還需要對 Python 的工具，比如 Numpy、Pandas、sklearn 有一定的了解。

數據 ETL 工程師還需要掌握 ETL 工具，比如 Kettle。

如果是數據可視化工作，需要掌握數據可視化工具，比如 Python 可視化，Tableau 等。

如果工作和數據採集相關，你也需要掌握數據採集工具，比如 Python 爬蟲、八爪魚。

3. 業務能力(數據思維)

數據分析的本質是要對業務有幫助。因此數據分析有一個很重要的知識點就是用戶畫像。

用戶畫像是企業業務中用到比較多的場景，對於數據分析來說，就是對數據進行標簽化，實際上這是一種抽象能力。

關於如何准備數據分析師面試，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

『貳』大數據演算法有哪些

大數據是一個很廣的概念，並沒有大數據演算法這種東西，您估計想問的是大數據挖掘的演算法：
1.樸素貝葉斯
超級簡單，就像做一些數數的工作。如果條件獨立假設成立的話，NB將比鑒別模型收斂的更快，所以你只需要少量的訓練數據。即使條件獨立假設不成立，NB在實際中仍然表現出驚人的好。
2. 回歸
LR有很多方法來對模型正則化。比起NB的條件獨立性假設，LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同，NB有很好的概率解釋，且很容易利用新的訓練數據來更新模型（使用在線梯度下降法）。
3.決策樹
DT容易理解與解釋。DT是非參數的，所以你不需要擔心野點和數據是否線性可分的問題，此外，RF在很多分類問題中經常表現得最好，且速度快可擴展，也不像SVM那樣需要調整大量的參數，所以最近RF是一個非常流行的演算法。
4.支持向量機
很高的分類正確率，對過擬合有很好的理論保證，選取合適的核函數，面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。

想要了解更多有關數據挖掘的信息，可以了解一下CDA數據分析師的課程。大數據分析師現在有專業的國際認證證書了，「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、提供決策的新型數據分析人才。全球 CDA 持證者秉承著先進商業數據分析的新理念，遵循著《CDA 數據分析師職業道德和行為准則》新規范，發揮著自身數據科學專業能力，推動科技創新進步，助力經濟持續發展。點擊預約免費試聽課。

『叄』大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營，人才需求達到歷史最高水平。這對你意味著什麼？如果您想在任何大數據崗位上工作，它只能轉化為更好的機會。您可以選擇成為數據分析師，數據科學家，資料庫管理員，大數據工程師，Hadoop大數據工程師等。在本文中，慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題，答案取決於您的經驗，我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪，采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富，都需要基礎知識。因此，讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解？

答：大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據，這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務，並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼？

答：大數據的五個V如下：

Volume -Volume表示體積大，即以高速率增長的數據量，即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型，即各種數據格式，如文本，音頻，視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性，因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值，企業可以創造收入。

YARN的兩個主要組成部分：

ResourceManager-該組件接收處理請求，並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務

7.為什麼Hadoop可用於大數據分析？

答：由於數據分析已成為業務的關鍵參數之一，因此，企業正在處理大量結構化，非結構化和半結構化數據。在Hadoop主要支持其功能的情況下，分析非結構化數據非常困難

存儲
處理
數據採集

此外，Hadoop是開源的，可在商用硬體上運行。因此，它是企業的成本效益解決方案。

8.什麼是fsck？

答：fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如，如果文件有任何丟失的塊，則通過此命令通知HDFS。

9. NAS（網路附加存儲）和HDFS之間的主要區別是什麼？

答：NAS（網路附加存儲）和HDFS之間的主要區別 -

HDFS在一組計算機上運行，而NAS在單個計算機上運行。因此，數據冗餘是HDFS中的常見問題。相反，復制協議在NAS的情況下是不同的。因此，數據冗餘的可能性要小得多。
在HDFS的情況下，數據作為數據塊存儲在本地驅動器中。在NAS的情況下，它存儲在專用硬體中。

10.格式化NameNode的命令是什麼？

答：$ hdfs namenode -format。

歡迎咨詢慧都在線客服，我們將幫您轉接大數據專家團隊，並發送相關資料給您！

以上就是大數據面試題及答案，希望我的回答對您有幫助！

『肆』演算法面試

我在《再談「我是怎麼招程序員」》中比較保守地說過，「問難的演算法題並沒有錯，錯的很多面試官只是在膚淺甚至錯誤地理解著面試演算法題的目的。」，今天，我想加強一下這個觀點——我反對純演算法題面試！（注意，我說的是純演算法題）圖片源Wikipedia（點擊圖片查看詞條）我再次引用我以前的一個觀點——能解演算法題並不意味著這個人就有能力就能在工作中解決問題，你可以想想，小學奧數題可能比這些題更難，但並不意味著那些奧數能手就能解決實際問題。好了，讓我們來看一個示例（這個示例是昨天在微博上的一個討論），這個題是——「找出無序數組中第2大的數」，幾乎所有的人都用了O(n)的演算法，我相信對於我們這些應試教育出來的人來說，不用排序用O(n)演算法是很正常的事，連我都不由自主地認為O(n)演算法是這個題的標准答案。我們太習慣於標准答案了，這是我國教育最悲哀的地方。（廣義的洗腦就是讓你的意識依賴於某個標准答案，然後通過給你標准答案讓你不會思考而控制你）功能性需求分析試想，如果我們在實際工作中得到這樣一個題我們會怎麼做？我一定會分析這個需求，因為我害怕需求未來會改變，今天你叫我找一個第2大的數，明天你找我找一個第4大的數，後天叫我找一個第100大的數，我不搞死了。需求變化是很正常的事。分析完這個需求後，我會很自然地去寫找第K大數的演算法——難度一下子就增大了。很多人會以為找第K大的需求是一種「過早擴展」的思路，不是這樣的，我相信我們在實際編碼中寫過太多這樣的程序了，你一定不會設計出這樣的函數介面 —— Find2ndMaxNum(int* array, int len)，就好像你不會設計出 DestroyBaghdad(); 這樣的介面，而是設計一個DestoryCity( City& ); 的介面，而把Baghdad當成參數傳進去！所以，你應該是聲明一個叫FindKthMaxNum(int* array, int len, int kth)，把2當成參數傳進去。這是最基本的編程方法，用數學的話來說，叫代數！最簡單的需求分析方法就是把需求翻譯成函數名，然後看看是這個介面不是很二？！（註：不要糾結於FindMaxNum()或FindMinNum()，因為這兩個函數名的業務意義很清楚了，不像Find2ndMaxNum()那麼二）非功能性需求分析性能之類的東西從來都是非功能性需求，對於演算法題，我們太喜歡研究演算法題的空間和時間復雜度了。我們希望做到空間和時間雙豐收，這是演算法學術界的風格。所以，習慣於標准答案的我們已經失去思考的能力，只會機械地思考演算法之內的性能，而忽略了演算法之外的性能。如果題目是——「從無序數組中找到第K個最大的數」，那麼，我們一定會去思考用O(n)的線性演算法找出第K個數。事實上，也有線性演算法——STL中可以用nth_element求得類似的第n大的數，其利用快速排序的思想，從數組S中隨機找出一個元素X，把數組分為兩部分Sa和Sb。Sa中的元素大於等於X，Sb中元素小於X。這時有兩種情況：1）Sa中元素的個數小於k，則Sb中的第 k-|Sa|個元素即為第k大數；2） Sa中元素的個數大於等於k，則返回Sa中的第k大數。時間復雜度近似為O(n)。搞學術的nuts們到了這一步一定會歡呼勝利！但是他們哪裡能想得到性能的需求分析也是來源自業務的！我們一說性能，基本上是個人都會問，請求量有多大？如果我們的FindKthMaxNum()的請求量是m次，那麼你的這個每次都要O(n)復雜度的演算法得到的效果就是O(n*m)，這一點，是書獃子式的學院派人永遠想不到的。因為應試教育讓我們不會從實際思考了。工程式的解法根據上面的需求分析，有軟體工程經驗的人的解法通常會這樣：1）把數組排序，從大到小。2）於是你要第k大的數，就直接訪問 array[k]。排序只需要一次，O(n*log(n))，然後，接下來的m次對FindKthMaxNum()的調用全是O(1)的，整體復雜度反而成了線性的。其實，上述的還不是工程式的最好的解法，因為，在業務中，那數組中的數據可能會是會變化的，所以，如果是用數組排序的話，有數據的改動會讓我重新排序，這個太耗性能了，如果實際情況中會有很多的插入或刪除操作，那麼可以考慮使用B+樹。工程式的解法有以下特點：1）很方便擴展，因為數據排好序了，你還可以方便地支持各種需求，如從第k1大到k2大的數據（那些學院派寫出來的代碼在拿到這個需求時又開始撓頭苦想了）2）規整的數據會簡化整體的演算法復雜度，從而整體性能會更好。（公欲善其事，必先利其器）3）代碼變得清晰，易懂，易維護！（學院派的和STL一樣的近似O(n)復雜度的演算法沒人敢動）爭論你可能會和我有以下爭論，如果程序員做這個演算法題用排序的方式，他一定不會像你想那麼多。是的，你說得對。但是我想說，很多時候，我們直覺地思考，恰恰是正確的路。因為「排序」這個思路符合人類大腦處理問題的方式，而使用學院派的方式是反大腦直覺的。反大腦直覺的，通常意味著晦澀難懂，維護成本上升。就是一道面試題，我就是想測試一下你的演算法技能，這也扯太多了。沒問題，不過，我們要清楚我們是在招什麼人？是一個只會寫演算法的人，還是一個會做軟體的人？這個只有你自己最清楚。這個演算法題太容易誘導到學院派的思路了。是的這道「找出第K大的數」，其實可以變換為更為業務一點的題目——「我要和別的商戶競價，我想排在所有競爭對手報價的第K名，請寫一個程序，我輸入K，和一個商品名，系統告訴我應該訂多少價？（商家的所有商品的報價在一數組中）」——業務分析，整體性能，演算法，數據結構，增加需求讓應聘者重構，這一個問題就全考了。你是不是在說演算法不重要，不用學？千萬別這樣理解我，搞得好像如果面試不面，我就可以不學。演算法很重要，演算法題能鍛煉我們的思維，而且也有很多實際用處。我這篇文章不是讓大家不要去學演算法，這是完全錯誤的，我是讓大家帶著業務問題去使用演算法。問你業務問題，一樣會問到演算法題上來。小結看過這上面的分析，我相信你明白我為什麼反對純演算法面試題了。原因就是純演算法的面試題根本不能反應一個程序的綜合素質！那麼，在面試中，我們應該要考量程序員的那些綜合素質呢？我以為有下面這些東西：會不會做需求分析？怎麼理解問題的？解決問題的思路是什麼？想法如何？會不會對基礎的演算法和數據結構靈活運用？另外，我們知道，對於軟體開發來說，在工程上，難是的下面是這些挑戰：軟體的維護成本遠遠大於軟體的開發成本。軟體的質量變得越來越重要，所以，測試工作也變得越來越重要。軟體的需求總是在變的，軟體的需求總是一點一點往上加的。程序中大量的代碼都是在處理一些錯誤的或是不正常的流程。所以，對於編程能力上，我們應該主要考量程序員的如下能力：設計是否滿足對需求的理解，並可以應對可能出現的需求變化。

『伍』大數據面試題以及答案整理（一）

一、Map端的shuffle

Map端會處理輸入數據並產生中間結果，這個中間結果會寫到本地磁碟，而不是HDFS。每個Map的輸出會先寫到內存緩沖區中，當寫入的數據達到設定的閾值時，系統將會啟動一個線程將緩沖區的數據寫到磁碟，這個過程叫做spill。

在spill寫入之前，會先進行二次排序，首先根據數據所屬的partition進行排序，然後每個partition中的數據再按key來排序。partition的目的是將記錄劃分到不同的Recer上去，以期望能夠達到負載均衡，以後的Recer就會根據partition來讀取自己對應的數據。接著運行combiner(如果設置了的話)，combiner的本質也是一個Recer，其目的是對將要寫入到磁碟上的文件先進行一次處理，這樣，寫入到磁碟的數據量就會減少。最後將數據寫到本地磁碟產生spill文件(spill文件保存在{mapred.local.dir}指定的目錄中，Map任務結束後就會被刪除)。

最後，每個Map任務可能產生多個spill文件，在每個Map任務完成前，會通過多路歸並演算法將這些spill文件歸並成一個文件。至此，Map的shuffle過程就結束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三個階段，、sort(merge)和rece。

首先要將Map端產生的輸出文件拷貝到Rece端，但每個Recer如何知道自己應該處理哪些數據呢？因為Map端進行partition的時候，實際上就相當於指定了每個Recer要處理的數據(partition就對應了Recer)，所以Recer在拷貝數據的時候只需拷貝與自己對應的partition中的數據即可。每個Recer會處理一個或者多個partition，但需要先將自己對應的partition中的數據從每個Map的輸出結果中拷貝過來。

接下來就是sort階段，也稱為merge階段，因為這個階段的主要工作是執行了歸並排序。從Map端拷貝到Rece端的數據都是有序的，所以很適合歸並排序。最終在Rece端生成一個較大的文件作為Rece的輸入。

最後就是Rece過程了，在這個過程中產生了最終的輸出結果，並將其寫到HDFS上。

讀：

1、跟namenode通信查詢元數據，找到文件塊所在的datanode伺服器

2、挑選一台datanode（就近原則，然後隨機）伺服器，請求建立socket流

3、datanode開始發送數據（從磁碟裡面讀取數據放入流，以packet為單位來做校驗）

4、客戶端以packet為單位接收，現在本地緩存，然後寫入目標文件

寫：

1、與namenode通信請求上傳文件，namenode檢查目標文件是否已存在，父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第一個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器ABC

5、client請求3台dn中的一台A上傳數據（本質上是一個RPC調用，建立pipeline），A收到請求會繼續調用B，然後B調用C，將真個pipeline建立完成，逐級返回客戶端

6、client開始往A上傳第一個block（先從磁碟讀取數據放到一個本地內存緩存），以packet為單位，A收到一個packet就會傳給B，B傳給C；A每傳一個packet會放入一個應答隊列等待應答

7、當一個block傳輸完成之後，client再次請求namenode上傳第二個block的伺服器

『陸』大數據工程師面試攻略有哪些

1、面試過程是一次高效的交流

首先，我覺得面試官有責任保證面試過程是一次高效的交流。你要獲取到你需要的信息，對面試者做全方位的考量;面試者也要獲取到他需要的信息，面試官(若面試成功很大可能是自己的上級)的水平，公司技術要求水平，自己是否適合這家公司，公司是否需要自己。

面試是一個雙向選擇的過程，面試官在選人，面試者在選公司。而面試者了解這家公司最直接的途徑就是通過面試官。

2、面試官

說說面試官，我先說幾個面試官常會有的問題。問題問得太跳躍，想到什麼問什麼。抓住一個面試官自己很熟的知識點或者方嚮往死里問，完全不會根據面試者的回答情況做調整(我是來面試的，不是來看你炫技的)。

3、技術問題

只問技術，不問業務，技術問題問得太表面，當然我也見過不錯的面試官，問題問得很有水平。那有水平的面試官會給人什麼樣的感覺?答得很舒服，不管結果怎麼樣，總之能展現出自己應有的水平面試過程是有收獲的，沒有白來，知道了自己的欠缺，如果面試者是個到處搶著要的高手，那你有水平的提問會給這個面試者留下深刻印象，畢竟大家都是喜歡和厲害的人當同事的。

4、提問

說說提問，思路想法，表達能力，技術功底，熱情。這幾個點我是比較看重的。很多問題都是圍繞著這幾個點展開的，大家看下有沒有借鑒意義。

『柒』大數據面試經驗：餓了么數據分析師

又有一種數據分析師，崗位職責要求你掌握常用的機器學習演算法，面試首先推導一個決策樹或者邏輯回歸。入職後也是各類代碼，和分析打交道的情況不多。

導航:首頁 > 源碼編譯 > 大數據面試演算法

大數據面試演算法

10個大數據面試入門級問題

與大數據面試演算法相關的資料