❶ 學大數據可以從事什麼職業
1、數據分析師。數據分析師 是數據師的一種,指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。在工作中通過運用工具,提取、分析、呈現數據,實現數據的商業意義。
作為一名數據分析師、至少需要熟練SPSS、STATISTIC、Eviews、SAS等數據分析軟體中的一門,至少能用Acess等進行資料庫開發,至少掌握一門數學軟體如matalab、mathmatics進行新模型的構建,至少掌握一門編程語言。總之,一個優秀的數據分析師,應該業務、管理、分析、工具、設計都不落下。
2、 數據架構師。
數據架構師是負責平台的整體數據架構設計,完成從業務模型到數據模型的設計工作 ,根據業務功能、業務模型,進行資料庫建模設計,完成各種面向業務目標的數據分析模型的定義和應用開發,平台數據提取、數據挖掘及數據分析。
從事數據架構師這個職位,需要具備較強的業務理解和業務抽象能力,具備大容量事物及交易類互聯網平台的資料庫模型設計能力,對調度系統,元數據系統有非常深刻的認識和理解,熟悉常用的分析、統計、建模方法,熟悉數據倉庫相關技術,如 ETL、報表開發,熟悉Hadoop,Hive等系統並有過實戰經驗。
6、Hadoop運維工程師
你需要具備的技術知識:平台大數據環境的部署維護和技術支持, 應用故障的處理跟蹤及統計匯總分析,應用安全、數據的日常備份和應急恢復。
7、Hadoop開發工程師
Hadoop是一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop是一個能夠對大量數據進行分布式處理的軟體框架, 以一種可靠、高效、可伸縮的方式進行數據處理。所以說Hadoop解決了大數據如何存儲的問題,因而在大數據培訓機構中是必須學習的課程。
Hadoop開發工程師需要具備的技術:基於hadoop、hive等構建數據分析平台,進行數據平台架構設計、開發分布式計算業務,應用大數據、數據挖掘、分析建模等技術,對海量數據進行挖掘,發現其潛在的關聯規則,對hadoop、hive、hbase、Map/Rece相關產品進行預研、開發,Hadoop相關技術解決海量數據處理問題、大數據量的分析, Hadoop相關業務腳本的性能優化與提升,不斷提高系統運行效率。
8、大數據可視化工程師
隨著大數據在人們工作及日常生活中的應用,大數據可視化也改變著人類的對信息的閱讀和理解方式。從網路遷徙到谷歌流感趨勢,再到阿里雲推出縣域經濟可視化產品,大數據技術和大數據可視化都是幕後的英雄。
❷ 演算法工程師應該具備哪些工程能力
作者 | 木東居士
來源 | Data_Engineering
最近看了 Milter 的《演算法工程師究竟需要哪些工程能力》這篇文章,有所感想,因此也寫一篇關於演算法工程師的技術能力的問題,和大家分享一下居士關於演算法工程師的技術能力的觀點。
對於一名優秀的演算法工程師,他(她)要具備的不僅僅是出色的技術能力,也要有很深的業務理解能力和對外溝通能力,總之,要求可以很高!
但是,從職責能力的劃分上來講,演算法工程師首先是一名工程師,因此本文主要從工程能力要求上進行一些探討。
開始之前先放一份思維導圖,這將是這篇文章要分享的核心內容:
工程能力概覽
演算法工程師,從名字上我們就能看出,一名演算法工程師首先應該具備演算法能力和工程能力,我們可以認為這是基礎的技術能力。由於現在開源技術的普及,Sklearn、Tensorflow 和 Spark ML 基本已經成為大部分演算法工程師標配的工具庫了,因此,熟練的調包能力也是決定了一名演算法工程師能否快速實現需求。
其次,在真實的生產環境中,演算法的落地會遇到各種各樣的業務場景和數據環境,這也要求演算法工程師需要具備Pipeline 構建能力,將整個生產環境中的數據流和模型打通。同時,在生產環境中,會出現各種「疑難雜症」等待你去解釋,比如說為什麼實驗效果特別差?為什麼模型效果不穩定?這就要要求演算法工程師需要具備一定的數據分析能力。
很多時候,你會發現,你用在數據分析和Pipeline構建上的精力可能占據了你8成以上的工作內容。
當你具備了上面的能力時,你已經可以稱自己是一名演算法工程師了。此時,你可以去對著數據分析小得瑟一下:「你看,我能構建整個模型的Pipeline,你卻只能拿到別人提供的數據後調調包吧。「或者,你也可以去找開發得瑟:」你看,我懂了很多演算法哦,你就只會寫代碼吧。「
得瑟完之後,我們還是回歸正題,演算法工程師只具備這樣能力是否已經夠了?答案當然是不夠的。由於不同公司的團隊成熟度不同,工具化和流程的成熟度都不同,這就會對演算法工程師有不同的要求,比如說模型發布能力和報表開發能力,當然也會有一些其它能力,雖然可能不是特別重要,但是當這些工作沒人幫你做的時候,演算法工程師可能依然要承擔起這些工作內容,比如說灰度測試的能力、負載均衡的能力等等。
將上面的內容整理後,就是這樣一份思維導圖了(一張圖多看幾篇更能加深印象,因此我再貼出來一遍)
工程能力詳解
一、基礎能力
演算法能力
演算法能力就不多說了,演算法工程師的基本能力要求,不懂演算法對於一名演算法工程師來講是不太合理的。這里居士把統計學的內容也放進來了。
編程能力
編程能力主要分為兩部分:
Python、C++、Java這類編程語言,這三種也是演算法工程師需要了解的主流編程語言,一般掌握其一就夠,看不同公司。 Sql就是很通用的能力了,Sql也是一門編程語言,而是是數據處理最常用的語言! 很好用。 大數據場景下,要了解Hive Sql。調包能力
大家雖然會調侃調包俠,但是說實話,能調包調的很溜的人,也是不多的,比如說現在讓你自己用tensorflow構建一個復雜網路,不能google,你能寫出來嗎?能記清楚用法嗎?
Sklearn Tensorflow Spark ML二、核心能力
Pipeline 構建能力
Pipeline構建能力,這里想表達的更多的是整個數據流的構建能力,數據從日誌->特徵->模型訓練->反饋,這一個鏈條能否完成的能力,這裡面會有很多難題需要克服。比如說:
實時和離線模型一致性問題? 離線和實時特徵一致性問題? 實時特徵構建的問題? 數據延遲的問題?很多時候,模型發布之類的工作是可以由其他同學支持完成,但是數據流這種問題更多的是需要演算法工程師來解決的。
數據分析能力
這里的數據分析能力不是指商業分析或者業務分析,更多的是指特徵分析、演算法效果分析和各種異常問題定位分析的能力。
很多時候,兩個演算法工程師能力水平的強弱從數據分析能力上也能窺得一二。
三、輔助技術能力
輔助的技術能力是指,你會不會的影響不會特別大,但是也都是有用的能力,特別是不同公司的發展情況不同,很可能會出現一個演算法工程師既要做數據接入、又要做數據清洗、還要做演算法平台
也要搞前端、還要負責模型上線、系統運維。
這里就不再細講了。
思考一
聊一下對技術能力、工程能力和數據分析的思考。
居士個人的理解,技術能力更多的是偏向於一個一個的技術點,而工程能力更多就是在一個團隊中將項目做好的能力。很多演算法出身的工程能力不行,那麼他做的單純的一個模型是無法應用到實際生產中的,而工程就是指把理論落地實際生產的過程。那麼工程包含了什麼?它包括了系統架構設計和模塊設計、數據流搭建和平台搭建、調包或演算法開發、分布式、上線以及各種落地的代碼開發。報表和監控,其實本質也是做數據流,邊緣性的可能要做些後台和前端的開發。
然後數據分析能力是什麼?數據分析(不是純粹的數據分析)除了分析方法論和套路外,是一個很綜合性、相對偏軟一點的能力,比如說你通過分析發現了我們的系統有哪些可以優化的點,通過分析發現了問題的原因是什麼,這些都是分析能力。
思考二
針對前面的內容,和 Cathy 討論後,對整個思路做了新的梳理,大家直接看圖就好,居士也認為這樣描述可能更為合理。
思考三
這里再補充一個模型復現的能力,比如你看了一篇論文,發現這個模型可能很適合自己的業務場景,那麼你是否能力將論文裡面的模型快速用公司現有的平台和工具來復現?
居士認為,這一個是一個非常重要的能力,但是沒有想好具體該怎樣劃分。
❸ 想做一名演算法工程師需要學什麼
1、業務認知&問題定位
首先要清楚你所要解決的問題是什麼,是否需要復雜的演算法求解。問題的定義來源於你對業務的認知和理解。我們經常陷入一種誤區,覺得自己是一名演算法工程師,遇到任務問題都想要用復雜的演算法去求解。正所謂一頓操作猛如虎,得來的效果卻很一般。因此,做事之前一定要在理解業務的基礎上,把問題定位清楚,用合適的方法求解。
2、數據挖掘&分析
深度學習的應用能夠突飛猛進的一個重要原因就是大數據的支撐。當前獲取數據的成本很低,而數據清理和挖掘的成本很高,但非常重要。數據是模型的輸入,是模型能夠擬合的上限。在入模之前,你需要花一定的精力用於數據工作,這是必要也是值得的。因此,掌握數據能力也是一名演算法工程師的必經之路。
3、演算法策略
這是每位演算法工程師的硬實力,有了清晰的問題和可用的數據後,我們需要選擇合適的演算法策略求解問題。就銷量預估而言,由於特徵大部分都是表格型,樹模型及其變體成為首選的方案。通過樹模型,你能夠快速拿到一個不錯的baseline。但千萬不要停滯不前,你需要調研更多的先進的方案進行優化,即使此時能夠拿到的受益不多,但請堅持專研的精神(近期時序模型中,熱度很高的informer值得嘗試)。此外,「人工智慧,有多少人工就有多少智能」這句話在實際應用領域體現得淋漓盡致。策略也屬於演算法的一部分,人工策略有時候能夠帶來很大的受益,也能夠找到更適合的演算法優化方向。例如,我們在優化首猜的貨品池時,考慮到首猜目前的推薦演算法已經非常優秀了,但消費者的成交來源主要是搜索,我們通過人工分析選擇了做增量貨品供給的方式,拿到了不錯的業務效果。基於此,我們也找到了更合適的選品演算法優化方向。
4、離線實驗和線上AB實驗
實驗是驗證理論的最佳手段,也是最具有說服力的。我們需要找到幾個合適的指標進行優化,並且要保證離線效。
❹ 數據演算法工程師是什麼職位
演算法工程師通過算式來完成不同的邏輯運算,他們的工作范圍有對圖像音頻視頻等信息進行處理,如圖像和視頻的分類、檢測、識別、跟蹤、計算成像等,通過大數據分析進行廣告等內容的推薦,通過演算法實現導航定位及機器的自動化,發送信號通訊方面也不能缺少演算法工程師,可以說演算法工程師幾乎占據了互聯網的每一個領域。
❺ 數據演算法工程師是吃青春飯嗎
你好。
這就是國人的誤解了
數據演算法工程師可不是幾年就可以當得上、當得好的
是需要時間來鍛煉和長經驗的
當然咯,你不想繼續那是你自己的事情了
❻ 有數據演算法工程師都有哪些的大學有哪些
有很多大學都有。
大學(University、College)是實施高等教育的學校的一種,包括綜合大學和專科大學、學院, 是一種功能獨特的組織,是與社會的經濟和政治機構既相互關聯又鼎足而立的傳承、研究、融合和創新高深學術的高等學府。它不僅是人類文化發展到一定階段的產物,還在長期辦學實踐的基礎上,經過歷史的積淀、自身的努力和外部環境的影響,逐步形成了一種獨特的文化。大學從產生已有上千年的歷史。起初,主要是從德國、英國等國家最早發展起來的。中國現代大學源起於西方,現代西方大學又是從歐洲中世紀大學、英國大學、德國大學再到美國大學這樣逐漸演化過來的。無論哪一個時代的大學都是以前大學的創造性繼承而不是否定。
❼ 學大數據以後可以做什麼工作
1. 數據分析師。
數據分析師 是數據師的一種,指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。在工作中通過運用工具,提取、分析、呈現數據,實現數據的商業意義。
作為一名數據分析師、至少需要熟練SPSS、STATISTIC、Eviews、SAS、大數據魔鏡等數據分析軟體中的一門,至少能用Acess等進行資料庫開發,至少掌握一門數學軟體如matalab、mathmatics進行新模型的構建,至少掌握一門編程語言。總之,一個優秀的數據分析師,應該業務、管理、分析、工具、設計都不落下。
2. 數據架構師。
數據架構師是負責平台的整體數據架構設計,完成從業務模型到數據模型的設計工作 ,根據業務功能、業務模型,進行資料庫建模設計,完成各種面向業務目標的數據分析模型的定義和應用開發,平台數據提取、數據挖掘及數據分析。
從事數據架構師這個職位,需要具備較強的業務理解和業務抽象能力,具備大容量事物及交易類互聯網平台的資料庫模型設計能力,對調度系統,元數據系統有非常深刻的認識和理解,熟悉常用的分析、統計、建模方法,熟悉數據倉庫相關技術,如 ETL、報表開發,熟悉hadoop,Hive等系統並有過實戰經驗。
3. 數據挖掘工程師。
一般是指從大量的數據中通過演算法搜索隱藏於其中知識的工程技術專業人員。這些知識可用使企業決策智能化,自動化,從而使企業提高工作效率,減少錯誤決策的可能性,以在激烈的競爭中處於不敗之地。
成為數據挖據工程師需要具備深厚的統計學、數學、數據挖掘理論基礎和相關項目經驗,熟悉R、SAS、SPSS等統計分析軟體之一,參與過完整的數據採集.整理.分析和建模工作。.具有海量數據下機器學習和演算法實施相關經驗,熟悉hadoop,hive,map-rece等。
4. 數據演算法工程師。
在企業中負責大數據產品數據挖掘演算法與模型部分的設計,將業務場景與模型演算法進行融合等;深入研究數據挖掘模型,參與數據挖掘模型的構建、維護、部署和評估,支持產品研發團隊模型演算法構建,整合等;制定數據建模、數據處理和數據安全等架構規范並落地實施。
需要具備的知識有:扎實的數據挖掘基礎知識,精通機器學習、數學統計常用演算法;熟悉大數據生態,掌握常見分布式計算框架和技術原理,如Hadoop、MapRece、Yarn、Storm、Spark等;熟悉Linux操作系統和Shell編程,至少熟悉Scala/Java/Python/C++/R等語言中的一種編程;熟悉大規模並行計算的基本原理並具有實現並行計算演算法的基本能力。
5. 數據產品經理。
數據平台建設及維護,客戶端數據的分析,進行數據統計協助,數據化運營整理、提煉已有的數據報告,發現數據變化,進行深度專題分析,形成結論,撰寫報告;負責公司數據產品的設計及開發實施,並保證業務目標的實現;進行數據產品開發。
需要具備的技能有:有數據分析/數據挖掘/用戶行為研究的項目實踐經驗 ;有扎實的分析理論基礎,精通1種以上統計分析工具軟體,如SPSS、SAS,熟練使用Excel、SQL等工具; 熟悉SQL/HQL語句,工作經歷有SQL server/My SQl等的優先 ;熟練操作excel,ppt等辦公軟體,熟練使用SPSS、SAS等統計分析軟體其中之一 ;熟悉hadoop集群架構、有BI實踐經驗、參與過流式計算相關經驗者加分 ;熟悉客戶端產品的產品設計、開發流程 。
❽ 演算法工程師的項目落地能力指什麼
1、深刻理解業務,能根據業務需求調整實現方案的能力
就拿茶具的例子說,客戶更關注不良品不能漏,寧可殺錯,不可放過,所以這時候我們就得把業務朝著不良品檢出率方向去優化;
2、結合業務需求的熟練工程實現能力
我們拿到一個項目需求以後,大腦中得立馬有一個框架,這個項目輸入輸出是什麼?得用到哪幾個模型?適合什麼樣的業務框架?開發需要多久?調優需要多久?能達到什麼樣的指標?然後按照自己的規劃進行開發調優。
3、對數據敏感,有較強的數據處理與數據維護管理能力
演算法工程師一定要對數據敏感,看一眼數據就能知道這些數據能支持什麼樣的任務?有沒有坑?數據該怎麼標注與維護高效省成本?
4、對新技術的求知慾與探索學習能力
目前人工智慧技術剛興起,技術和演算法迭代很快,所以對演算法工程師追新技術,新解決方案的能力也有要求,不能落後太久。比如現在有個推理性能的瓶頸,攻關了很久沒有突破,但是可能就已經有開源的方案了,而這就需要我們經常查資料,看論文了。
5、各部門的溝通合作能力
這是個通用能力,演算法工程師當然也需要,就像這個茶具項目中的一樣,演算法工程師接到不合理的需求一定要及時溝通,並用自己的專業知識,給出更合理的解決方案,各部門一起為項目落地努力。