㈠ 【硬核技術文】研發績效,AI演算法的完美舞台
作者 | 胡豫隴
清華大學博士後
方雲智能團隊核心成員,AI演算法應用專家
方雲創始團隊具有深厚技術研發和企業管理經驗,依託長期行業積累和對數字化產業的深刻理解,以數字化方式評價研發團隊,驅動企業精確度量研發組織及個人的工作效能,合理調配研發資源。幫助技術決策者精確測評研發組織績效(便於向上匯報、平級溝通)和個人績效(便於向下管理)。回顧2020年度,我們在數據分析方面,基於實際用戶數據做了大量嘗試,取得了顯著成效,並將研究成果轉化為實際應用,深度提升了產品能力。
(一)演算法研究過程
演算法研究的基礎是數據,無論是基於數學和經驗知識的建模分析,還是基於統計學和機器學習的數據分析,都需要依託數據來開展。
演算法研究的第一步 ,我們建 立了自主的數據指標體系,並在這個指標體系基礎上,開展後續的研究。 指標體系由三級指標組成,一級為最基礎元數據,二級指標由一級指標計算得到、三級指標由二級指標和一級指標計算得到。一般來說,高級指標具有更高的信息密度,在進行信息表徵時,也能夠實現更加深度的信息傳達效果。但另一方面,數據分析時並不是選擇的高級指標越多,越有效果。而是要根據具體場景和演算法要求,選擇必要的各級指標,才能達到所需的分析效果。例如在kmeans演算法中,低級別指標反而具有更好的分類效果,而在SVM演算法中,則需要高級別指標。
研究的第二步,Kmeans。 我們鑒於元數據收集較為完整,同時數據量不是很大的情況,結合sklearn的演算法選擇引導圖,選擇了Kmeans演算法對員工的行為數據進行無監督學習聚類。
在選擇了若干基礎指標數據的同時,我們引入RFM思想,將員工在指定周期內的工作新鮮度(R)、工作頻次(F)和工作量(M)也作為聚類指標,一並用於演算法聚類,取得了十分明顯的分類效果。這里的核心在於我們不僅通過基礎指標評價了員工的工作結果數據,還通過RFM方法評價了員工的工作過程數據。將這兩類數據相結合做出的聚類,能夠很好的對員工進行分類表徵。分類結果的解讀可以直接根據指標的含義進行解釋。
研究第三步,SVM。 在聚類取得了較好的效果的基礎上,我們認為數據質量是可靠的,這相當於我們有了很好的客觀數據集,在此基礎上,我們提出由企業管理者對員工的表現進行打分,形成Label,這樣我們就得到了監督學習的訓練集,從而可以對員工行為進行監督學習下的預測。這項工作我們進行了多種嘗試,並最終通過特徵工程,選取了最為有效的15個指標,來作為員工行為的表徵指標。
這里我們回顧一下研究的歷程,以作為以後研究的經驗參考。SVM最初分析時,我們選擇了多於60個指標進行監督學習,但是學習效果並不好,類別間的區分度很低,這主要是由於過多的指標導致SVM演算法無法清楚地尋找到類別間的界線。所以我們通過一些特徵工程的方法,來進行降維。首先通過pearson相關度分析,我們將大量的指標根據關聯度,分為了24類,每一類中的指標都具有高度的相關性。因此可以在每一類指標中選出一個最具代表性的指標。這個選取過程由我們研究團隊根據實際情況,選擇了最具代表性的24個指標。其次,24個指標做SVM依然過多,我們用RFE演算法來判斷哪些指標對學習准確率影響最大,從而來選出最有效的那些指標。RFE過程中,我們使用Lasso、Ridge、Logistic、RFClassifier、linerSVM這5種演算法來作為篩選器,分別得到每一種演算法下最有效的特徵,進而,我們選取那些被更多演算法視為「有效」的特徵,例如任務平均完成時長,在5種篩選器種都被認為有效,那麼這個特徵對於我們做監督學習,就是一個很好的特徵。
此外,特徵篩選還應考慮一個問題,那就是篩選器和分類器是否要具有相同的演算法範式。例如,如果分類准備用SVM,那麼篩選器就業要選SVM類的。這樣才能保證篩選出來的特徵,在對應的分類演算法下是最為有效的。
研究第四步,數據分布擬合。 雖然在前三步研究中我們取得了一定的成效,但通過仔細檢驗已有的數據我們發現數據仍然存在兩方面問題,一是一些數據還是會存在漏填、錯填的問題,這屬於數據錯誤問題。二是在填報比較完整的數據中,存在一些極值數據,這些數據並不一定是錯誤數據,也有可能是個別員工行為表現異常導致。無論是哪種情況導致的數據異常(前提是已經預處理過缺失值),我們都可以通過擬合數據的分布,來判斷數據的分布情況,並尋找那些離群點。
在數據分布擬合研究中,我們通過對多種分布函數的嘗試,最終提出可通過正態分布、F分布、卡方分布、Gamma分布這四種常見的分布函數來擬合員工行為數據。以正態分布為例,如果我們擬合某個指標符合正態分布,那麼我們可以認為左右兩側5%區間以內的數據是常規行為,而兩側5%以外的數據是異常行為。並且通過進一步分析我們發現,一側5%到千分之一之間的數據,有時也屬於合理行為,而一側千分之一以外的數據,才最有可能稱為異常行為。通過這樣的分析,我們就可以通過數據分布擬合的方式,來發現員工的異常行為數據,並提出對應的管理策略。
此外,我們還曾提出在擬合時,要擬合顯著才能認為數據符合某一分布。但如果這樣判斷,我們發現有的數據並不滿足顯著的要求,但是數據確本身具有很強的實用信息,因此我們提出,不必以顯著為分析前提。而這其實也表明,數字化時代,要以更加符合實際的分析手段來分析數據,指導業務。而不用拘泥於過於學術或刻板的分析標准。
總結而言,在這四條主線研究思路下,我們對合作客戶的員工行為數據開展了特徵工程、非監督學習、監督學習、數據分布擬合等一系列標準的演算法研究。進而,結合實際應用場景,將研究結果轉化為了具體應用。接下來總結一下所形成的具體應用。
(二)產品轉化結果
研究成果向產品轉化,是一個不斷積累,由量變引起質變的過程。在最初的研究中,我們會在多個點上開展研究,但最終哪些研究成果能轉變為實際應用,是不確定的。而隨著研究的增多,能夠轉變為實際產品功能的成果就會顯現,這體現在三個層次。第一層次,一些好的研究點,一些對特定場景的解決方案,能夠轉變為實際產品功能。第二層次,單個功能點看似沒有太大價值,但是當出現某個典型功能點後,我們會意識到,其他看似無用的功能點,卻是對這個典型功能點的有效補充。第三層次,多個研究會呈現出一些共性,這些共性能夠轉化為產品思路和產品模式,這是要比單點產品功能更具價值的地方。這樣的由研究向產品轉化的思路,紮根實踐,又提煉總結,是具有很好的參考意義的。
我們在多個研究點探索後,不斷思考如何將研究點轉化為實用的功能,這既要結合客戶需求,也要結合我們自己對用戶痛點、產品功能的設計。2020年度的研究,我們始終在做的主線是員工行為畫像,無論是監督學習還是非監督學習,都是為了選定一套合適的指標和權重,來達成對員工的排名。在這個思路下,我們整合多種排名演算法,最終提出:由用戶自主選擇排名模式。在不同的排名模式下,我們為用戶提供不同的演算法或排名方式,這就相當於我們以後端智能化的方式,滿足了用戶在前端多樣化的需求。而這也正是數字化時代,產品以智能化方式,為用戶提供個性化功能的體現。具體而言,我們為用戶提供四種可選模式,來實現對員工排名。
模式一、行業最佳實踐 ,以成熟用戶已有案例,制定一套指標和相應權重。用戶選取想要的案例類別,我們根據其實際數據,計算相應排名結果。這里打分模式有兩種,一是產品自定義給出,二是根據已有打分排名,用Kmeans確認不同類別優秀度,回歸樹反推指標權重。
模式二:AI聚類演算法 ,系統對員工進行自然狀態進行三次或多次kmeans聚類,每次調整指標種類和權重,然後由客戶選擇一種符合預期的聚類結果,那麼客戶的選擇就對應了指標種類和權重。
模式三:AI監督學習 ,對員工進行kmeans聚類,得到n個類別,客戶對n類按優秀度進行排序打分,接下來,系統依據打分情況,通過RFE演算法(Estimator選用決策樹回歸或決策樹分類),判斷不同指標重要度。
模式四:AI輔助定製(純手動) ,由用戶指定n個指標,並為n個指標確定權重,系統對員工進行排名,可選擇演算法有:加權求和、RandomForestRegressor、GradientBoostingRegressor。備注,後兩種具體實現方式是,根據加權求和打分得到y,x就是輸入的加權指標。然後訓練得到模型。
方雲智能多種AI績效評價方法均已通過實踐驗證,並實現產品化。
(三) 演算法准確率分析
數據分析時結果一般需要有一定的准確度,才可以說演算法對問題實現了一定解決。在數字化轉型的過程中,我們不必以絕對的預測准確率來判斷演算法好壞。這是由於我們在評價員工行為時,訓練集標注或者人的認知,都是極具主觀性的,而且這種主觀性又是會動態變化的,所以演算法能夠捕捉到的,有時候也許是客觀規律,但有時候也許就只是管理者的一時情緒。我們評價演算法的好壞,應該從實踐出發,對於符合認知、規律的演算法是好演算法,但是能解釋或捕捉短期用戶態度的演算法,也是可靠的。具體而言,我們針對已有的研究,給出下述准確率總結。
一、Kmeans是非監督學習,無准確率,但可以闡述我們對老黃牛和南郭先生的發現,是符合管理常識的。
SVM預測,我們首先得到了一個關鍵結論,管理嚴格程度高、中、低,對應員工表現中、高、低。這一結論的得出是符合常識規律的,那麼我們也可以反推認為演算法是有效的。
二、根據對過去員工數據+label進行SVM訓練,我們預測未來的准確率最初僅為60%,但經過樣本篩選,參數調優後,准確率可達到93%。
三、數據合理性分析中,我們通過以不同的分布擬合員工行為數據,選出95%區間內的員工,再進一步選出95%到0.001之間的員工,准確選出數據出現問題的員工。具體實踐結果表明,我們確實捕捉到了行為極值點,也捕捉到了5%以外但行為合理的點。
(四)研究總結和下一步計劃
演算法研究、數據分析的目的,最終還是為了找到新的用戶需求,開發新的產品功能。第二部分中我們總結了由研究向產品實際功能轉化的思路。一是好的研究點直接轉變為實際產品功能。二是一些低價值的功能點支撐典型功能點後。三是研究體現出的共性思路,轉化為產品思路和產品模式。
接下來我們的研究也致力於從這三個方面來探索更多的產品功能和產品模式。目前提的主思路有:
一是將項目管理的知識和流程植入產品,幫助企業管理者簡單、高效的完成項目管理。這其中將人員動態分配到不同的任務中,就會是十分典型的一個功能。在此基礎上,員工行為的分析和排名就會成為很好的輔助功能,我們可以依據員工行為特點,將他們分配到不同情況的任務中。
二是深化單點功能。我們在SVM訓練模型時發現,每個月的模型放到下個月或者其他月份來預測,准確率不穩定。其中很可能的原因是每個月的評價標准有所波動。那我們就可以在長期數據上,對每個月都進行模型訓練,得到多個模型。在此基礎上,將未來一個月的數據放在過去多個月的模型上預測,這樣就會出現一個月的數據在多個月模型下評價各不相同的情況,這就能反應出每個月評價標準的波動情況。
三是產品模式的升級。我們可以採用輕量化前端,收集一些簡單必要的數據後,將復雜的分析都放在後端來實現。功能上的呈現就是,用戶在前端進行一些個性化的數據和模式選擇,系統能夠在後端為用戶進行多樣化的分析,呈現給用戶智能化的操作界面(如智能化流程、模板化流程)、分析結果(排名、雷達圖、行為空間映射等),甚至是客制化流程、數據,演算法,系統提供分析結果。
免費試用地址: FarCloud|方雲|方雲數據智能研發績效|30天提效30%
㈡ 人工智慧需要什麼基礎
演算法、算力、數據作為人工智慧(AI)核心三要素,相互影響,相互支撐,在不同行業中形成了不一樣的產業形態。隨著演算法的創新、算力的增強、數據資源的累積,傳統基礎設施將藉此東風實現智能化升級,並有望推動經濟發展全要素的智能化革新。讓人類社會從信息化進入智能化。
(1)文藝復興後的人工神經網路。
人工神經網路是一種仿造神經元運作的函數演算,能接受外界資訊輸入的刺激,且根據不同刺激影響的權重轉換成輸出的反應,或用以改變內部函數的權重結構,以適應不同環境的數學模型。
(2)靠巨量數據運作的機器學習。
科學家發現,要讓機器有智慧,並不一定要真正賦予它思辯能力,可以大量閱讀、儲存資料並具有分辨的能力,就足以幫助人類工作。
(3)人工智慧的重要應用:自然語言處理。
自然語言處理的研究,是要讓機器「理解」人類的語言,是人工智慧領域里的其中一項重要分支。
自然語言處理可先簡單理解分為進、出計算機等兩種:
其一是從人類到電腦──讓電腦把人類的語言轉換成程式可以處理的型式;
其二是從電腦回饋到人──把電腦所演算的成果轉換成人類可以理解的語言表達出來。
㈢ ai演算法工程師常用的工具有哪些
ai演算法工程師必須具有強大的數學學習能力,因為它對於數學的要求非常高,數學可以說是它的根基,今天帶給大家的是ai演算法工程師常用的一些工具,下面我們就來具體看看吧。
1、CRF
需要學會CRF的安裝、使用、Python介面以及常見的錯誤。
2、lightgbm
需要學會安裝、調參、進階、API和Docker。
3、xgboost
需要學會安裝、調參、外存計算、GPU計算、單調約束、DART booster及Python API。
4、scikit-learn
需要學會預處理、降維、監督學習模型及模型評估。
5、spark
需要了解基礎概念、rdd使用、dataframe使用及累加器和廣播變數。
ai演算法工程師對於工具的使用必須非常熟練,當然它們都是在計算機上運行的,只要有一定的了解,加上後期的實踐,學會是不成問題了。