導航:首頁 > 源碼編譯 > 限制決策演算法推薦演算法出口

限制決策演算法推薦演算法出口

發布時間:2022-12-20 08:11:57

A. 決策樹基本概念及演算法優缺點

分類決策樹模型是一種描述對實例進行分類的樹形結構. 決策樹由結點和有向邊組成. 結點有兩種類型: 內部結點和葉節點. 內部節點表示一個特徵或屬性, 葉節點表示一個類.
決策樹(Decision Tree),又稱為判定樹, 是一種以樹結構(包括二叉樹和多叉樹)形式表達的預測分析模型.

分類樹--對離散變數做決策樹

回歸樹--對連續變數做決策樹

優點:
(1)速度快: 計算量相對較小, 且容易轉化成分類規則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類的謂詞.
(2)准確性高: 挖掘出來的分類規則准確性高, 便於理解, 決策樹可以清晰的顯示哪些欄位比較重要, 即可以生成可以理解的規則.
(3)可以處理連續和種類欄位
(4)不需要任何領域知識和參數假設
(5)適合高維數據
缺點:
(1)對於各類別樣本數量不一致的數據, 信息增益偏向於那些更多數值的特徵
(2)容易過擬合
(3)忽略屬性之間的相關性

若一事假有k種結果, 對應概率為 , 則此事件發生後所得到的信息量I為:

給定包含關於某個目標概念的正反樣例的樣例集S, 那麼S相對這個布爾型分類的熵為:

其中 代表正樣例, 代表反樣例

假設隨機變數(X,Y), 其聯合分布概率為P(X=xi,Y=yi)=Pij, i=1,2,...,n;j=1,2,..,m
則條件熵H(Y|X)表示在已知隨機變數X的條件下隨機變數Y的不確定性, 其定義為X在給定條件下Y的條件概率分布的熵對X的數學期望

在Hunt演算法中, 通過遞歸的方式建立決策樹.

使用信息增益, 選擇 最高信息增益 的屬性作為當前節點的測試屬性

ID3( Examples,Target_attribute,Attributes )

Examples 即訓練樣例集. Target_attribute 是這棵樹要預測的目標屬性. Attributes 是除目標屬性外供學習到的決策樹測試的屬性列表. 返回能正確分類給定 Examples 的決策樹.

class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

限制決策樹層數為4的DecisionTreeClassifier實例

This plot compares the decision surfaces learned by a dcision tree classifier(first column), by a random forest classifier(second column), by an extra-trees classifier(third column) and by an AdaBoost classifier(fouth column).

Output:

A comparison of a several classifiers in scikit-learn on synthetic datasets.
The point of this examples is to illustrate the nature of decision boundaries of different classifiers.

Particularly in high-dimensional spaces, data can more easily be separated linearly and the simplicity of classifiers such as naive Bayes and linear SVMs might lead to better generalization than is achieved by other classifiers.

This example fits an AdaBoost decisin stump on a non-linearly separable classification dataset composed of two "Gaussian quantiles" clusters and plots the decision boundary and decision scores.

Output:

B. 什麼是演算法決策理論

決策是對未來的方向、目標以及實現途徑做出決定的過程。它是指個人或集體為了達到或實現某一目標,藉助一定的科學手段和方法,從若干備選方案中選擇或綜合成一個滿意合理的方案。決策理論已經滲入到了生產、經濟、工程和軍事等各個領域中。例如在電子信息系統中,由於作戰具有多目標、多批次、多方向、空海潛立體戰的攻擊形式的特點,攻擊的隱蔽性、突然性、破壞性都比過去大為增強,這就要求決策系統發揮更加重要的作用:參戰艦艇能盡早發現敵方目標;對來自各感測器的目標信息,能迅速進行識別、分類和決策,並向指揮員提供清晰、全面的作戰態勢;協助指揮員迅速、准確地確定作戰決策方案,以控制各種武器打擊目標。

目前,常見的決策支持演算法為單目標決策方法、單人多目標決策模型和多目標群決策模型等。但是,它們都存在著一些缺點:單目標決策方法主要處理結構化問題,對於大多數的半結構化問題和非結構化問題難以發揮作用。單人多目標決策模型提出了在多目標下的決策支持理論,然而,在實際應用中很難將多個決策者之間的偏好結構反映到多目標決策模型中,特別是多個決策者之間存在相互沖突的偏好結構時更是如此。多目標群決策模型可以解決存在精確偏好問題的決策,但當得到的部分信息模糊,或偏好信息不精確時,此模型將無能為力。綜合上面分析可以得到,需要找到一種決策支持演算法,可以包含目前出現的各種信息決策情況。

將模糊集理論引入到多目標決策方法中,將兩者相結合,可以有的放矢地解決上面提出的問題。

首先,可以行之有效地解決半結構化或非結構化問題。
其次,可以很好地解決多個決策者知識、偏好不完全一致的情況。
第三,引入模糊集理論,可以有效解決決策過程中出現的許多隨機不確定模糊信息。
第四,將模糊集理論引入多目標決策當中,更符合電子信息系統的實際情況。

C. 推薦演算法總結

一、協同過濾

基於用戶協同過濾UserCF

基於物品協同過濾ItemCF

基於模型協同過濾Mode_based

基於用戶和基於物品協同過濾都稱為以記憶為基礎的協同過濾技術,共同缺點是資料稀疏、難以處理大數據量下的即時結果,因此發展出基於模型的協同過濾

核心思想:
基於歷史資料得到一個模型,再用此模型進行預測用戶對物品的評分

二、聚類演算法

三、分類演算法:

主要思路:根據文本特徵或屬性,劃分到已有的類別中。常用分類演算法包括:決策樹分類法、樸素的貝葉斯分類演算法、基於支持向量機的分類器,神經網路法,K-最近鄰法,模糊分類法

#樸素貝葉斯分類演算法

D. 代碼合規系列Vol.1:淺談推薦演算法合規

前言:

豆瓣評分曾達到9.4的科幻神劇《西部世界》,收獲了無數粉絲的膝蓋。在《西部世界》中,通過編程實現的人工智慧,人們體驗著由代碼打造的虛擬現實世界。而在 游戲 《我的世界》里,人們也可以通過編程來打造屬於自己的世界。曾有人預言,未來的世界是軟體的世界,是代碼的世界。我們無法預知未來,但是活在當下明顯感覺到代碼正在深刻改變我們的生活、改造現實世界。但代碼又似乎與我們的生活不直接相關,它是一種由字元、符號或信號碼元以離散形式表示信息的明確的規則體系,並非自然語言,普通人不可直接讀懂。目前的代碼世界尚處於早期野蠻生長時代,代碼難以約束,相關的 社會 規范幾乎不存在,彷彿游離於 社會 規范之外,拒絕接受法律的約束和道德的審視。但是最近幾年文明之光開始顯現,代碼合規開始進入大家的視線,大家開始討論演算法合規、開源代碼合規等前沿話題。敲過幾年代碼、學過幾年法律、正在做企業合規的筆者,有意加入代碼合規的討論中來,開通代碼合規這個欄目,分享自己的合規心得。

我們常說代碼的靈魂是演算法,因為代碼的核心在於演算法。演算法是對解題方案的准確而完整的描述,是一系列解決問題的清晰指令。形象比喻,如果把演算法理解為一種思路,那代碼就是演算法(思路)的具體表現形式。所以我們常說防止代碼泄露,實則是保護自己的核心演算法思路不給他人所知。2021年8月27日,國家互聯網信息辦公室發布《互聯網信息服務演算法推薦管理規定》(徵求意見稿)發布,該規定旨在規范互聯網信息服務演算法推薦活動,維護國家安全和 社會 公共利益,保護公民、法人和其他組織的合法權益,促進互聯網信息服務 健康 發展。代碼合規的系列Vol.1將圍繞該演算法推薦管理規定進行解析討論。

一、推薦演算法的介紹

推薦演算法是指利用用戶的一些行為,通過一些演算法,推測出用戶可能喜歡的東西。它作為演算法中的一種,源於個性化推薦,經過多年的理論研究和商業實踐,已經被越來越多的互聯網企業所運用到用戶推薦場景中。截止目前推薦演算法已經延伸出生成合成類(圖片視頻生成)、個性化推送類(推薦)、排序精選類(排名)、檢索過濾類(搜索)、調度決策類(外賣、打車)等。舉例來說,我們在天貓上購物,經常會被推送一些我們之前瀏覽過的同類型產品,這裡面就是用到了推薦演算法,屬於個性化推送類。

筆者曾在本科期間,參加過阿里舉辦的首屆天貓大數據演算法競賽,競賽的內容是關於推薦演算法的研究開發。基於天貓用戶的數據(匿名化處理)—數據內容主要是一定時間內用戶購買產品的時間、次數、產品相似度等用戶行為—運用基於內容、協同過濾、關聯規則等推薦演算法對用戶行為進行分析,預測下一個時段用戶的行為,對比實際數據得出相似度,以相似度高低決定演算法優良。經過幾年的發展,推薦演算法在商業實踐中的運用已經變得十分廣泛,但是也因此給我們的生活帶來了許多困擾,出現如數據殺熟、隱私保護等問題。這次國家推出對推薦演算法的監管規定,是十分及時和必要的。企業要想繼續進行推薦演算法的研究和實踐,就必須要滿足國家對於推薦演算法的規定。因此筆者基於《互聯網信息服務演算法推薦管理規定》(徵求意見稿),多維度談談企業的演算法合規義務和合規化建議。

二、演算法服務提供者的合規義務

合規,是比合法更大范圍的存在,即符合、遵守、執行適用於企業的合規規范。這里所說的合規規范按照國內外出台的標准、辦法和指引,可以總結為外部合規規范和內部合規規范。其中外部合規規范可以理解為合規要求,包括但不限於法律規范、行業准則、商業慣例、法院判決以及行政決定、強制性標准、道德規范等。內部合規規范可以理解為合規承諾,主要是指合同協議、行業自律性規則、非強制性標准、對外承諾、章程以及內部規章和各項決議等。所以對於合規工作來說,首要的就是要收集合規規范,從中識別出合規義務。本文立足於《互聯網信息服務演算法推薦管理規定》(徵求意見稿),識別出具體的合規義務,分別從強制性義務、禁止性義務、原則性義務進行展開,如下表所示。






上表所示,可以較為清晰的區分演算法合規義務。我們發現,強制性義務幾乎占據了大半,大部分的條款都是企業應當履行的合規義務。

三、推薦演算法的合規化建議

從概念上說,合規可以理解為一種理想狀態,或者說是最終目標。在通往合規的道路上,我們需要做的是將「外規內化」。上述表格總結的企業合規義務更像是粗糙的條文堆砌,我們還需要將具體的合規義務進一步內化於企業的內部管理行為中。結合我們團隊在企業合規管理體系的搭建上的實踐經驗,我認為可以從合規管理制度、合規運行和保障機制角度提出我們的合規化建議。







可能上述視角過於專業化,也有點復雜化。如果從技術人員的角度看,可以從前端和後端的視角來解析具體的合規義務:



上述兩個視角,可能對合規義務有了些許的了解,但是對於企業來說,合規義務需要嵌入到公司的制度中去才算是完成了制度層面的建設工作,這是個繁瑣和專業的事情。同時制度層面完成後,要落實制度就需要讓員工懂法知規,這就需要對員工進行必要的合規培訓工作,這裡面就涉及對於治理層、經理層、員工層不同的培訓要求。所以對於企業合規化建設,比較省力和經濟的方式就是引入第三方專業機構,幫助企業去做合規化建設,幫助組建企業內部的合規團隊,指導合規團隊去做具體的合規化建設工作,授人以漁。

E. 決策樹(Decision Tree)

決策樹是一種非參數有監督的機器學習方法,可以用於解決回歸問題和分類問題。通過學習已有的數據,計算得出一系列推斷規則來預測目標變數的值,並用類似流程圖的形式進行展示。決策樹模型可以進行可視化,具有很強的可解釋性,演算法容易理解,以決策樹為基礎的各種集成演算法在很多領域都有廣泛的應用。

熵的概念最早起源於物理學,用於度量一個熱力學系統的無序程度。在資訊理論裡面,信息熵代表著一個事件或一個變數等所含有的信息量。 在信息世界,熵越高,則能傳輸越多的信息,熵越低,則意味著傳輸的信息越少。

發生概率低的事件比發生概率高的事件具有更大的不確定性,需要更多的信息去描述他們,信息熵更高。

我們可以用計算事件發生的概率來計算事件的信息,又稱「香農信息」( Shannon Information )。一個離散事件x的信息可以表示為:
h(x) = -log(p(x))
p() 代表事件x發生的概率, log() 為以二為底的對數函數,即一個事件的信息量就是這個事件發生的概率的負對數。選擇以二為底的對數函數代表計算信息的單位是二進制。因為概率p(x)小於1,所以負號就保證了信息熵永遠不為負數。當事件的概率為1時,也就是當某事件百分之百發生時,信息為0。

熵( entropy ),又稱「香農熵」( Shannon entropy ),表示一個隨機變數的分布所需要的平均比特數。一個隨機變數的信息熵可以表示為:
H(x) = -sum(each k in K p(k)log(p(k)))
K表示變數x所可能具有的所有狀態(所有事件),將發生特定事件的概率和該事件的信息相乘,最後加和,即可得到該變數的信息熵。可以理解為,信息熵就是平均而言發生一個事件我們得到的信息量大小。所以數學上,信息熵其實是事件信息量的期望。

當組成該隨機變數的一個事件的概率為1時信息熵最小,為0, 即該事件必然發生。當組成該隨機變數的所有事件發生的概率相等時,信息熵最大,即完全不能判斷那一個事件更容易發生,不確定性最大。

當一個事件主導時,比如偏態分布( Skewed Probability Distribution ),不確定性減小,信息熵較低(low entropy);當所有事件發生概率相同時,比如均衡分布( Balanced Probability Distribution ),不確定性極大,信息熵較高(high entropy)。

由以上的香農信息公式可知,信息熵主要有三條性質:
- 單調性 。發生概率越高的事件,其所攜帶的信息熵越低。比如一個真理的不確定性是極低的,那麼它所攜帶的信息熵就極低。
- 非負性 。信息熵不能為負。單純從邏輯層面理解,如果得知了某個信息後,卻增加了不確定性,這也是不合邏輯的。
- 可加性 。即多隨機事件同時發生存在的總不確定性的量度是可以表示為各事件不確定性的量度的和。

若兩事件A和B同時發生,兩個事件相互獨立。 p(X=A,Y=B) = p(X = A)*p(Y=B) , 那麼信息熵為 H(A,B) = H(A) + H(B) 。但若兩事件不相互獨立,那麼 H(A,B) = H(A) + H(B) - I(A,B) 。其中 I(A,B) 是互信息( mutual information,MI ),即一個隨機變數包含另一個隨機變數信息量的度量。即已知X的情況下,Y的分布是否會改變。

可以理解為,兩個隨機變數的互信息度量了兩個變數間相互依賴的程度。X 和 Y的互信息可以表示為:
I(X;Y) = H(X) - H(X|Y)
H(X)是X的信息熵,H(X|Y)是已知Y的情況下,X的信息熵。結果的單位是比特。
簡單來說,互信息的性質為:
- I(X;Y)>=0 互信息永遠不可能為負
- H(X) - H(X|Y) = I(X;Y) = I (Y;X) = H(Y) - H(Y|X) 互信息是對稱的
-當X,Y獨立的時候, I(X;Y) = 0 互信息值越大,兩變數相關性越強。
-當X,Y知道一個就能推斷另一個的時候, I(X;Y) = H(Y) = H(X)

在數據科學中,互信息常用於特徵篩選。在通信系統中互信息也應用廣泛。在一個點到點的通信系統中,發送信號為X,通過信道後,接收端接收到的信號為Y,那麼信息通過信道傳遞的信息量就是互信息 I(X,Y) 。根據這個概念,香農推導出信道容量(即臨界通信傳輸速率的值)。

信息增益( Information Gain )是用來按照一定規則劃分數據集後,衡量信息熵減少量的指數。

那數據集的信息熵又是怎麼計算的呢?比如一個常見的0,1二分類問題,我們可以計算它的熵為:
Entropy = -(p(0) * log(P(0)) + p(1) * log(P(1)))
當該數據集為50/50的數據集時,它的信息熵是最大的(1bit)。而10/90的數據集將會大大減少結果的不確定性,減小數據集的信息熵(約為0.469bit)。

這樣來說,信息熵可以用來表示數據集的純度( purity )。信息熵為0就表示該數據集只含有一個類別,純度最高。而較高的信息熵則代表較為平衡的數據集和較低的純度。

信息增益是提供了一種可以使用信息熵計算數據集經過一定的規則(比如決策樹中的一系列規則)進行數據集分割後信息熵的變化的方法。
IG(S,a) = H(S) - H(S|a)
其中,H(s) 是原數據集S的信息熵(在做任何改變之前),H(S|a)是經過變數a的一定分割規則。所以信息增益描述的是數據集S變換後所節省的比特數。

信息增益可以用做決策樹的分枝判斷方法。比如最常用CART樹( Classification and Regression Tree )中的分枝方法,只要在python中設置參數 criterion 為 「entropy」 即可。

信息增益也可以用作建模前的特徵篩選。在這種場景下,信息增益和互信息表達的含義相同,會被用來計算兩變數之間的獨立性。比如scikit-learn 中的函數 mutual_info_classiif()

信息增益在面對類別較少的離散數據時效果較好,但是面對取值較多的特徵時效果會有 偏向性 。因為當特徵的取值較多時,根據此特徵劃分得到的子集純度有更大的可能性會更高(對比與取值較少的特徵),因此劃分之後的熵更低,由於劃分前的熵是一定的,因此信息增益更大,因此信息增益比較偏向取值較多的特徵。舉一個極端的例子來說,如果一個特徵為身份證號,當把每一個身份證號不同的樣本都分到不同的子節點時,熵會變為0,意味著信息增益最大,從而該特徵會被演算法選擇。但這種分法顯然沒有任何實際意義。

這種時候,信息增益率就起到了很重要的作用。
gR(D,A)=g(D,A)/HA(D)
HA(D) 又叫做特徵A的內部信息,HA(D)其實像是一個衡量以特徵AA的不同取值將數據集D分類後的不確定性的度量。如果特徵A的取值越多,那麼不確定性通常會更大,那麼HA(D)的值也會越大,而1/HA(D)的值也會越小。這相當於是在信息增益的基礎上乘上了一個懲罰系數。即 gR(D,A)=g(D,A)∗懲罰系數 。

在CART演算法中,基尼不純度表示一個隨機選中的樣本被分錯類別的可能性,即這個樣本被選中的概率乘以它被分錯的概率。當一個節點中所有樣本均為一種時(沒有被分錯的樣本),基尼不純度達到最低值0。

舉例來說,如果有綠色和藍色兩類數據點,各佔一半(藍色50%,綠色50%)。那麼我們隨機分類,有以下四種情況:
-分為藍色,但實際上是綠色(❌),概率25%
-分為藍色,實際上也是藍色(✔️),概率25%
-分為綠色,實際上也是綠色(✔️),概率25%
-分為綠色,但實際上是藍色(❌),概率25%
那麼將任意一個數據點分錯的概率為25%+25% = 50%。基尼不純度為0.5。

在特徵選擇中,我們可以選擇加入後使數據不純度減少最多的特徵。

噪音數據簡單來說就是會對模型造成誤導的數據。分為類別雜訊( class noise 或 label noise )和 變數雜訊( attribute noise )。類別雜訊指的的是被錯誤標記的錯誤數據,比如兩個相同的樣本具有不同的標簽等情況。變數雜訊指的是有問題的變數,比如缺失值、異常值和無關值等。

決策樹其實是一種圖結構,由節點和邊構成。
-根節點:只有出邊沒有入邊。包含樣本全集,表示一個對樣本最初的判斷。
-內部節點:一個入邊多個出邊。表示一個特徵或是屬性。每個內部節點都是一個判斷條件,包含數據集中從根節點到該節點所有滿足條件的數據的集合。
-葉節點:一個入邊無出邊。表示一個類,對應於決策結果。

決策樹的生成主要分為三個步驟:
1. 節點的分裂 :當一個節點不夠純(單一分類佔比不夠大或者說信息熵較大)時,則選擇將這一節點進行分裂。
2. 決策邊界的確定 :選擇正確的決策邊界( Decision Boundary ),使分出的節點盡量純,信息增益(熵減少的值)盡可能大。
3. 重復及停止生長 :重復1,2步驟,直到純度為0或樹達到最大深度。為避免過擬合,決策樹演算法一般需要制定樹分裂的最大深度。到達這一深度後,即使熵不等於0,樹也不會繼續進行分裂。

下面以超級知名的鳶尾花數據集舉例來說明。
這個數據集含有四個特徵:花瓣的長度( petal length )、花瓣的寬度( petal width )、花萼的長度( sepal length )和花萼的寬度( sepal width )。預測目標是鳶尾花的種類 iris setosa, iris versicolor 和 iris virginica 。

建立決策樹模型的目標是根據特徵盡可能正確地將樣本劃分到三個不同的「陣營」中。

根結點的選擇基於全部數據集,使用了貪婪演算法:遍歷所有的特徵,選擇可以使信息熵降到最低、基尼不純度最低的特徵。

如上圖,根節點的決策邊界為' petal width = 0.8cm '。那麼這個決策邊界是怎麼決定的呢?
-遍歷所有可能的決策邊界(需要注意的是,所有可能的決策邊界代表的是該子集中該特徵所有的值,不是以固定增幅遍歷一個區間內的所有值!那樣很沒有必要的~)
-計算新建的兩個子集的基尼不純度。
-選擇可以使新的子集達到最小基尼不純度的分割閾值。這個「最小」可以指兩個子集的基尼不純度的和或平均值。

ID3是最早提出的決策樹演算法。ID3演算法的核心是在決策樹各個節點上根據 信息增益 來選擇進行劃分的特徵,然後遞歸地構建決策樹。
- 缺點
(1)沒有剪枝
(2)只能用於處理離散特徵
(3)採用信息增益作為選擇最優劃分特徵的標准,然而信息增益會偏向那些取值較多的特徵(例如,如果存在唯一標識屬性身份證號,則ID3會選擇它作為分裂屬性,這樣雖然使得劃分充分純凈,但這種劃分對分類幾乎毫無用處。)

C4.5 與ID3相似,但對ID3進行了改進:
-引入「悲觀剪枝」策略進行後剪枝
-信息增益率作為劃分標准
-將連續特徵離散化,假設 n 個樣本的連續特徵 A 有 m 個取值,C4.5 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點,分別計算以該劃分點作為二元分類點時的信息增益,並選擇信息增益最大的點作為該連續特徵的二元離散分類點;
-可以處理缺失值

對於缺失值的處理可以分為兩個子問題:
(1)在特徵值缺失的情況下進行劃分特徵的選擇?(即如何計算特徵的信息增益率)
C4.5 中對於具有缺失值特徵,用沒有缺失的樣本子集所佔比重來折算;
(2)選定該劃分特徵,對於缺失該特徵值的樣本如何處理?(即到底把這個樣本劃分到哪個結點里)
C4.5 的做法是將樣本同時劃分到所有子節點,不過要調整樣本的權重值,其實也就是以不同概率劃分到不同節點中。

(1)剪枝策略可以再優化;
(2)C4.5 用的是多叉樹,用二叉樹效率更高;
(3)C4.5 只能用於分類;
(4)C4.5 使用的熵模型擁有大量耗時的對數運算,連續值還有排序運算;
(5)C4.5 在構造樹的過程中,對數值屬性值需要按照其大小進行排序,從中選擇一個分割點,所以只適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時,程序無法運行。

可以用於分類,也可以用於回歸問題。CART 演算法使用了基尼系數取代了信息熵模型,計算復雜度更低。

CART 包含的基本過程有 分裂,剪枝和樹選擇
分裂 :分裂過程是一個二叉遞歸劃分過程,其輸入和預測特徵既可以是連續型的也可以是離散型的,CART 沒有停止准則,會一直生長下去;
剪枝 :採用「代價復雜度」剪枝,從最大樹開始,每次選擇訓練數據熵對整體性能貢獻最小的那個分裂節點作為下一個剪枝對象,直到只剩下根節點。CART 會產生一系列嵌套的剪枝樹,需要從中選出一顆最優的決策樹;
樹選擇 :用單獨的測試集評估每棵剪枝樹的預測性能(也可以用交叉驗證)。

(1)C4.5 為多叉樹,運算速度慢,CART 為二叉樹,運算速度快;
(2)C4.5 只能分類,CART 既可以分類也可以回歸;
(3)CART 使用 Gini 系數作為變數的不純度量,減少了大量的對數運算;
(4)CART 採用代理測試來估計缺失值,而 C4.5 以不同概率劃分到不同節點中;
(5)CART 採用「基於代價復雜度剪枝」方法進行剪枝,而 C4.5 採用悲觀剪枝方法。

(1)決策樹易於理解和解釋,可以可視化分析,容易提取出規則
(2)可以同時處理分類型和數值型數據
(3)可以處理缺失值
(4)運行速度比較快(使用Gini的快於使用信息熵,因為信息熵演算法有log)

(1)容易發生過擬合(集成演算法如隨機森林可以很大程度上減少過擬合)
(2)容易忽略數據集中屬性的相互關聯;
(3)對於那些各類別樣本數量不一致的數據,在決策樹中,進行屬性劃分時,不同的判定準則會帶來不同的屬性選擇傾向。

寫在後面:這個專輯主要是本小白在機器學習演算法學習過程中的一些總結筆記和心得,如有不對之處還請各位大神多多指正!(關於決策樹的剪枝還有很多沒有搞懂,之後弄明白了會再單獨出一篇總結噠)

參考資料鏈接:
1. https://machinelearningmastery.com/what-is-information-entropy/
2. https://zhuanlan.hu.com/p/29679277
3. https://machinelearningmastery.com/information-gain-and-mutual-information/
4. https://victorzhou.com/blog/gini-impurity/
5. https://sci2s.ugr.es/noisydata
6. https://towardsdatascience.com/understanding-decision-trees-once-and-for-all-2d891b1be579
7. https://blog.csdn.net/weixin_36586536/article/details/80468426
8. https://zhuanlan.hu.com/p/85731206

F. 機器學習故事匯-決策樹演算法

機器學習故事匯-決策樹演算法
【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習,適合對數學很頭疼的同學們,小板凳走起!

決策樹模型是機器學習中最經典的演算法之一啦,用途之廣泛我就不多吹啦,其實很多機器學習演算法都是以樹模型為基礎的,比如隨機森林,Xgboost等一聽起來就是很牛逼的演算法(其實用起來也很牛逼)。
首先我們來看一下在上面的例子中我想根據人的年齡和性別(兩個特徵)對5個人(樣本數據)進行決策,看看他們喜不喜歡玩電腦游戲。首先根據年齡(根節點)進行了一次分支決策,又對左節點根據性別進行了一次分支決策,這樣所有的樣本都落到了最終的葉子節點,可以把每一個葉子節點當成我們最終的決策結果(比如Y代表喜歡玩游戲,N代表不喜歡玩游戲)。這樣我們就通過決策樹完成了非常簡單的分類任務!

再來看一下樹的組成,主要結構有根節點(數據來了之後首先進行判斷的特徵),非葉子節點(中間的一系列過程),葉子節點(最終的結果),這些都是我們要建立的模塊!

在決策中樹中,我們剛才的喜歡玩電腦游戲的任務看起來很簡單嘛,從上往下去走不就OK了嗎!但是難點在於我們該如何構造這棵決策樹(節點的選擇以及切分),這個看起來就有些難了,因為當我們手裡的數據特徵比較多的時候就該猶豫了,到底拿誰當成是根節點呢?

這個就是我們最主要的問題啦,節點究竟該怎麼選呢?不同的位置又有什麼影響?怎麼對特徵進行切分呢?一些到這,我突然想起來一個段子,咱們來樂呵樂呵!

武林外傳中這個段子夠我笑一年的,其實咱們在推導機器學習演算法的時候,也需要這么去想想,只有每一步都是有意義的我們才會選擇去使用它。回歸正題,我們選擇的根節點其實意味著它的重要程度是最大的,相當於大當家了,因為它會對數據進行第一次切分,我們需要把最重要的用在最關鍵的位置,在決策樹演算法中,為了使得演算法能夠高效的進行,那麼一開始就應當使用最有價值的特徵。

接下來咱們就得嘮嘮如何選擇大當家了,我們提出了一個概念叫做熵(不是我提出的。。。穿山甲說的),這里並不打算說的那麼復雜,一句話解釋一下,熵代表你經過一次分支之後分類的效果的好壞,如果一次分支決策後都屬於一個類別(理想情況下,也是我們的目標)這時候我們認為效果很好嘛,那熵值就很低。如果分支決策後效果很差,什麼類別都有,那麼熵值就會很高,公式已經給出,log函數推薦大家自己畫一下,然後看看概率[0,1]上的時候log函數值的大小(你會豁然開朗的)。

不確定性什麼時候最大呢?模稜兩可的的時候(就是你猶豫不決的時候)這個時候熵是最大的,因為什麼類別出現的可能性都有。那麼我們該怎麼選大當家呢?(根節點的特徵)當然是希望經過大當家決策後,熵值能夠下降(意味著類別更純凈了,不那麼混亂了)。在這里我們提出了一個詞叫做信息增益(就當是我提出的吧。。。),信息增益表示經過一次決策後整個分類後的數據的熵值下降的大小,我們希望下降越多越好,理想情況下最純凈的熵是等於零的。

一個栗子:准備一天一個哥們打球的時候,包括了4個特徵(都是環境因素)以及他最終有木有去打球的數據。
第一個問題:大當家該怎麼選?也就是我們的根節點用哪個特徵呢?

一共有4個特徵,看起來好像用誰都可以呀,這個時候就該比試比試了,看看誰的能力強(使得熵值能夠下降的最多)

在歷史數據中,首先我們可以算出來當前的熵值,計算公式同上等於0.940,大當家的競選我們逐一來分析,先看outlook這個特徵,上圖給出了基於天氣的劃分之後的熵值,計算方式依舊同上,比如outlook=sunny時,yes有2個,no有三個這個時候熵就直接將2/5和3/5帶入公式就好啦。最終算出來了3種情況下的熵值。

再繼續來看!outlook取不同情況的概率也是不一樣的,這個是可以計算出來的相當於先驗概率了,直接可以統計出來的,這個也需要考慮進來的。然後outlook競選大當家的分值就出來啦(就是信息增益)等於0.247。同樣的方法其餘3個特徵的信息增益照樣都可以計算出來,誰的信息增益多我們就認為誰是我們的大當家,這樣就完成了根節點的選擇,接下來二當家以此類推就可以了!

我們剛才給大家講解的是經典的ID3演算法,基於熵值來構造決策樹,現在已經有很多改進,比如信息增益率和CART樹。簡單來說一下信息增益率吧,我們再來考慮另外一個因素,如果把數據的樣本編號當成一個特徵,那麼這個特徵必然會使得所有數據完全分的開,因為一個樣本只對應於一個ID,這樣的熵值都是等於零的,所以為了解決這類特徵引入了信息增益率,不光要考慮信息增益還要考慮特徵自身的熵值。說白了就是用 信息增益/自身的熵值 來當做信息增益率。

我們剛才討論的例子中使用的是離散型的數據,那連續值的數據咋辦呢?通常我們都用二分法來逐一遍歷來找到最合適的切分點!

下面再來嘮一嘮決策樹中的剪枝任務,為啥要剪枝呢?樹不是好好的嗎,剪個毛線啊!這個就是機器學習中老生常談的一個問題了,過擬合的風險,說白了就是如果一個樹足夠龐大,那麼所有葉子節點可能只是一個數據點(無限制的切分下去),這樣會使得我們的模型泛化能力很差,在測試集上沒辦法表現出應有的水平,所以我們要限制決策樹的大小,不能讓枝葉太龐大了。

最常用的剪枝策略有兩種:
(1)預剪枝:邊建立決策樹邊開始剪枝的操作
(2)後剪枝:建立完之後根據一定的策略來修建
這些就是我們的決策樹演算法啦,其實還蠻好的理解的,從上到下基於一種選擇標准(熵,GINI系數)來找到最合適的當家的就可以啦!

G. 關於推薦演算法未來的思考:推薦詩與遠方

2021年8月27日,國家互聯網信息辦公室發布了關於《互聯網信息服務演算法推薦管理規定(徵求意見稿)》公開徵求意見的通知。

其中第十五條規定:

這從國家層面再次引發了大家對於推薦演算法的本質的思考。

信息繭房(Information Cocoon)是哈佛大學教授桑斯坦(Cass R. Sunstein)在2006年出版的《信息烏托邦》(Infotopia)一書中提出的概念。這個概念的意思是:

這個概念一經提出,就迅速引起轟動。支持和反對的聲音都不絕於耳,甚至這個話題被寫進了2020年江蘇省高考語文作文題目中:

反對信息繭房論者,比如有文章將這種思想歸結為人類對於技術的恐懼。
比如,文中說:

如果這個邏輯成立的話,我們可以說,因為喜愛高油高熱量高糖的食物,我們的食堂就只提供這些食物就好了。

尼采認為,生命的本質就是追求權力意志(will to power)。但是,人類也是存在弱點的,可以通過一些手段壓抑人類的權力意志。比如催眠,機械性重復的活動,微小的快樂,群體認同,讓某些情感過度發展等。

宗教曾經做到過這些,使西方經過了上千年的中世紀。今天的網路游戲也可以做到其中的很多點,我們不能說因為宗教當年就是這樣壓抑人性的,所以網游這么做也是好的。

1775年,美國獨立宣言起草者之一的帕特里克·亨利在弗吉尼亞州會議的演講上講出了著名的那句"Give me liberty or give me death",不自由,毋寧死。

那麼,人是不是自由的呢?
讓我們把時間推回原點,當人出生的時候,他或她沒有權利選擇自己的性別、父母、民族、家庭、國家,用海德格爾的話來說,人是被「拋」入這個世界的。
出生了之後,人類也是無法離開他人獨立生存的,小時候是,長大之後仍然是。為了跟他人共同生存,就不得不受他人的影響。人總是在這種或那種處境中操勞。
我們所處的環境,就像一張大網,把我們困在其中。跟別人的交流、書籍、報紙、廣播、電視、互聯網上的信息也不斷地影響著我們的想法。為廣告、媒體、電子商務服務的推薦演算法,正是這大網中提供能力增強的一部分。
這種受到別人的很大影響,而缺乏自我思考的狀態,海德格爾稱為「常人」。人們處於「常人」狀態而不自知的這種狀態,海德格爾稱之為「沉淪」。

最基礎的推薦演算法叫做「協同過濾」。分為基於商品的協同過濾,也就是你買了商品A,就推薦相似的商品B給你;以及基於用戶的協同過濾,也就是說你和朋友C的喜好相似,他買了商品D,那麼也將商品D推薦給你。
舉例來說,你買了辛拉麵,就推薦相似的韓式火雞面給你。
再比如,你和雷姆老師的喜好相似,比如你們都喜歡喝可樂。現在發現雷姆老師喜歡吃火鍋,那就推薦你也吃火鍋。

將這個原理做得更復雜一些,比如我們可以寫成下面的公式:

但是不管表示起來如何復雜,本質上推薦演算法所做的事情就是大網的一部分,讓人沉淪於自己或者別人的興趣的計算結果之中。

看到上面的結論,有些同學覺得不對。學過演算法的同學都知道BandIt,在利用與探索中尋找平衡。你說我用推薦演算法來網住你,我給你增加隨機性總該可以了吧?
還有的同學認為,人生來就是有好奇心的,好奇心會讓我們突破大網,找到更廣闊的世界,打破這個限制。

那麼我們不提哲學理論了,就從大家最常見的刷手機的場景上來說。比如休息一天在家刷手機,看短視頻,看小說,追劇,看八卦新聞,打手機游戲。這樣的一天度過了之後,躺在床上如果不能入睡的話你會感覺到什麼,是充實,還是空虛?
我們在生活中也會遇到很多人好奇心很強,知道的東西很多,但是卻沒有什麼很精通的東西。
這是因為,好奇心確實是人類探索未知世界的有力武器,但是光有好奇還不行,人類的默認模式是注意力渙散,興趣點很快從一個事物迅速跳到另一個事物上。
就像仙劍中靈兒的那首小詩:「今日種種,似水無痕。明夕何夕,君已陌路」。

我們知道,人類是個視覺動物。觀察人類的視線就可以看到,眼睛正常是不會盯著同一個地方一直看的。眼珠不動的反而可能是視障人士。
這種沒有思考的好奇心,會讓我們的生活消散在一片虛無之中,如無根之浮萍,沒有根基,最終回歸沉淪之中。

法國哲學家薩特認為,人類的本質就是虛無。人有無限種潛在的可能性,但是人類的天性是希望尋找確定性而非可能性。人類可以通過佔有物品,比如買東西去獲得一種確定性的感受,但是有限的、固定不變的東西沒有辦法填滿無限的可能性。
這也是從哲學上對於現有的推薦演算法無法滿足人類的需求的解釋。

最後,因為沉淪,因為不願意獨立思考,人們也不願意做決策,更不願意承擔決策的後果。推薦演算法可以幫助人們逃避決策,繼續沉淪。
這當然談不上有多負面,但是也談不上有多正面。

那麼,問題來了,這也不行,那也不行,那到底該怎麼辦?

答案是像《勇敢的心》里的威廉.華萊士一樣,通過思考,追求自由,從沉淪中覺醒出來,進入一種稱為「本真」的狀態。

在沉淪狀態下,我們其實是放棄了自由,把決定自己生存的決斷交給流行的意見和習俗。
本真的生存狀態並不是要標新立異,跟流行對著干,那其實仍然是一種沉淪的狀態。而是理解我們生來是有自由決斷和選擇權的。縱然受到各種限制,縱然要承受決斷帶來的後果,那就對不起自己的良心。這不是因為我們不能做,而是我們明明能做但是沒有做,自己沒有對自己的生存負責。

那麼是不是理解了這個道理,我們就可以過好這一生了呢?
哪有那麼容易!你太小看常人狀態的力量了。這種生來就伴隨著我們的巨大慣性和旋渦一樣裹挾著我們,想逃出去的可能性非常小。

得多強的力量才能像成為地球衛星的第一宇宙速度一樣飛上太空呢?可能只有到了生命的盡頭才能明悟,所謂「人之將死,其言也善」。
在那樣的時刻,人們才能真正發現,自己要死了,但是平時沉淪所在的世界並不會跟自己一起去死。這是將某個人和常人環境分離的一個突破口。在這一時刻,人後悔想做而沒有做的事情,跟別人的期望、其他人的看法等終於完全沒有關系了,這一個,人終於成為了自己。
人的個體性和無可替代性終於從常人的狀態中脫離出來。
試問,現有的推薦演算法能夠推薦出滿足本真狀態需求的東西么?推薦的結果本身也隨著沉淪態一起被分離出去了。

那麼,有沒有辦法不等到最後一刻才能進入本真的狀態?
美國作家薩洛揚說:「每個人都會死,但是我總以為自己不會」。這是沉淪狀態的常態。但是如果我們能夠直面死亡,真真切切地去用心體會對於自己將要死亡的感受,保持對於死亡的「畏」的狀態,我們就有可能進入到本真的狀態。
但是,懂得了進入本真的方法,仍然不見得能過好一生,因為本真的狀態可能只存在一瞬間,你馬上又被常人狀態拉回到沉淪之中。

盡管回到了沉論,但是良心的種子已經在慢慢生根發芽。你就有更多的機會跳出沉淪,去反思什麼才是真正你這個個體所想要的。

當然,通過反思悟到脫離沉淪狀態的方法不止「向死而生」這一種。比如針對似水無痕的好奇心,對於死亡之畏,你悟到的是「無無明,亦無無明盡,乃至無老死,亦無老死盡。無苦集滅道,無智亦無得」。那麼你一樣可以擺脫沉淪狀態,但不是進入本真狀態,而是「遠離顛倒夢想,究竟涅磐」了。

有同學講了,我看你這篇文章是想看推薦演算法的思考,你跟我講向死而生有什麼用,這是靠人自己思考和反思的,推薦演算法能幫上什麼忙?光推薦,人不反思,還是會一直沉淪下去啊。

幸好除了完全脫離沉淪回歸本真的方法之外,我們還有在沉淪中打開一扇看到另外的世界的窗口,這就是詩歌、藝術與自然的召喚,我們統一稱做「詩與遠方」。

脫離沉淪可以認為是離開黑暗進入光明,而詩與遠方就像是夜空中明亮的心,同樣可以給沉淪中的我們帶來不指引。

當海德格爾在思考沉論的時候,他看到了被人遺忘了100多年的德國詩人荷爾德林的詩:《人,詩意的棲居》

無獨有偶,當存在主義的思潮逐漸散去,新時代運動興起,西方人民在尋找心靈渴望的源泉的時候,找到的是700多年前伊斯蘭教蘇菲派詩人魯米的詩。
2007年,聯合國教科文組織將這一年定為「國際魯米年」,以紀念魯米誕辰800周年。

比如這首:

語言可以揭示存在,同時又很容易遮蔽存在。當我們使用一套慣用的語言,很多觀念就變成了現成的、理所當然的,從而讓人陷入沉淪,讓存在本身被遮蔽和遺忘。而詩歌就是揭示存在,讓讀者進入澄明的蟲洞的入口。

同詩歌一樣,海德格爾認為,每一件偉大的藝術作品都在混沌一片的沉淪狀態下照亮了一片場域,也讓觀看者同時進入澄明無蔽的真實之境。
我個人認為,作為人類心靈歸宿的大自然,也起到同樣的澄明作用。

那麼我們的推薦演算法呢?是不是也能照亮一片場域,澄明一塊無蔽的真實之境?讓用戶在沉淪中能夠找到本真自我的真實的需求?

新的推薦演算法,應該具有下面的幾個特徵:

最後,讓我們引入一小段魯米的話來作為結束:

演算法不能只推薦眼前的苟且,還要像詩與遠方一樣澄明一片場域的遮蔽。

H. 決策樹演算法總結

目錄

一、決策樹演算法思想

二、決策樹學習本質

三、總結

一、決策樹(decision tree)演算法思想:

決策樹是一種基本的分類與回歸方法。本文主要討論分類決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特徵對實例進行分類的過程。 它可以看做是if-then的條件集合,也可以認為是定義在特徵空間與類空間上的條件概率分布 。決策樹由結點和有向邊組成。結點有兩種類型:內部結點和葉結點,內部結點表示一個特徵或屬性,葉結點表示一個類。(橢圓表示內部結點,方塊表示葉結點)

         決策樹與if-then規則的關系

決策樹可以看做是多個if-then規則的集合。將決策樹轉換成if-then規則的過程是:由決策樹的根結點到葉結點的每一條路徑構建一條規則;路徑上的內部結點的特徵對應著規則的條件,而葉結點的類對應著規則的結論。決策樹的路徑或其對應的if-then規則集合具有一個重要的性質:互斥且完備。這就是說,每一個實例都被一條路徑或一條規則所覆蓋,且只被一條路徑或一條規則所覆蓋。這里的覆蓋是指實例的特徵與路徑上的特徵一致或實例滿足規則的條件。

         決策樹與條件概率分布的關系

決策樹還表示給定特徵條件下類的條件概率分布。這一條件概率分布定義在特徵空間的一個劃分上。將特徵空間劃分為互不相交的單元或區域,並在每個單元定義一個類的概率分布,就構成一個條件概率分布。決策樹的一條路徑對應於劃分中的一個單元。決策樹所表示的條件概率分布由各個單元給定條件下類的條件概率分布組成。

         決策樹模型的優點

決策樹模型具有可讀性,分類速度快。學習時,利用訓練數據,根據損失函數最小化原則建立決策樹模型;預測時,對新的數據,利用決策樹模型進行分類 。

二、決策樹學習本質:

決策樹學習是從訓練數據集中歸納一組分類規則、與訓練數據集不相矛盾的決策樹可能有多個,也可能一個沒有。我們需要訓練一個與訓練數據矛盾較小的決策樹,同時具有很好的泛化能力。從另一個角度看 決策樹學習是訓練數據集估計條件概率模型 。基於特徵空間劃分的類的條件概率模型有無窮多個。我們選擇的條件概率模型應該是不僅對訓練數據有很好的擬合,而且對未知數據有很好的預測。 決策樹的學習使用損失函數表示這一目標,通常的損失函數是正則化的極大似然函數。決策樹的學習策略是以損失函數為目標函數的最小化。當損失函數確定後,決策樹學習問題變為損失函數意義下選擇最優決策樹的問題。這一過程通常是一個遞歸選擇最優特徵,並根據特徵對訓練數據進行分割,使得對各個子數據集有一個最好分類的過程。這一過程對應著特徵選擇、決策樹的生成、決策樹的剪枝。

         特徵選擇 : 在於選擇對訓練數據具有分類能力的特徵,這樣可以提高決策樹的學習效率。

         決策樹的生成 : 根據不同特徵作為根結點,劃分不同子結點構成不同的決策樹。

         決策樹的選擇 :哪種特徵作為根結點的決策樹信息增益值最大,作為最終的決策樹(最佳分類特徵)。

         信息熵 : 在資訊理論與概率統計中,熵是表示隨機變數不確定性的度量。設X是一個取有限個值的離散隨機變數,其概率分布為P(X= ) = ,i=1,2,3...n,則隨機變數X的熵定義為

        H(X) =  —  ,0 <=  H(X) <= 1,熵越大,隨機變數的不確定性就越大。

        條件熵(Y|X) : 表示在已知隨機變數X的條件下隨機變數Y的不確定性。

         信息增益  : 表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度。

        信息增益  = 信息熵(父結點熵 ) — 條件熵(子結點加權熵)

三、 總結 :

        優點

        1、可解釋性高,能處理非線性的數據,不需要做數據歸一化,對數據分布沒有偏好。

        2、可用於特徵工程,特徵選擇。

        3、可轉化為規則引擎。

        缺點

        1、啟發式生成,不是最優解。

        2、容易過擬合。

        3、微小的數據改變會改變整個數的形狀。

        4、對類別不平衡的數據不友好。

I. 演算法管理:組織管理轉型、企業高效決策的制勝利器

以下文章來源於蜜蜂學堂

「小李,你本周的表現非常出色。您的銷售額增長了70%,從而幫助你的團隊在排行榜中取得第一的好成績。但是你仍然有很多開放的機會,所以請繼續努力哦!」 

接收績效反饋有助於員工成長,它鼓勵學習並獎勵良好的表現。  但是,如果是演算法提供反饋而不是人,該怎麼辦?這就是組織中演算法管理的基礎。

什麼是演算法管理?

演算法管理是通過演算法對員工進行戰略跟蹤、評估和管理。組織通過演算法接管了過去由管理者執行的任務。

這種管理創新在零工經濟中尤為常見。 例如,Uber,Deliveroo和UpWork之類的平台使用演算法來管理和密切監視其全球員工。

演算法給員工分配任務並評估其績效。他們還提供反饋和有關如何提高績效的建議。

但是,使用演算法管理員工慢慢地不再局限於零工經濟。傳統組織越來越發現提高效率和以數據為依據的決策的好處。

大數據和自動化已成為大多數業務部門變革的首要方向,而人力資源部門也將其重點放在了數據驅動的決策上。

人力資源中使用的演算法可以提高效率,甚至勝過人類的決策制定。 實際上,根據普華永道的研究報告,跨國公司中已有40%的人力資源部門使用基於AI的工具 (相關報告可以私聊我獲取)。

例如,演算法的使用在員工選拔中變得非常普遍,該演算法被用於簡歷篩選,使求職者與職位匹配之中。

他們正在通過自然語言處理來分析視頻面試中的面部表情或申請人的書面申請中所體現的動機。此外,演算法還向員工和經理提供關於績效方面的反饋。

隨著演算法在組織決策中的影響力越來越大,這樣就容易導致一個問題:利用演算法的決策是否具備相應的客觀性和准確性?

像其它輔助決策的技術一樣,演算法決策也是一把雙刃劍,它會帶來一系列的挑戰。

• 求職者會如何看待一家通過機器自動完成部分面試和人員選拔過程的公司?

• 員工對自動績效反饋有何反應(反饋不再來源於直接上級)?員工在多大程度上會接受這類反饋?

• 管理者在多大程度上會依賴演算法做出的決策?

事實是:實施演算法會改變組織和人際關系的動態。  因此,必須仔細研究演算法管理的優勢和挑戰,並搞清楚組織實現演算法管理的最佳做法。

我們將在下面詳細討論在您的組織中實施演算法管理的建議。

01

組織實施演算法管理的三大優勢

1.啟動組織績效

提高生產率和工作效率是演算法管理的最重要優勢之一。例如,一個小時內,比較演算法與一個招聘人員可以掃描的簡歷數?

結果是:演算法基本能把人類招聘者按在地上摩擦,兩者之間的差異巨大,這樣可以幫助公司在人才競爭中保持領先地位。

將手動的任務轉變為自動化,將為管理人員騰出更多的時間和資源,以專注於有更高戰略影響力的任務,從而幫助提高組織績效。 未能將分析和人工智慧集成到其戰略事務中的公司將面臨落後他人的風險。

歐萊雅集團,是一間總部位於法國巴黎的皮膚護理、化妝品公司,在全球擁有80000名員工,每個職位空缺平均會收到130份職位申請。

歐萊雅每年開放約15000個職位,需要處理近百萬份申請,因此其開始嘗試利用AI技術幫助招聘人員擺脫令人頭痛的簡歷篩選工作。

Mya是一款聊天機器人,它能夠處理候選人提出的問題,從而在招聘早期幫助歐萊雅節約大量寶貴的時間。 此外,它還能夠檢查各項重要細節,例如求職者是否尚未找到工作,以及簽證的當前狀態等。

接下來,求職者需要面對Seedlink,這款AI軟體負責評估他們在開放式面試問題中給出的答案。 這款工具能夠找到在簡歷評審過程中被忽略的求職者。

該公司招聘人員表示,在一次從12000名候選人中選出80名實習生的過程中,該軟體幫助他們節約了200個小時的工作時間。AI技術幫助歐萊雅能夠更快地招聘10倍的員工,並增加25%的求職者面試機會。

2.改善管理決策和遠程管理

近年來,基於證據和數據驅動的決策已變得越來越普遍。演算法可以幫助處理管理者每天面對的日益復雜的問題。演算法系統的數據處理能力遠遠超出了人類的能力范圍。

他們可以考慮所有相關數據並排除不相關因素。這樣就可以進行客觀、公正、數據驅動的決策。而且,它可以減少決策過程中的偏見。

例如,認知偏見可能會導致零售商相信需要對其員工進行不穩定的安排。零售中不穩定的安排是指零售商通過工作計劃的變化來減少人工成本。

許多零售商認為這種類型的計劃是有效的,因為他們看到了直接的短期收益(例如削減工資),卻忽略了長期的負面影響(例如對客戶服務的影響)。

在這里,可以根據客戶流量和其他數據預測人員需求的演算法開始發揮作用。 研究表明,「將演算法與管理者的直覺相結合可以導致更好的人員配置決策」。

演算法對於遠程辦公也可能是有益的。勞動力將變得越來越分散,在某種程度上,遠程和混合辦公將成為常態。

這可能給員工帶來巨大的好處。但是,管理人員可能很難跟上員工的進度和績效。 績效監控演算法可能是成功進行遠程管理的重要工具。

3.接收個性化的見解和反饋

演算法管理不僅為管理人員帶來好處,而且為員工帶來好處。演算法可以提供個性化的績效反饋。

Deliveroo向其快遞員發送個性化的月度績效報告。 他們獲得有關其平均「接受訂單時間」,「到餐廳的路程時長」,「到客戶處的路程時間」以及演算法跟蹤的其他指標的信息。

演算法可以洞察員工的工作進度、待辦事項和開展的項目。它們還用於改善員工的福祉。 這種演算法分析員工的需求和目標,並推薦培訓和發展計劃。

演算法還可以跟蹤和評估對員工的福祉和動力最重要的因素,在此基礎上,他們可以就如何提高員工福利向管理人員提供建議。

02

組織運用演算法管理的三個最重要的挑戰

1. 關於演算法管理的倫理問題

除了演算法管理的好處之外,還有幾個重要的倫理問題。

演算法的主要目標是改進決策,使決策更加客觀公正。然而,情況可能恰恰相反,由於演算法可以消除或減少決策過程中的人工干預,因此,人們可能認為演算法是不公平的。

主要的關注點是演算法所依據的數據。在樣本數據上訓練演算法來預測事件並做出決策,因此,數據的質量是一個重要的因素。

例如,一個組織可以訓練一種關於歷史人才數據的演算法,在這些數據中,很少有女性擔任管理職位,然後,該演算法可能會做出預測:女性在公司管理崗位上取得成功的可能性較低。因此,女性可能被排除在組織的人才管理計劃之外。

演算法通常是在「黑箱」中操作,它們並不透明,而且演算法的工作精度通常也不清楚。這可能會對演算法的信任度提出挑戰,並為演算法的決策提出問責性問題。

美國一些州已經在研究演算法和人工智慧在招聘中的使用,以及如何確保它們的公平性和透明度。

紐約州正在立法,要求招聘技術供應商進行反偏見審計,並確保遵守就業歧視法。

伊利諾伊州頒布了 《人工智慧視頻面試法》 (AI Video Interview Act),對使用人工智慧分析應聘者視頻面試的公司施加了限制。

利用演算法管理不是一個是或否的問題。通常,只有部分決策是自動化的。 因此,公平和責任問題取決於公司在多大程度上依賴演算法決策。

真正的問題是:演算法的作用是增強還是完全自動化?你是用演算法來給你提供建議,還是用它來代替人類決策,這都是有區別的。

2. 演算法管理挑戰管理者和人力資源的角色

演算法管理減少或取代了不同流程中的人工參與和交互。這對管理者和人力資源構成了挑戰。當個人和同理心的一面消失後,員工管理會發生怎樣的變化?

管理者和人力資源從業者都需要適應演算法管理帶來的新動態,他們需要新的技能和能力,為負責任地使用演算法做准備。

管理者和人力資源管理者也需要採用(潛在的)員工的觀點。例如,當候選人不相信演算法能看出自己有多獨特時,招聘中使用的演算法可能會出現問題。

那麼,管理者和人力資源部門如何面對演算法管理運用後,帶來的自動化程度的提高和人際交往的減少呢?

他們如何成功地創造數據驅動文化的變革呢?所有這些都是人力資源和管理人員必須找到答案的問題。

3.演算法管理對員工福利的風險

演算法管理也可能對員工的福祉構成風險。一些人將實時行為跟蹤、反饋和評估與泰勒主義的監視進行了比較,演算法管理可以被視為對員工的一種侵入式控制形式。

這似乎也與賦予員工更多自主權、靈活工作和時間表的趨勢相沖突。公司必須密切關注員工對引入演算法管理的反應。

一些員工可能認為這是對他們心理安全和自主的威脅,這樣導致的結果是,由於引入演算法管理,員工的幸福感可能會下降。

例如,一家國際連鎖酒店使用軟體工具來管理客房服務員。他們需要不斷更新下一個要打掃的房間,該公司還能跟蹤他們打掃一個房間需要多長時間。

然而,工作人員指出,該演算法沒有考慮到他們工作的細微差別,使工作變得更加困難。 他們變得無法安排自己的一天,工作也變得更吃力,因為演算法「指揮著」他們「在酒店各個樓層里拚命的跑來跑去」。

03

實施演算法管理的建議

好消息是:在減少演算法管理挑戰的同時,也有可能獲得演算法管理的好處。 以下策略可以幫助管理者負責任地在組織中實施演算法管理。

1. 戰略

首先,確定演算法管理的使用程度是至關重要的。Gig平台完全依賴演算法管理,但對於更傳統的公司來說,這可能不是正確的解決方案。

因此,這不是非此即彼的問題,而是在哪裡、在什麼程度上的問題。

公司可以找出成本高且相對標准化的流程,並從那裡開始。在那裡,你可以期待演算法管理能獲得最大的收益。

在任何情況下,將演算法集成到業務和決策過程中都需要一個明確的戰略:確定它們是增強還是自動化人類決策。

2. 變革管理

在實施演算法管理時,考慮員工的福祉也很重要。在組織中引入演算法是一個實質性的轉變,變革管理的視角可能會很有幫助,主動的變革管理是引入演算法的決定性因素。

你需要確保已經做好變革的准備。通過幫助你的員工和經理理解演算法所增加的價值,可以讓他們准備好迎接變革。

人們也可能對演算法管理的引入感到威脅。這可能是由於缺少關於演算法管理的廣泛且深入的交流。

同樣,員工可能會擔心機器正在取代他們,為了克服這一點,在變革過程的早期就把員工和管理者納入進來是很重要的。建立開放的溝通渠道有助於解決人們所關心的問題。

這包括主動溝通數據的用途以及誰對演算法決策負責。它可以防止員工或管理者感到自己被蒙在鼓裡。

溝通和變革管理應該與培訓齊頭並進。培訓可以讓人們輕松地處理與演算法的關系,並移交決策。

如果人們不了解演算法是如何工作的,他們可能不想使用它。培訓員工和管理人員使用演算法所需的技能和能力是至關重要的。

3.不斷評估

最後,公司需要採用一種持續評估的文化。跟蹤演算法的執行情況的必要性。只有當決策是准確的、高質量的,人們才會接受演算法帶來的附加值。

並不是每一種演算法都能提高效率,所以監控其質量是很重要的。 這一變化對員工的影響也需要跟蹤,組織可以為員工提供表達關切和提供反饋的機會,特別是那些由演算法管理的員工。這為組織調整和改進演算法管理提供了有價值的信息。

演算法管理的好處以及它如何幫助企業在競爭中保持領先地位是顯而易見的。

演算法不僅能提高效率,還能增強決策能力。不過,這不應該以犧牲員工福祉為代價。

自動化執行的任務(比如提供反饋)代表了一個巨大的變化,但我們對把這種變化轉變成積極和可持續的事情具有主動權,管理者和人力資源需要在創造變革准備方面發揮重要作用。

沒有一刀切的方法,每個組織都需要仔細評估演算法的引入給他們帶來的好處和挑戰。

本文提出的策略可以幫助指導組織完成這一轉變。演算法管理的前景是巨大的。然而,有必要始終關注組織所擁有的最有價值的資產: 我們的員工。

了解更多: 方雲數字化創新績效,數據智能驅動創新型增長

J. 《互聯網信息服務演算法推薦管理規定》——科技向善

國家網信辦等四部門聯合發布的《互聯網信息服務演算法推薦管理規定》,將於明天(3月1日)起正式施行。《規定》要求演算法推薦服務提供者應當堅持主流價值導向,積極傳播正能量,建立完善人工干預和用戶自主選擇機制,不得利用演算法實施影響網路輿論、規避監督管理以及壟斷和不正當競爭行為。

在大數據時代里,看不見摸不著的演算法時刻影響著我們的決策,演算法推薦的初衷本來是好的,能根據用戶喜好推薦用戶所喜歡的東西。但也應該有度,比如大數據殺熟不應當出現,比如利用大數據推薦保健品,比如售賣個人信息。拿谷歌廣告來舉例,雖然谷歌也確實作惡,但廣告這點,相對國內廠商來說,已經非常克制了。用戶可以設置自己的年齡和性別,並且可以決定是否"少顯示」一些方面的廣告。來減少用戶的反感。《規定》的出台 開始保障大眾的隱私和數據。現在各大知名app過度推薦,轉化為導向,確實容易讓人沉迷網路。未成年人更不用說了。 社會 輿論和新媒體需多傳播正能量,保障 科技 向善。

閱讀全文

與限制決策演算法推薦演算法出口相關的資料

熱點內容
如何上網上設個人加密賬戶 瀏覽:38
linux打開ssh服務 瀏覽:74
微信位置可以加密嗎 瀏覽:466
演算法蠻力法 瀏覽:436
隨機排練命令 瀏覽:147
python多進程並發 瀏覽:41
安卓軟體安裝如何躲避安全檢測 瀏覽:647
奇幻潮翡翠台源碼百度雲盤 瀏覽:187
什麼軟體可以免費pdf轉word 瀏覽:15
php正則表達式大全 瀏覽:394
androidntp時間 瀏覽:299
輪機長命令簿英文 瀏覽:148
oppo鈴聲設置被加密怎麼處理 瀏覽:548
粵苗app圖形驗證碼怎麼填 瀏覽:899
管家婆架設雲伺服器 瀏覽:254
php的登錄界面代碼 瀏覽:997
php開發客戶端 瀏覽:998
theisle測試服怎麼搜伺服器 瀏覽:447
廣播PDF 瀏覽:218
單片機編程300例匯編百度 瀏覽:35