A. 决策树基本概念及算法优缺点
分类决策树模型是一种描述对实例进行分类的树形结构. 决策树由结点和有向边组成. 结点有两种类型: 内部结点和叶节点. 内部节点表示一个特征或属性, 叶节点表示一个类.
决策树(Decision Tree),又称为判定树, 是一种以树结构(包括二叉树和多叉树)形式表达的预测分析模型.
分类树--对离散变量做决策树
回归树--对连续变量做决策树
优点:
(1)速度快: 计算量相对较小, 且容易转化成分类规则. 只要沿着树根向下一直走到叶, 沿途的分裂条件就能够唯一确定一条分类的谓词.
(2)准确性高: 挖掘出来的分类规则准确性高, 便于理解, 决策树可以清晰的显示哪些字段比较重要, 即可以生成可以理解的规则.
(3)可以处理连续和种类字段
(4)不需要任何领域知识和参数假设
(5)适合高维数据
缺点:
(1)对于各类别样本数量不一致的数据, 信息增益偏向于那些更多数值的特征
(2)容易过拟合
(3)忽略属性之间的相关性
若一事假有k种结果, 对应概率为 , 则此事件发生后所得到的信息量I为:
给定包含关于某个目标概念的正反样例的样例集S, 那么S相对这个布尔型分类的熵为:
其中 代表正样例, 代表反样例
假设随机变量(X,Y), 其联合分布概率为P(X=xi,Y=yi)=Pij, i=1,2,...,n;j=1,2,..,m
则条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性, 其定义为X在给定条件下Y的条件概率分布的熵对X的数学期望
在Hunt算法中, 通过递归的方式建立决策树.
使用信息增益, 选择 最高信息增益 的属性作为当前节点的测试属性
ID3( Examples,Target_attribute,Attributes )
Examples 即训练样例集. Target_attribute 是这棵树要预测的目标属性. Attributes 是除目标属性外供学习到的决策树测试的属性列表. 返回能正确分类给定 Examples 的决策树.
class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
限制决策树层数为4的DecisionTreeClassifier实例
This plot compares the decision surfaces learned by a dcision tree classifier(first column), by a random forest classifier(second column), by an extra-trees classifier(third column) and by an AdaBoost classifier(fouth column).
Output:
A comparison of a several classifiers in scikit-learn on synthetic datasets.
The point of this examples is to illustrate the nature of decision boundaries of different classifiers.
Particularly in high-dimensional spaces, data can more easily be separated linearly and the simplicity of classifiers such as naive Bayes and linear SVMs might lead to better generalization than is achieved by other classifiers.
This example fits an AdaBoost decisin stump on a non-linearly separable classification dataset composed of two "Gaussian quantiles" clusters and plots the decision boundary and decision scores.
Output:
B. 什么是算法决策理论
决策是对未来的方向、目标以及实现途径做出决定的过程。它是指个人或集体为了达到或实现某一目标,借助一定的科学手段和方法,从若干备选方案中选择或综合成一个满意合理的方案。决策理论已经渗入到了生产、经济、工程和军事等各个领域中。例如在电子信息系统中,由于作战具有多目标、多批次、多方向、空海潜立体战的攻击形式的特点,攻击的隐蔽性、突然性、破坏性都比过去大为增强,这就要求决策系统发挥更加重要的作用:参战舰艇能尽早发现敌方目标;对来自各传感器的目标信息,能迅速进行识别、分类和决策,并向指挥员提供清晰、全面的作战态势;协助指挥员迅速、准确地确定作战决策方案,以控制各种武器打击目标。
目前,常见的决策支持算法为单目标决策方法、单人多目标决策模型和多目标群决策模型等。但是,它们都存在着一些缺点:单目标决策方法主要处理结构化问题,对于大多数的半结构化问题和非结构化问题难以发挥作用。单人多目标决策模型提出了在多目标下的决策支持理论,然而,在实际应用中很难将多个决策者之间的偏好结构反映到多目标决策模型中,特别是多个决策者之间存在相互冲突的偏好结构时更是如此。多目标群决策模型可以解决存在精确偏好问题的决策,但当得到的部分信息模糊,或偏好信息不精确时,此模型将无能为力。综合上面分析可以得到,需要找到一种决策支持算法,可以包含目前出现的各种信息决策情况。
将模糊集理论引入到多目标决策方法中,将两者相结合,可以有的放矢地解决上面提出的问题。
首先,可以行之有效地解决半结构化或非结构化问题。
其次,可以很好地解决多个决策者知识、偏好不完全一致的情况。
第三,引入模糊集理论,可以有效解决决策过程中出现的许多随机不确定模糊信息。
第四,将模糊集理论引入多目标决策当中,更符合电子信息系统的实际情况。
C. 推荐算法总结
一、协同过滤
基于用户协同过滤UserCF
基于物品协同过滤ItemCF
基于模型协同过滤Mode_based
基于用户和基于物品协同过滤都称为以记忆为基础的协同过滤技术,共同缺点是资料稀疏、难以处理大数据量下的即时结果,因此发展出基于模型的协同过滤
核心思想:
基于历史资料得到一个模型,再用此模型进行预测用户对物品的评分
二、聚类算法
三、分类算法:
主要思路:根据文本特征或属性,划分到已有的类别中。常用分类算法包括:决策树分类法、朴素的贝叶斯分类算法、基于支持向量机的分类器,神经网络法,K-最近邻法,模糊分类法
#朴素贝叶斯分类算法
D. 代码合规系列Vol.1:浅谈推荐算法合规
前言:
豆瓣评分曾达到9.4的科幻神剧《西部世界》,收获了无数粉丝的膝盖。在《西部世界》中,通过编程实现的人工智能,人们体验着由代码打造的虚拟现实世界。而在 游戏 《我的世界》里,人们也可以通过编程来打造属于自己的世界。曾有人预言,未来的世界是软件的世界,是代码的世界。我们无法预知未来,但是活在当下明显感觉到代码正在深刻改变我们的生活、改造现实世界。但代码又似乎与我们的生活不直接相关,它是一种由字符、符号或信号码元以离散形式表示信息的明确的规则体系,并非自然语言,普通人不可直接读懂。目前的代码世界尚处于早期野蛮生长时代,代码难以约束,相关的 社会 规范几乎不存在,仿佛游离于 社会 规范之外,拒绝接受法律的约束和道德的审视。但是最近几年文明之光开始显现,代码合规开始进入大家的视线,大家开始讨论算法合规、开源代码合规等前沿话题。敲过几年代码、学过几年法律、正在做企业合规的笔者,有意加入代码合规的讨论中来,开通代码合规这个栏目,分享自己的合规心得。
我们常说代码的灵魂是算法,因为代码的核心在于算法。算法是对解题方案的准确而完整的描述,是一系列解决问题的清晰指令。形象比喻,如果把算法理解为一种思路,那代码就是算法(思路)的具体表现形式。所以我们常说防止代码泄露,实则是保护自己的核心算法思路不给他人所知。2021年8月27日,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定》(征求意见稿)发布,该规定旨在规范互联网信息服务算法推荐活动,维护国家安全和 社会 公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务 健康 发展。代码合规的系列Vol.1将围绕该算法推荐管理规定进行解析讨论。
一、推荐算法的介绍
推荐算法是指利用用户的一些行为,通过一些算法,推测出用户可能喜欢的东西。它作为算法中的一种,源于个性化推荐,经过多年的理论研究和商业实践,已经被越来越多的互联网企业所运用到用户推荐场景中。截止目前推荐算法已经延伸出生成合成类(图片视频生成)、个性化推送类(推荐)、排序精选类(排名)、检索过滤类(搜索)、调度决策类(外卖、打车)等。举例来说,我们在天猫上购物,经常会被推送一些我们之前浏览过的同类型产品,这里面就是用到了推荐算法,属于个性化推送类。
笔者曾在本科期间,参加过阿里举办的首届天猫大数据算法竞赛,竞赛的内容是关于推荐算法的研究开发。基于天猫用户的数据(匿名化处理)—数据内容主要是一定时间内用户购买产品的时间、次数、产品相似度等用户行为—运用基于内容、协同过滤、关联规则等推荐算法对用户行为进行分析,预测下一个时段用户的行为,对比实际数据得出相似度,以相似度高低决定算法优良。经过几年的发展,推荐算法在商业实践中的运用已经变得十分广泛,但是也因此给我们的生活带来了许多困扰,出现如数据杀熟、隐私保护等问题。这次国家推出对推荐算法的监管规定,是十分及时和必要的。企业要想继续进行推荐算法的研究和实践,就必须要满足国家对于推荐算法的规定。因此笔者基于《互联网信息服务算法推荐管理规定》(征求意见稿),多维度谈谈企业的算法合规义务和合规化建议。
二、算法服务提供者的合规义务
合规,是比合法更大范围的存在,即符合、遵守、执行适用于企业的合规规范。这里所说的合规规范按照国内外出台的标准、办法和指引,可以总结为外部合规规范和内部合规规范。其中外部合规规范可以理解为合规要求,包括但不限于法律规范、行业准则、商业惯例、法院判决以及行政决定、强制性标准、道德规范等。内部合规规范可以理解为合规承诺,主要是指合同协议、行业自律性规则、非强制性标准、对外承诺、章程以及内部规章和各项决议等。所以对于合规工作来说,首要的就是要收集合规规范,从中识别出合规义务。本文立足于《互联网信息服务算法推荐管理规定》(征求意见稿),识别出具体的合规义务,分别从强制性义务、禁止性义务、原则性义务进行展开,如下表所示。
上表所示,可以较为清晰的区分算法合规义务。我们发现,强制性义务几乎占据了大半,大部分的条款都是企业应当履行的合规义务。
三、推荐算法的合规化建议
从概念上说,合规可以理解为一种理想状态,或者说是最终目标。在通往合规的道路上,我们需要做的是将“外规内化”。上述表格总结的企业合规义务更像是粗糙的条文堆砌,我们还需要将具体的合规义务进一步内化于企业的内部管理行为中。结合我们团队在企业合规管理体系的搭建上的实践经验,我认为可以从合规管理制度、合规运行和保障机制角度提出我们的合规化建议。
可能上述视角过于专业化,也有点复杂化。如果从技术人员的角度看,可以从前端和后端的视角来解析具体的合规义务:
上述两个视角,可能对合规义务有了些许的了解,但是对于企业来说,合规义务需要嵌入到公司的制度中去才算是完成了制度层面的建设工作,这是个繁琐和专业的事情。同时制度层面完成后,要落实制度就需要让员工懂法知规,这就需要对员工进行必要的合规培训工作,这里面就涉及对于治理层、经理层、员工层不同的培训要求。所以对于企业合规化建设,比较省力和经济的方式就是引入第三方专业机构,帮助企业去做合规化建设,帮助组建企业内部的合规团队,指导合规团队去做具体的合规化建设工作,授人以渔。
E. 决策树(Decision Tree)
决策树是一种非参数有监督的机器学习方法,可以用于解决回归问题和分类问题。通过学习已有的数据,计算得出一系列推断规则来预测目标变量的值,并用类似流程图的形式进行展示。决策树模型可以进行可视化,具有很强的可解释性,算法容易理解,以决策树为基础的各种集成算法在很多领域都有广泛的应用。
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,信息熵代表着一个事件或一个变量等所含有的信息量。 在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。
发生概率低的事件比发生概率高的事件具有更大的不确定性,需要更多的信息去描述他们,信息熵更高。
我们可以用计算事件发生的概率来计算事件的信息,又称“香农信息”( Shannon Information )。一个离散事件x的信息可以表示为:
h(x) = -log(p(x))
p() 代表事件x发生的概率, log() 为以二为底的对数函数,即一个事件的信息量就是这个事件发生的概率的负对数。选择以二为底的对数函数代表计算信息的单位是二进制。因为概率p(x)小于1,所以负号就保证了信息熵永远不为负数。当事件的概率为1时,也就是当某事件百分之百发生时,信息为0。
熵( entropy ),又称“香农熵”( Shannon entropy ),表示一个随机变量的分布所需要的平均比特数。一个随机变量的信息熵可以表示为:
H(x) = -sum(each k in K p(k)log(p(k)))
K表示变量x所可能具有的所有状态(所有事件),将发生特定事件的概率和该事件的信息相乘,最后加和,即可得到该变量的信息熵。可以理解为,信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是事件信息量的期望。
当组成该随机变量的一个事件的概率为1时信息熵最小,为0, 即该事件必然发生。当组成该随机变量的所有事件发生的概率相等时,信息熵最大,即完全不能判断那一个事件更容易发生,不确定性最大。
当一个事件主导时,比如偏态分布( Skewed Probability Distribution ),不确定性减小,信息熵较低(low entropy);当所有事件发生概率相同时,比如均衡分布( Balanced Probability Distribution ),不确定性极大,信息熵较高(high entropy)。
由以上的香农信息公式可知,信息熵主要有三条性质:
- 单调性 。发生概率越高的事件,其所携带的信息熵越低。比如一个真理的不确定性是极低的,那么它所携带的信息熵就极低。
- 非负性 。信息熵不能为负。单纯从逻辑层面理解,如果得知了某个信息后,却增加了不确定性,这也是不合逻辑的。
- 可加性 。即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。
若两事件A和B同时发生,两个事件相互独立。 p(X=A,Y=B) = p(X = A)*p(Y=B) , 那么信息熵为 H(A,B) = H(A) + H(B) 。但若两事件不相互独立,那么 H(A,B) = H(A) + H(B) - I(A,B) 。其中 I(A,B) 是互信息( mutual information,MI ),即一个随机变量包含另一个随机变量信息量的度量。即已知X的情况下,Y的分布是否会改变。
可以理解为,两个随机变量的互信息度量了两个变量间相互依赖的程度。X 和 Y的互信息可以表示为:
I(X;Y) = H(X) - H(X|Y)
H(X)是X的信息熵,H(X|Y)是已知Y的情况下,X的信息熵。结果的单位是比特。
简单来说,互信息的性质为:
- I(X;Y)>=0 互信息永远不可能为负
- H(X) - H(X|Y) = I(X;Y) = I (Y;X) = H(Y) - H(Y|X) 互信息是对称的
-当X,Y独立的时候, I(X;Y) = 0 互信息值越大,两变量相关性越强。
-当X,Y知道一个就能推断另一个的时候, I(X;Y) = H(Y) = H(X)
在数据科学中,互信息常用于特征筛选。在通信系统中互信息也应用广泛。在一个点到点的通信系统中,发送信号为X,通过信道后,接收端接收到的信号为Y,那么信息通过信道传递的信息量就是互信息 I(X,Y) 。根据这个概念,香农推导出信道容量(即临界通信传输速率的值)。
信息增益( Information Gain )是用来按照一定规则划分数据集后,衡量信息熵减少量的指数。
那数据集的信息熵又是怎么计算的呢?比如一个常见的0,1二分类问题,我们可以计算它的熵为:
Entropy = -(p(0) * log(P(0)) + p(1) * log(P(1)))
当该数据集为50/50的数据集时,它的信息熵是最大的(1bit)。而10/90的数据集将会大大减少结果的不确定性,减小数据集的信息熵(约为0.469bit)。
这样来说,信息熵可以用来表示数据集的纯度( purity )。信息熵为0就表示该数据集只含有一个类别,纯度最高。而较高的信息熵则代表较为平衡的数据集和较低的纯度。
信息增益是提供了一种可以使用信息熵计算数据集经过一定的规则(比如决策树中的一系列规则)进行数据集分割后信息熵的变化的方法。
IG(S,a) = H(S) - H(S|a)
其中,H(s) 是原数据集S的信息熵(在做任何改变之前),H(S|a)是经过变量a的一定分割规则。所以信息增益描述的是数据集S变换后所节省的比特数。
信息增益可以用做决策树的分枝判断方法。比如最常用CART树( Classification and Regression Tree )中的分枝方法,只要在python中设置参数 criterion 为 “entropy” 即可。
信息增益也可以用作建模前的特征筛选。在这种场景下,信息增益和互信息表达的含义相同,会被用来计算两变量之间的独立性。比如scikit-learn 中的函数 mutual_info_classiif()
信息增益在面对类别较少的离散数据时效果较好,但是面对取值较多的特征时效果会有 偏向性 。因为当特征的取值较多时,根据此特征划分得到的子集纯度有更大的可能性会更高(对比与取值较少的特征),因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较偏向取值较多的特征。举一个极端的例子来说,如果一个特征为身份证号,当把每一个身份证号不同的样本都分到不同的子节点时,熵会变为0,意味着信息增益最大,从而该特征会被算法选择。但这种分法显然没有任何实际意义。
这种时候,信息增益率就起到了很重要的作用。
gR(D,A)=g(D,A)/HA(D)
HA(D) 又叫做特征A的内部信息,HA(D)其实像是一个衡量以特征AA的不同取值将数据集D分类后的不确定性的度量。如果特征A的取值越多,那么不确定性通常会更大,那么HA(D)的值也会越大,而1/HA(D)的值也会越小。这相当于是在信息增益的基础上乘上了一个惩罚系数。即 gR(D,A)=g(D,A)∗惩罚系数 。
在CART算法中,基尼不纯度表示一个随机选中的样本被分错类别的可能性,即这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本均为一种时(没有被分错的样本),基尼不纯度达到最低值0。
举例来说,如果有绿色和蓝色两类数据点,各占一半(蓝色50%,绿色50%)。那么我们随机分类,有以下四种情况:
-分为蓝色,但实际上是绿色(❌),概率25%
-分为蓝色,实际上也是蓝色(✔️),概率25%
-分为绿色,实际上也是绿色(✔️),概率25%
-分为绿色,但实际上是蓝色(❌),概率25%
那么将任意一个数据点分错的概率为25%+25% = 50%。基尼不纯度为0.5。
在特征选择中,我们可以选择加入后使数据不纯度减少最多的特征。
噪音数据简单来说就是会对模型造成误导的数据。分为类别噪声( class noise 或 label noise )和 变量噪声( attribute noise )。类别噪声指的的是被错误标记的错误数据,比如两个相同的样本具有不同的标签等情况。变量噪声指的是有问题的变量,比如缺失值、异常值和无关值等。
决策树其实是一种图结构,由节点和边构成。
-根节点:只有出边没有入边。包含样本全集,表示一个对样本最初的判断。
-内部节点:一个入边多个出边。表示一个特征或是属性。每个内部节点都是一个判断条件,包含数据集中从根节点到该节点所有满足条件的数据的集合。
-叶节点:一个入边无出边。表示一个类,对应于决策结果。
决策树的生成主要分为三个步骤:
1. 节点的分裂 :当一个节点不够纯(单一分类占比不够大或者说信息熵较大)时,则选择将这一节点进行分裂。
2. 决策边界的确定 :选择正确的决策边界( Decision Boundary ),使分出的节点尽量纯,信息增益(熵减少的值)尽可能大。
3. 重复及停止生长 :重复1,2步骤,直到纯度为0或树达到最大深度。为避免过拟合,决策树算法一般需要制定树分裂的最大深度。到达这一深度后,即使熵不等于0,树也不会继续进行分裂。
下面以超级知名的鸢尾花数据集举例来说明。
这个数据集含有四个特征:花瓣的长度( petal length )、花瓣的宽度( petal width )、花萼的长度( sepal length )和花萼的宽度( sepal width )。预测目标是鸢尾花的种类 iris setosa, iris versicolor 和 iris virginica 。
建立决策树模型的目标是根据特征尽可能正确地将样本划分到三个不同的“阵营”中。
根结点的选择基于全部数据集,使用了贪婪算法:遍历所有的特征,选择可以使信息熵降到最低、基尼不纯度最低的特征。
如上图,根节点的决策边界为' petal width = 0.8cm '。那么这个决策边界是怎么决定的呢?
-遍历所有可能的决策边界(需要注意的是,所有可能的决策边界代表的是该子集中该特征所有的值,不是以固定增幅遍历一个区间内的所有值!那样很没有必要的~)
-计算新建的两个子集的基尼不纯度。
-选择可以使新的子集达到最小基尼不纯度的分割阈值。这个“最小”可以指两个子集的基尼不纯度的和或平均值。
ID3是最早提出的决策树算法。ID3算法的核心是在决策树各个节点上根据 信息增益 来选择进行划分的特征,然后递归地构建决策树。
- 缺点 :
(1)没有剪枝
(2)只能用于处理离散特征
(3)采用信息增益作为选择最优划分特征的标准,然而信息增益会偏向那些取值较多的特征(例如,如果存在唯一标识属性身份证号,则ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。)
C4.5 与ID3相似,但对ID3进行了改进:
-引入“悲观剪枝”策略进行后剪枝
-信息增益率作为划分标准
-将连续特征离散化,假设 n 个样本的连续特征 A 有 m 个取值,C4.5 将其排序并取相邻两样本值的平均数共 m-1 个划分点,分别计算以该划分点作为二元分类点时的信息增益,并选择信息增益最大的点作为该连续特征的二元离散分类点;
-可以处理缺失值
对于缺失值的处理可以分为两个子问题:
(1)在特征值缺失的情况下进行划分特征的选择?(即如何计算特征的信息增益率)
C4.5 中对于具有缺失值特征,用没有缺失的样本子集所占比重来折算;
(2)选定该划分特征,对于缺失该特征值的样本如何处理?(即到底把这个样本划分到哪个结点里)
C4.5 的做法是将样本同时划分到所有子节点,不过要调整样本的权重值,其实也就是以不同概率划分到不同节点中。
(1)剪枝策略可以再优化;
(2)C4.5 用的是多叉树,用二叉树效率更高;
(3)C4.5 只能用于分类;
(4)C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
(5)C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。
可以用于分类,也可以用于回归问题。CART 算法使用了基尼系数取代了信息熵模型,计算复杂度更低。
CART 包含的基本过程有 分裂,剪枝和树选择 。
分裂 :分裂过程是一个二叉递归划分过程,其输入和预测特征既可以是连续型的也可以是离散型的,CART 没有停止准则,会一直生长下去;
剪枝 :采用“代价复杂度”剪枝,从最大树开始,每次选择训练数据熵对整体性能贡献最小的那个分裂节点作为下一个剪枝对象,直到只剩下根节点。CART 会产生一系列嵌套的剪枝树,需要从中选出一颗最优的决策树;
树选择 :用单独的测试集评估每棵剪枝树的预测性能(也可以用交叉验证)。
(1)C4.5 为多叉树,运算速度慢,CART 为二叉树,运算速度快;
(2)C4.5 只能分类,CART 既可以分类也可以回归;
(3)CART 使用 Gini 系数作为变量的不纯度量,减少了大量的对数运算;
(4)CART 采用代理测试来估计缺失值,而 C4.5 以不同概率划分到不同节点中;
(5)CART 采用“基于代价复杂度剪枝”方法进行剪枝,而 C4.5 采用悲观剪枝方法。
(1)决策树易于理解和解释,可以可视化分析,容易提取出规则
(2)可以同时处理分类型和数值型数据
(3)可以处理缺失值
(4)运行速度比较快(使用Gini的快于使用信息熵,因为信息熵算法有log)
(1)容易发生过拟合(集成算法如随机森林可以很大程度上减少过拟合)
(2)容易忽略数据集中属性的相互关联;
(3)对于那些各类别样本数量不一致的数据,在决策树中,进行属性划分时,不同的判定准则会带来不同的属性选择倾向。
写在后面:这个专辑主要是本小白在机器学习算法学习过程中的一些总结笔记和心得,如有不对之处还请各位大神多多指正!(关于决策树的剪枝还有很多没有搞懂,之后弄明白了会再单独出一篇总结哒)
参考资料链接:
1. https://machinelearningmastery.com/what-is-information-entropy/
2. https://zhuanlan.hu.com/p/29679277
3. https://machinelearningmastery.com/information-gain-and-mutual-information/
4. https://victorzhou.com/blog/gini-impurity/
5. https://sci2s.ugr.es/noisydata
6. https://towardsdatascience.com/understanding-decision-trees-once-and-for-all-2d891b1be579
7. https://blog.csdn.net/weixin_36586536/article/details/80468426
8. https://zhuanlan.hu.com/p/85731206
F. 机器学习故事汇-决策树算法
机器学习故事汇-决策树算法
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起!
决策树模型是机器学习中最经典的算法之一啦,用途之广泛我就不多吹啦,其实很多机器学习算法都是以树模型为基础的,比如随机森林,Xgboost等一听起来就是很牛逼的算法(其实用起来也很牛逼)。
首先我们来看一下在上面的例子中我想根据人的年龄和性别(两个特征)对5个人(样本数据)进行决策,看看他们喜不喜欢玩电脑游戏。首先根据年龄(根节点)进行了一次分支决策,又对左节点根据性别进行了一次分支决策,这样所有的样本都落到了最终的叶子节点,可以把每一个叶子节点当成我们最终的决策结果(比如Y代表喜欢玩游戏,N代表不喜欢玩游戏)。这样我们就通过决策树完成了非常简单的分类任务!
再来看一下树的组成,主要结构有根节点(数据来了之后首先进行判断的特征),非叶子节点(中间的一系列过程),叶子节点(最终的结果),这些都是我们要建立的模块!
在决策中树中,我们刚才的喜欢玩电脑游戏的任务看起来很简单嘛,从上往下去走不就OK了吗!但是难点在于我们该如何构造这棵决策树(节点的选择以及切分),这个看起来就有些难了,因为当我们手里的数据特征比较多的时候就该犹豫了,到底拿谁当成是根节点呢?
这个就是我们最主要的问题啦,节点究竟该怎么选呢?不同的位置又有什么影响?怎么对特征进行切分呢?一些到这,我突然想起来一个段子,咱们来乐呵乐呵!
武林外传中这个段子够我笑一年的,其实咱们在推导机器学习算法的时候,也需要这么去想想,只有每一步都是有意义的我们才会选择去使用它。回归正题,我们选择的根节点其实意味着它的重要程度是最大的,相当于大当家了,因为它会对数据进行第一次切分,我们需要把最重要的用在最关键的位置,在决策树算法中,为了使得算法能够高效的进行,那么一开始就应当使用最有价值的特征。
接下来咱们就得唠唠如何选择大当家了,我们提出了一个概念叫做熵(不是我提出的。。。穿山甲说的),这里并不打算说的那么复杂,一句话解释一下,熵代表你经过一次分支之后分类的效果的好坏,如果一次分支决策后都属于一个类别(理想情况下,也是我们的目标)这时候我们认为效果很好嘛,那熵值就很低。如果分支决策后效果很差,什么类别都有,那么熵值就会很高,公式已经给出,log函数推荐大家自己画一下,然后看看概率[0,1]上的时候log函数值的大小(你会豁然开朗的)。
不确定性什么时候最大呢?模棱两可的的时候(就是你犹豫不决的时候)这个时候熵是最大的,因为什么类别出现的可能性都有。那么我们该怎么选大当家呢?(根节点的特征)当然是希望经过大当家决策后,熵值能够下降(意味着类别更纯净了,不那么混乱了)。在这里我们提出了一个词叫做信息增益(就当是我提出的吧。。。),信息增益表示经过一次决策后整个分类后的数据的熵值下降的大小,我们希望下降越多越好,理想情况下最纯净的熵是等于零的。
一个栗子:准备一天一个哥们打球的时候,包括了4个特征(都是环境因素)以及他最终有木有去打球的数据。
第一个问题:大当家该怎么选?也就是我们的根节点用哪个特征呢?
一共有4个特征,看起来好像用谁都可以呀,这个时候就该比试比试了,看看谁的能力强(使得熵值能够下降的最多)
在历史数据中,首先我们可以算出来当前的熵值,计算公式同上等于0.940,大当家的竞选我们逐一来分析,先看outlook这个特征,上图给出了基于天气的划分之后的熵值,计算方式依旧同上,比如outlook=sunny时,yes有2个,no有三个这个时候熵就直接将2/5和3/5带入公式就好啦。最终算出来了3种情况下的熵值。
再继续来看!outlook取不同情况的概率也是不一样的,这个是可以计算出来的相当于先验概率了,直接可以统计出来的,这个也需要考虑进来的。然后outlook竞选大当家的分值就出来啦(就是信息增益)等于0.247。同样的方法其余3个特征的信息增益照样都可以计算出来,谁的信息增益多我们就认为谁是我们的大当家,这样就完成了根节点的选择,接下来二当家以此类推就可以了!
我们刚才给大家讲解的是经典的ID3算法,基于熵值来构造决策树,现在已经有很多改进,比如信息增益率和CART树。简单来说一下信息增益率吧,我们再来考虑另外一个因素,如果把数据的样本编号当成一个特征,那么这个特征必然会使得所有数据完全分的开,因为一个样本只对应于一个ID,这样的熵值都是等于零的,所以为了解决这类特征引入了信息增益率,不光要考虑信息增益还要考虑特征自身的熵值。说白了就是用 信息增益/自身的熵值 来当做信息增益率。
我们刚才讨论的例子中使用的是离散型的数据,那连续值的数据咋办呢?通常我们都用二分法来逐一遍历来找到最合适的切分点!
下面再来唠一唠决策树中的剪枝任务,为啥要剪枝呢?树不是好好的吗,剪个毛线啊!这个就是机器学习中老生常谈的一个问题了,过拟合的风险,说白了就是如果一个树足够庞大,那么所有叶子节点可能只是一个数据点(无限制的切分下去),这样会使得我们的模型泛化能力很差,在测试集上没办法表现出应有的水平,所以我们要限制决策树的大小,不能让枝叶太庞大了。
最常用的剪枝策略有两种:
(1)预剪枝:边建立决策树边开始剪枝的操作
(2)后剪枝:建立完之后根据一定的策略来修建
这些就是我们的决策树算法啦,其实还蛮好的理解的,从上到下基于一种选择标准(熵,GINI系数)来找到最合适的当家的就可以啦!
G. 关于推荐算法未来的思考:推荐诗与远方
2021年8月27日,国家互联网信息办公室发布了关于《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见的通知。
其中第十五条规定:
这从国家层面再次引发了大家对于推荐算法的本质的思考。
信息茧房(Information Cocoon)是哈佛大学教授桑斯坦(Cass R. Sunstein)在2006年出版的《信息乌托邦》(Infotopia)一书中提出的概念。这个概念的意思是:
这个概念一经提出,就迅速引起轰动。支持和反对的声音都不绝于耳,甚至这个话题被写进了2020年江苏省高考语文作文题目中:
反对信息茧房论者,比如有文章将这种思想归结为人类对于技术的恐惧。
比如,文中说:
如果这个逻辑成立的话,我们可以说,因为喜爱高油高热量高糖的食物,我们的食堂就只提供这些食物就好了。
尼采认为,生命的本质就是追求权力意志(will to power)。但是,人类也是存在弱点的,可以通过一些手段压抑人类的权力意志。比如催眠,机械性重复的活动,微小的快乐,群体认同,让某些情感过度发展等。
宗教曾经做到过这些,使西方经过了上千年的中世纪。今天的网络游戏也可以做到其中的很多点,我们不能说因为宗教当年就是这样压抑人性的,所以网游这么做也是好的。
1775年,美国独立宣言起草者之一的帕特里克·亨利在弗吉尼亚州会议的演讲上讲出了着名的那句"Give me liberty or give me death",不自由,毋宁死。
那么,人是不是自由的呢?
让我们把时间推回原点,当人出生的时候,他或她没有权利选择自己的性别、父母、民族、家庭、国家,用海德格尔的话来说,人是被“抛”入这个世界的。
出生了之后,人类也是无法离开他人独立生存的,小时候是,长大之后仍然是。为了跟他人共同生存,就不得不受他人的影响。人总是在这种或那种处境中操劳。
我们所处的环境,就像一张大网,把我们困在其中。跟别人的交流、书籍、报纸、广播、电视、互联网上的信息也不断地影响着我们的想法。为广告、媒体、电子商务服务的推荐算法,正是这大网中提供能力增强的一部分。
这种受到别人的很大影响,而缺乏自我思考的状态,海德格尔称为“常人”。人们处于“常人”状态而不自知的这种状态,海德格尔称之为“沉沦”。
最基础的推荐算法叫做“协同过滤”。分为基于商品的协同过滤,也就是你买了商品A,就推荐相似的商品B给你;以及基于用户的协同过滤,也就是说你和朋友C的喜好相似,他买了商品D,那么也将商品D推荐给你。
举例来说,你买了辛拉面,就推荐相似的韩式火鸡面给你。
再比如,你和雷姆老师的喜好相似,比如你们都喜欢喝可乐。现在发现雷姆老师喜欢吃火锅,那就推荐你也吃火锅。
将这个原理做得更复杂一些,比如我们可以写成下面的公式:
但是不管表示起来如何复杂,本质上推荐算法所做的事情就是大网的一部分,让人沉沦于自己或者别人的兴趣的计算结果之中。
看到上面的结论,有些同学觉得不对。学过算法的同学都知道BandIt,在利用与探索中寻找平衡。你说我用推荐算法来网住你,我给你增加随机性总该可以了吧?
还有的同学认为,人生来就是有好奇心的,好奇心会让我们突破大网,找到更广阔的世界,打破这个限制。
那么我们不提哲学理论了,就从大家最常见的刷手机的场景上来说。比如休息一天在家刷手机,看短视频,看小说,追剧,看八卦新闻,打手机游戏。这样的一天度过了之后,躺在床上如果不能入睡的话你会感觉到什么,是充实,还是空虚?
我们在生活中也会遇到很多人好奇心很强,知道的东西很多,但是却没有什么很精通的东西。
这是因为,好奇心确实是人类探索未知世界的有力武器,但是光有好奇还不行,人类的默认模式是注意力涣散,兴趣点很快从一个事物迅速跳到另一个事物上。
就像仙剑中灵儿的那首小诗:“今日种种,似水无痕。明夕何夕,君已陌路”。
我们知道,人类是个视觉动物。观察人类的视线就可以看到,眼睛正常是不会盯着同一个地方一直看的。眼珠不动的反而可能是视障人士。
这种没有思考的好奇心,会让我们的生活消散在一片虚无之中,如无根之浮萍,没有根基,最终回归沉沦之中。
法国哲学家萨特认为,人类的本质就是虚无。人有无限种潜在的可能性,但是人类的天性是希望寻找确定性而非可能性。人类可以通过占有物品,比如买东西去获得一种确定性的感受,但是有限的、固定不变的东西没有办法填满无限的可能性。
这也是从哲学上对于现有的推荐算法无法满足人类的需求的解释。
最后,因为沉沦,因为不愿意独立思考,人们也不愿意做决策,更不愿意承担决策的后果。推荐算法可以帮助人们逃避决策,继续沉沦。
这当然谈不上有多负面,但是也谈不上有多正面。
那么,问题来了,这也不行,那也不行,那到底该怎么办?
答案是像《勇敢的心》里的威廉.华莱士一样,通过思考,追求自由,从沉沦中觉醒出来,进入一种称为“本真”的状态。
在沉沦状态下,我们其实是放弃了自由,把决定自己生存的决断交给流行的意见和习俗。
本真的生存状态并不是要标新立异,跟流行对着干,那其实仍然是一种沉沦的状态。而是理解我们生来是有自由决断和选择权的。纵然受到各种限制,纵然要承受决断带来的后果,那就对不起自己的良心。这不是因为我们不能做,而是我们明明能做但是没有做,自己没有对自己的生存负责。
那么是不是理解了这个道理,我们就可以过好这一生了呢?
哪有那么容易!你太小看常人状态的力量了。这种生来就伴随着我们的巨大惯性和旋涡一样裹挟着我们,想逃出去的可能性非常小。
得多强的力量才能像成为地球卫星的第一宇宙速度一样飞上太空呢?可能只有到了生命的尽头才能明悟,所谓“人之将死,其言也善”。
在那样的时刻,人们才能真正发现,自己要死了,但是平时沉沦所在的世界并不会跟自己一起去死。这是将某个人和常人环境分离的一个突破口。在这一时刻,人后悔想做而没有做的事情,跟别人的期望、其他人的看法等终于完全没有关系了,这一个,人终于成为了自己。
人的个体性和无可替代性终于从常人的状态中脱离出来。
试问,现有的推荐算法能够推荐出满足本真状态需求的东西么?推荐的结果本身也随着沉沦态一起被分离出去了。
那么,有没有办法不等到最后一刻才能进入本真的状态?
美国作家萨洛扬说:“每个人都会死,但是我总以为自己不会”。这是沉沦状态的常态。但是如果我们能够直面死亡,真真切切地去用心体会对于自己将要死亡的感受,保持对于死亡的“畏”的状态,我们就有可能进入到本真的状态。
但是,懂得了进入本真的方法,仍然不见得能过好一生,因为本真的状态可能只存在一瞬间,你马上又被常人状态拉回到沉沦之中。
尽管回到了沉论,但是良心的种子已经在慢慢生根发芽。你就有更多的机会跳出沉沦,去反思什么才是真正你这个个体所想要的。
当然,通过反思悟到脱离沉沦状态的方法不止“向死而生”这一种。比如针对似水无痕的好奇心,对于死亡之畏,你悟到的是“无无明,亦无无明尽,乃至无老死,亦无老死尽。无苦集灭道,无智亦无得”。那么你一样可以摆脱沉沦状态,但不是进入本真状态,而是“远离颠倒梦想,究竟涅磐”了。
有同学讲了,我看你这篇文章是想看推荐算法的思考,你跟我讲向死而生有什么用,这是靠人自己思考和反思的,推荐算法能帮上什么忙?光推荐,人不反思,还是会一直沉沦下去啊。
幸好除了完全脱离沉沦回归本真的方法之外,我们还有在沉沦中打开一扇看到另外的世界的窗口,这就是诗歌、艺术与自然的召唤,我们统一称做“诗与远方”。
脱离沉沦可以认为是离开黑暗进入光明,而诗与远方就像是夜空中明亮的心,同样可以给沉沦中的我们带来不指引。
当海德格尔在思考沉论的时候,他看到了被人遗忘了100多年的德国诗人荷尔德林的诗:《人,诗意的栖居》
无独有偶,当存在主义的思潮逐渐散去,新时代运动兴起,西方人民在寻找心灵渴望的源泉的时候,找到的是700多年前伊斯兰教苏菲派诗人鲁米的诗。
2007年,联合国教科文组织将这一年定为“国际鲁米年”,以纪念鲁米诞辰800周年。
比如这首:
语言可以揭示存在,同时又很容易遮蔽存在。当我们使用一套惯用的语言,很多观念就变成了现成的、理所当然的,从而让人陷入沉沦,让存在本身被遮蔽和遗忘。而诗歌就是揭示存在,让读者进入澄明的虫洞的入口。
同诗歌一样,海德格尔认为,每一件伟大的艺术作品都在混沌一片的沉沦状态下照亮了一片场域,也让观看者同时进入澄明无蔽的真实之境。
我个人认为,作为人类心灵归宿的大自然,也起到同样的澄明作用。
那么我们的推荐算法呢?是不是也能照亮一片场域,澄明一块无蔽的真实之境?让用户在沉沦中能够找到本真自我的真实的需求?
新的推荐算法,应该具有下面的几个特征:
最后,让我们引入一小段鲁米的话来作为结束:
算法不能只推荐眼前的苟且,还要像诗与远方一样澄明一片场域的遮蔽。
H. 决策树算法总结
目录
一、决策树算法思想
二、决策树学习本质
三、总结
一、决策树(decision tree)算法思想:
决策树是一种基本的分类与回归方法。本文主要讨论分类决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。 它可以看做是if-then的条件集合,也可以认为是定义在特征空间与类空间上的条件概率分布 。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点,内部结点表示一个特征或属性,叶结点表示一个类。(椭圆表示内部结点,方块表示叶结点)
决策树与if-then规则的关系
决策树可以看做是多个if-then规则的集合。将决策树转换成if-then规则的过程是:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上的内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥且完备。这就是说,每一个实例都被一条路径或一条规则所覆盖,且只被一条路径或一条规则所覆盖。这里的覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。
决策树与条件概率分布的关系
决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概率分布,就构成一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。
决策树模型的优点
决策树模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类 。
二、决策树学习本质:
决策树学习是从训练数据集中归纳一组分类规则、与训练数据集不相矛盾的决策树可能有多个,也可能一个没有。我们需要训练一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。从另一个角度看 决策树学习是训练数据集估计条件概率模型 。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该是不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。 决策树的学习使用损失函数表示这一目标,通常的损失函数是正则化的极大似然函数。决策树的学习策略是以损失函数为目标函数的最小化。当损失函数确定后,决策树学习问题变为损失函数意义下选择最优决策树的问题。这一过程通常是一个递归选择最优特征,并根据特征对训练数据进行分割,使得对各个子数据集有一个最好分类的过程。这一过程对应着特征选择、决策树的生成、决策树的剪枝。
特征选择 : 在于选择对训练数据具有分类能力的特征,这样可以提高决策树的学习效率。
决策树的生成 : 根据不同特征作为根结点,划分不同子结点构成不同的决策树。
决策树的选择 :哪种特征作为根结点的决策树信息增益值最大,作为最终的决策树(最佳分类特征)。
信息熵 : 在信息论与概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量,其概率分布为P(X= ) = ,i=1,2,3...n,则随机变量X的熵定义为
H(X) = — ,0 <= H(X) <= 1,熵越大,随机变量的不确定性就越大。
条件熵(Y|X) : 表示在已知随机变量X的条件下随机变量Y的不确定性。
信息增益 : 表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
信息增益 = 信息熵(父结点熵 ) — 条件熵(子结点加权熵)
三、 总结 :
优点
1、可解释性高,能处理非线性的数据,不需要做数据归一化,对数据分布没有偏好。
2、可用于特征工程,特征选择。
3、可转化为规则引擎。
缺点
1、启发式生成,不是最优解。
2、容易过拟合。
3、微小的数据改变会改变整个数的形状。
4、对类别不平衡的数据不友好。
I. 算法管理:组织管理转型、企业高效决策的制胜利器
以下文章来源于蜜蜂学堂
“小李,你本周的表现非常出色。您的销售额增长了70%,从而帮助你的团队在排行榜中取得第一的好成绩。但是你仍然有很多开放的机会,所以请继续努力哦!”
接收绩效反馈有助于员工成长,它鼓励学习并奖励良好的表现。 但是,如果是算法提供反馈而不是人,该怎么办?这就是组织中算法管理的基础。
什么是算法管理?
算法管理是通过算法对员工进行战略跟踪、评估和管理。组织通过算法接管了过去由管理者执行的任务。
这种管理创新在零工经济中尤为常见。 例如,Uber,Deliveroo和UpWork之类的平台使用算法来管理和密切监视其全球员工。
算法给员工分配任务并评估其绩效。他们还提供反馈和有关如何提高绩效的建议。
但是,使用算法管理员工慢慢地不再局限于零工经济。传统组织越来越发现提高效率和以数据为依据的决策的好处。
大数据和自动化已成为大多数业务部门变革的首要方向,而人力资源部门也将其重点放在了数据驱动的决策上。
人力资源中使用的算法可以提高效率,甚至胜过人类的决策制定。 实际上,根据普华永道的研究报告,跨国公司中已有40%的人力资源部门使用基于AI的工具 (相关报告可以私聊我获取)。
例如,算法的使用在员工选拔中变得非常普遍,该算法被用于简历筛选,使求职者与职位匹配之中。
他们正在通过自然语言处理来分析视频面试中的面部表情或申请人的书面申请中所体现的动机。此外,算法还向员工和经理提供关于绩效方面的反馈。
随着算法在组织决策中的影响力越来越大,这样就容易导致一个问题:利用算法的决策是否具备相应的客观性和准确性?
像其它辅助决策的技术一样,算法决策也是一把双刃剑,它会带来一系列的挑战。
• 求职者会如何看待一家通过机器自动完成部分面试和人员选拔过程的公司?
• 员工对自动绩效反馈有何反应(反馈不再来源于直接上级)?员工在多大程度上会接受这类反馈?
• 管理者在多大程度上会依赖算法做出的决策?
事实是:实施算法会改变组织和人际关系的动态。 因此,必须仔细研究算法管理的优势和挑战,并搞清楚组织实现算法管理的最佳做法。
我们将在下面详细讨论在您的组织中实施算法管理的建议。
01
组织实施算法管理的三大优势
1.启动组织绩效
提高生产率和工作效率是算法管理的最重要优势之一。例如,一个小时内,比较算法与一个招聘人员可以扫描的简历数?
结果是:算法基本能把人类招聘者按在地上摩擦,两者之间的差异巨大,这样可以帮助公司在人才竞争中保持领先地位。
将手动的任务转变为自动化,将为管理人员腾出更多的时间和资源,以专注于有更高战略影响力的任务,从而帮助提高组织绩效。 未能将分析和人工智能集成到其战略事务中的公司将面临落后他人的风险。
欧莱雅集团,是一间总部位于法国巴黎的皮肤护理、化妆品公司,在全球拥有80000名员工,每个职位空缺平均会收到130份职位申请。
欧莱雅每年开放约15000个职位,需要处理近百万份申请,因此其开始尝试利用AI技术帮助招聘人员摆脱令人头痛的简历筛选工作。
Mya是一款聊天机器人,它能够处理候选人提出的问题,从而在招聘早期帮助欧莱雅节约大量宝贵的时间。 此外,它还能够检查各项重要细节,例如求职者是否尚未找到工作,以及签证的当前状态等。
接下来,求职者需要面对Seedlink,这款AI软件负责评估他们在开放式面试问题中给出的答案。 这款工具能够找到在简历评审过程中被忽略的求职者。
该公司招聘人员表示,在一次从12000名候选人中选出80名实习生的过程中,该软件帮助他们节约了200个小时的工作时间。AI技术帮助欧莱雅能够更快地招聘10倍的员工,并增加25%的求职者面试机会。
2.改善管理决策和远程管理
近年来,基于证据和数据驱动的决策已变得越来越普遍。算法可以帮助处理管理者每天面对的日益复杂的问题。算法系统的数据处理能力远远超出了人类的能力范围。
他们可以考虑所有相关数据并排除不相关因素。这样就可以进行客观、公正、数据驱动的决策。而且,它可以减少决策过程中的偏见。
例如,认知偏见可能会导致零售商相信需要对其员工进行不稳定的安排。零售中不稳定的安排是指零售商通过工作计划的变化来减少人工成本。
许多零售商认为这种类型的计划是有效的,因为他们看到了直接的短期收益(例如削减工资),却忽略了长期的负面影响(例如对客户服务的影响)。
在这里,可以根据客户流量和其他数据预测人员需求的算法开始发挥作用。 研究表明,“将算法与管理者的直觉相结合可以导致更好的人员配置决策”。
算法对于远程办公也可能是有益的。劳动力将变得越来越分散,在某种程度上,远程和混合办公将成为常态。
这可能给员工带来巨大的好处。但是,管理人员可能很难跟上员工的进度和绩效。 绩效监控算法可能是成功进行远程管理的重要工具。
3.接收个性化的见解和反馈
算法管理不仅为管理人员带来好处,而且为员工带来好处。算法可以提供个性化的绩效反馈。
Deliveroo向其快递员发送个性化的月度绩效报告。 他们获得有关其平均“接受订单时间”,“到餐厅的路程时长”,“到客户处的路程时间”以及算法跟踪的其他指标的信息。
算法可以洞察员工的工作进度、待办事项和开展的项目。它们还用于改善员工的福祉。 这种算法分析员工的需求和目标,并推荐培训和发展计划。
算法还可以跟踪和评估对员工的福祉和动力最重要的因素,在此基础上,他们可以就如何提高员工福利向管理人员提供建议。
02
组织运用算法管理的三个最重要的挑战
1. 关于算法管理的伦理问题
除了算法管理的好处之外,还有几个重要的伦理问题。
算法的主要目标是改进决策,使决策更加客观公正。然而,情况可能恰恰相反,由于算法可以消除或减少决策过程中的人工干预,因此,人们可能认为算法是不公平的。
主要的关注点是算法所依据的数据。在样本数据上训练算法来预测事件并做出决策,因此,数据的质量是一个重要的因素。
例如,一个组织可以训练一种关于历史人才数据的算法,在这些数据中,很少有女性担任管理职位,然后,该算法可能会做出预测:女性在公司管理岗位上取得成功的可能性较低。因此,女性可能被排除在组织的人才管理计划之外。
算法通常是在“黑箱”中操作,它们并不透明,而且算法的工作精度通常也不清楚。这可能会对算法的信任度提出挑战,并为算法的决策提出问责性问题。
美国一些州已经在研究算法和人工智能在招聘中的使用,以及如何确保它们的公平性和透明度。
纽约州正在立法,要求招聘技术供应商进行反偏见审计,并确保遵守就业歧视法。
伊利诺伊州颁布了 《人工智能视频面试法》 (AI Video Interview Act),对使用人工智能分析应聘者视频面试的公司施加了限制。
利用算法管理不是一个是或否的问题。通常,只有部分决策是自动化的。 因此,公平和责任问题取决于公司在多大程度上依赖算法决策。
真正的问题是:算法的作用是增强还是完全自动化?你是用算法来给你提供建议,还是用它来代替人类决策,这都是有区别的。
2. 算法管理挑战管理者和人力资源的角色
算法管理减少或取代了不同流程中的人工参与和交互。这对管理者和人力资源构成了挑战。当个人和同理心的一面消失后,员工管理会发生怎样的变化?
管理者和人力资源从业者都需要适应算法管理带来的新动态,他们需要新的技能和能力,为负责任地使用算法做准备。
管理者和人力资源管理者也需要采用(潜在的)员工的观点。例如,当候选人不相信算法能看出自己有多独特时,招聘中使用的算法可能会出现问题。
那么,管理者和人力资源部门如何面对算法管理运用后,带来的自动化程度的提高和人际交往的减少呢?
他们如何成功地创造数据驱动文化的变革呢?所有这些都是人力资源和管理人员必须找到答案的问题。
3.算法管理对员工福利的风险
算法管理也可能对员工的福祉构成风险。一些人将实时行为跟踪、反馈和评估与泰勒主义的监视进行了比较,算法管理可以被视为对员工的一种侵入式控制形式。
这似乎也与赋予员工更多自主权、灵活工作和时间表的趋势相冲突。公司必须密切关注员工对引入算法管理的反应。
一些员工可能认为这是对他们心理安全和自主的威胁,这样导致的结果是,由于引入算法管理,员工的幸福感可能会下降。
例如,一家国际连锁酒店使用软件工具来管理客房服务员。他们需要不断更新下一个要打扫的房间,该公司还能跟踪他们打扫一个房间需要多长时间。
然而,工作人员指出,该算法没有考虑到他们工作的细微差别,使工作变得更加困难。 他们变得无法安排自己的一天,工作也变得更吃力,因为算法“指挥着”他们“在酒店各个楼层里拼命的跑来跑去”。
03
实施算法管理的建议
好消息是:在减少算法管理挑战的同时,也有可能获得算法管理的好处。 以下策略可以帮助管理者负责任地在组织中实施算法管理。
1. 战略
首先,确定算法管理的使用程度是至关重要的。Gig平台完全依赖算法管理,但对于更传统的公司来说,这可能不是正确的解决方案。
因此,这不是非此即彼的问题,而是在哪里、在什么程度上的问题。
公司可以找出成本高且相对标准化的流程,并从那里开始。在那里,你可以期待算法管理能获得最大的收益。
在任何情况下,将算法集成到业务和决策过程中都需要一个明确的战略:确定它们是增强还是自动化人类决策。
2. 变革管理
在实施算法管理时,考虑员工的福祉也很重要。在组织中引入算法是一个实质性的转变,变革管理的视角可能会很有帮助,主动的变革管理是引入算法的决定性因素。
你需要确保已经做好变革的准备。通过帮助你的员工和经理理解算法所增加的价值,可以让他们准备好迎接变革。
人们也可能对算法管理的引入感到威胁。这可能是由于缺少关于算法管理的广泛且深入的交流。
同样,员工可能会担心机器正在取代他们,为了克服这一点,在变革过程的早期就把员工和管理者纳入进来是很重要的。建立开放的沟通渠道有助于解决人们所关心的问题。
这包括主动沟通数据的用途以及谁对算法决策负责。它可以防止员工或管理者感到自己被蒙在鼓里。
沟通和变革管理应该与培训齐头并进。培训可以让人们轻松地处理与算法的关系,并移交决策。
如果人们不了解算法是如何工作的,他们可能不想使用它。培训员工和管理人员使用算法所需的技能和能力是至关重要的。
3.不断评估
最后,公司需要采用一种持续评估的文化。跟踪算法的执行情况的必要性。只有当决策是准确的、高质量的,人们才会接受算法带来的附加值。
并不是每一种算法都能提高效率,所以监控其质量是很重要的。 这一变化对员工的影响也需要跟踪,组织可以为员工提供表达关切和提供反馈的机会,特别是那些由算法管理的员工。这为组织调整和改进算法管理提供了有价值的信息。
算法管理的好处以及它如何帮助企业在竞争中保持领先地位是显而易见的。
算法不仅能提高效率,还能增强决策能力。不过,这不应该以牺牲员工福祉为代价。
自动化执行的任务(比如提供反馈)代表了一个巨大的变化,但我们对把这种变化转变成积极和可持续的事情具有主动权,管理者和人力资源需要在创造变革准备方面发挥重要作用。
没有一刀切的方法,每个组织都需要仔细评估算法的引入给他们带来的好处和挑战。
本文提出的策略可以帮助指导组织完成这一转变。算法管理的前景是巨大的。然而,有必要始终关注组织所拥有的最有价值的资产: 我们的员工。
了解更多: 方云数字化创新绩效,数据智能驱动创新型增长
J. 《互联网信息服务算法推荐管理规定》——科技向善
国家网信办等四部门联合发布的《互联网信息服务算法推荐管理规定》,将于明天(3月1日)起正式施行。《规定》要求算法推荐服务提供者应当坚持主流价值导向,积极传播正能量,建立完善人工干预和用户自主选择机制,不得利用算法实施影响网络舆论、规避监督管理以及垄断和不正当竞争行为。
在大数据时代里,看不见摸不着的算法时刻影响着我们的决策,算法推荐的初衷本来是好的,能根据用户喜好推荐用户所喜欢的东西。但也应该有度,比如大数据杀熟不应当出现,比如利用大数据推荐保健品,比如售卖个人信息。拿谷歌广告来举例,虽然谷歌也确实作恶,但广告这点,相对国内厂商来说,已经非常克制了。用户可以设置自己的年龄和性别,并且可以决定是否"少显示”一些方面的广告。来减少用户的反感。《规定》的出台 开始保障大众的隐私和数据。现在各大知名app过度推荐,转化为导向,确实容易让人沉迷网络。未成年人更不用说了。 社会 舆论和新媒体需多传播正能量,保障 科技 向善。