1. 所有差动保护里面 制动电流有那些算法
母线保护是保证电网安全稳定运行的重要系统设备,它的安全性、可靠性、灵敏性和快速性对保证整个区域电网的安全具有决定性的意义。迄今为止,在电网中广泛应用过的母联电流比相式差动保护、电流相位比较式差动保护、比率制动式差动保护,经各发、供电单位多年电网运行经验总结,普遍认为就适应母线运行方式、故障类型、过渡电阻等方面而言,无疑是按分相电流差动原理构成的比率制动式母差保护效果最佳。
但是随着电网微机保护技术的普及和微机型母差保护的不断完善,以中阻抗比率差动保护为代表的传统型母差保护的局限性逐渐体现出来。从电流回路、出口选择的抗饱和能力等多方面,传统型的母差保护与微机母差保护相比已不可同日而语。尤其是随着变电站自动化程度的提高,各种设备的信息需上传到监控系统中进行远方监控,使传统型的母差保护无法满足现代变电站运行维护的需要。
下面通过对微机母差保护在500 kV及以下系统应用的了解,依据多年现场安装、调试各类保护设备的经验,对微机母差保护与以中阻抗比率差动保护为代表的传统型母差保护的原理和二次回路进行对比分析。
1微机母差保护与比率制动母差保护的比较
1.1微机母差保护特点
a. 数字采样,并用数学模型分析构成自适应阻抗加权抗TA饱和判据。
b. 允许TA变比不同,具备调整系数可以整定,可适应以后扩建时的任何变比情况。
c. 适应不同的母线运行方式。
d. TA回路和跳闸出口回路无触点切换,增加动作的可靠性,避免因触点接触不可靠带来的一系列问题。
e. 同一装置内用软件逻辑可实现母差保护、充电保护、死区保护、失灵保护等,结构紧凑,回路简单。
f. 可进行不同的配置,满足主接线形式不同的需要。
g. 人机对话友善,后台接口通讯方式灵活,与监控系统通信具备完善的装置状态报文。
h. 支持电力行业标准IEC 608705103规约,兼容COMTRADE输出的故障录波数据格式。
1.2基本原理的比较
传统比率制动式母差保护的原理是采用被保护母线各支路(含母联)电流的矢量和作为动作量,以各分路电流的绝对值之和附以小于1的制动系数作为制动量。在区外故障时可靠不动,区内故障时则具有相当的灵敏度。算法简单但自适应能力差,二次负载大,易受回路的复杂程度的影响。
但微机型母线差动保护由能够反映单相故障和相间故障的分相式比率差动元件构成。双母线接线差动回路包括母线大差回路和各段母线小差回路。大差是除母联开关和分段开关外所有支路电流所构成的差回路,某段母线的小差指该段所连接的包括母联和分段断路器的所有支路电流构成的差动回路。大差用于判别母线区内和区外故障,小差用于故障母线的选择。
这两种原理在使用中最大的不同是微机母差引入大差的概念作为故障判据,反映出系统中母线节点和电流状态,用以判断是否真正发生母线故障,较传统比率制动式母差保护更可靠,可以最大限度地减少刀闸辅助接点位置不对应而造成的母差保护误动作。
1.3对刀闸切换使用和监测的比较
传统比率制动式母差保护用开关现场的刀闸辅助接点,控制切换继电器的动作与返回,电流回路和出口跳闸回路都依赖于刀闸辅助接点和切换继电器接点的可靠性,刀闸辅助接点和切换继电器的位置监测是保护屏上的位置指示灯,至于继电器接点好坏,在元件轻载的情况下无法知道。
微机保护装置引入刀闸辅助触点只是用于判别母线上各元件的连接位置,母线上各元件的电流回路和出口跳闸回路都是通过电流变换器输入到装置中变成数字量,各回路的电流切换用软件来实现,避免了因接点不可靠引起电流回路开路的可能。
另外,微机母差保护装置可以实时监视和自检刀闸辅助触点,如各支路元件TA中有电流而无刀闸位置;两母线刀闸并列;刀闸位置错位造成大差的差电流小于TA断线定值但小差的差电流大于TA断线定值时,均可以延时发出报警信号。微机母差保护装置是通过电流校验实现实时监视和自检刀闸辅助触点,并自动纠正刀闸辅助触点的错误的。运行人员如果发现刀闸辅助触点不可靠而影响母差保护运行时,可以通过保护屏上附加的刀闸模拟盘,用手动强制开关指定刀闸的现场状态。
1.4对TA抗饱和能力的对比
母线保护经常承受穿越性故障的考验,而且在严重故障情况下必定造成部分TA饱和,因此抗饱和能力对母线保护是一个重要的参数。
1.4.1传统型母差保护
a. 对于外部故障,完全饱和TA的二次回路可以只用它的全部直流回路的电阻等值表示,即忽略电抗。某一支路TA饱和后,大部分不平衡电流被饱和TA的二次阻抗所旁路,差动继电器可靠不动作。
b. 对于内部故障,TA至少过1/4周波才会出现饱和,差动继电器可快速动作并保持。
1.4.2微机型母差保护
微机母差保护抛开了TA电抗的变化判据,使用数学模型判据来检测TA的饱和,效果更可靠。并且在TA饱和时自动降低制动的门槛值,保证差动元件的正确动作。TA饱和的检测元件有两个:
a. 采用新型的自适应阻抗加权抗饱和方法,即利用电压工频变化量差动元件和工频变化量阻抗元件(前者)与工频变化量电压元件(后者)相对动作时序进行比较,区内故障时,同时动作,区外故障时,前者滞后于后者。根据此动作的特点,组成了自适应的阻抗加权判据。由于此判据充分利用了区外故障发生TA饱和时差流不同于区内故障时差流的特点,具有极强的抗TA饱和能力,而且区内故障和一般转换型故障(故障由母线区外转至区内)时的动作速度很快。
b. 用谐波制动原理检测TA饱和。这种原理利用了TA饱和时差流波形畸变和每周波存在线性传变区等特点,根据差流中谐波分量的波形特征检测TA饱和。该元件抗饱和能力很强,而且在区外故障TA饱和后发生同名相转换性故障的极端情况下仍能快速切除故障母线。
从原理上分析,微机型母差保护的先进性是显而易见的。传统型的母差判据受元件质量影响很大,在元件老化的情况下,存在误动的可能。微机母差的软件算法判据具备完善的装置自检功能,大大降低了装置误动的可能。
1.5TA二次负担方面的比较
比率制动母差保护和微机母差保护都是将TA二次直接用电缆引到控制室母差保护屏端子排上,二者在电缆的使用上没有差别,但因为两者的电缆末端所带设备不同,微机母差是电流变换器,电流变换器二次带的小电阻,经压频转换变成数字信号;而传统中阻抗的比率制动式母差保护,变流器二次接的是165~301 Ω的电阻,因此这两种母差保护二次所带的负载有很大的不同,对于微机母差保护而言,一次TA的母差保护线圈所带负担很小,这极大地改善了TA的工况。
2差动元件动作特性分析与对比
2.1比率差动元件工作原理的对比
常规比率差动元件与微机母差保护工作原理上没有本质的不同,只是两者的制动电流不同。前者由本母线上各元件(含母联)的电流绝对值的和作为制动量,后者将母线上除母联、分段电流以外的各元件电流绝对值的和作为制动量,差动元件动作量都是本母线上各元件电流矢量和绝对值。�
常规比率差动元件的动作判据为:
�
式中Id——母线上各支路二次电流的矢量;
Idset——差电流定值;
K、Kr——比率制动系数。
比较上述两判据,当K=Kr/(1+Kr),亦即Kr=K/(1-K) 时,常规比率差动和微机母差的复式比率差动特性是一致的。
2.2区内故障的灵敏性
考虑区内故障,假设总故障电流为1,流出母线电流的百分比为Ext,即流入母线的电流为1+Ext。则Id=1,Ir=1+2Ext,分别带入式(1)和式(3)中。对于常规比率差动元件,由Id≥KIr得:1≥K(1+2Ext),故:
�
综上所述,母线发生区内故障时,即使有故障电流流出母线,汲出电流满足式(4)和式(5)的条件,常规比率差动元件和微机母差的复式比率差动元件仍能可靠动作。
2.3区外故障的稳定性
假设穿越故障电流为I,故障支路的TA误差达到δ,则Id=δ,Ir=2±δ。
对于常规比率差动元件:
由Id<KIr,得δ<K(2±δ),故:
�
综上所述,母线发生区外故障时,常规比率差动和复式比率差动分别允许故障支路TA有式(6)和 式(7)的误差。正误差取前半部分,负误差取后半部分。值得注意的是,在比率制动系数一定的情况下,区外故障允许故障支路TA的正偏差比负偏差大,因为该正偏差使得制动量增大,负偏差使得制动量减小。在实际系统中,母线发生区外故障,故障支路TA饱和时,电流会发生负偏差,因此,正偏差无实际意义。
据式(4)至式(7)可得出制动系数与允许汲出电流和TA误差关系,详见表1。
从表1可以看出,常规比率差动元件K=0.6时,对应复式比率差动元件是Kr=1.5,区内故障允许有33%的汲出电流,区外故障允许故障支路TA有75%的负偏差,可见微机母差保护区外故障的稳定性较好。
2. RLS算法的原理
“递归最小二次方算法”——RLS算法,其又称最小二乘法。
在我们研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据
(x1, y1、x2, y2... xm , ym);
将这些数据描绘在x -y直角坐标系中
若发现这些点在一条直线附近,
可以令这条直线方程如(式1-1)。
Y计= a0 + a1 X (式1-1)
其中:a0、a1 是任意实数
为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,
将实测值Yi与利用(式1-1)计算值(Y计=a0+a1X)的离差
(Yi-Y计)的平方和〔∑(Yi - Y计)2〕最小为“优化判据”。
令: φ = ∑(Yi - Y计)2 (式1-2)
把(式1-1)代入(式1-2)中得: φ = ∑(Yi - a0 - a1 Xi)2 (式1-3)
当∑(Yi-Y计)平方最小时,可用函数
φ 对a0、a1求偏导数,令这两个偏导数等于零。
亦即:
m a0 + (∑Xi ) a1 = ∑Yi
(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi, Yi)
得到的两个关于a0、a1为未知数的两个方程组,解这两个方程组得出:
a0 = (∑Yi) / m - a1(∑Xi) / m
a1 = [∑Xi Yi - (∑Xi ∑Yi)/ m] / [∑Xi2 - (∑Xi)2 / m)]
这时把a0、a1代入(式1-1)中, 此时的(式1-1)
就是我们回归的元线性方程即:数学模型。
3. 一文搞懂PID控制算法
PID算法是工业应用中最广泛算法之一,在闭环系统的控制中,可自动对控制系统进行准确且迅速的校正。PID算法已经有100多年历史,在四轴飞行器,平衡小车、汽车定速巡航、温度控制器等场景均有应用。
之前做过循迹车项目,简单循迹摇摆幅度较大,效果如下所示:
PID算法优化后,循迹稳定性能较大提升,效果如下所示:
PID算法:就是“比例(proportional)、积分(integral)、微分(derivative)”,是一种常见的“保持稳定”控制算法。
常规的模拟PID控制系统原理框图如下所示:
因此可以得出e(t)和u(t)的关系:
其中:
Kp:比例增益,是调适参数;
Ki:积分增益,也是调适参数;
Kd:微分增益,也是调适参数;
e:误差=设定值(SP)- 回授值(PV);
t:目前时间。
数学公式可能比较枯燥,通过以下例子,了解PID算法的应用。
例如,使用控制器使一锅水的温度保持在50℃,小于50℃就让它加热,大于50度就断电不就行了?
没错,在要求不高的情况下,确实可以这么干,如果换一种说法,你就知道问题出在哪里了。
如果控制对象是一辆汽车呢?要是希望汽车的车速保持在50km/h不动,这种方法就存在问题了。
设想一下,假如汽车的定速巡航电脑在某一时间测到车速是45km/h,它立刻命令发动机:加速!
结果,发动机那边突然来了个100%全油门,嗡的一下汽车急加速到了60km/h,这时电脑又发出命令:刹车!结果乘客吐......
所以,在大多数场合中,用“开关量”来控制一个物理量就显得比较简单粗暴了,有时候是无法保持稳定的,因为单片机、传感器不是无限快的,采集、控制需要时间。
而且,控制对象具有惯性,比如将热水控制器拔掉,它的“余热”即热惯性可能还会使水温继续升高一小会。
此时就需要使用PID控制算法了。
接着咱再来详细了解PID控制算法的三个最基本的参数:Kp比例增益、Ki积分增益、Kd微分增益。
1、Kp比例增益
Kp比例控制考虑当前误差,误差值和一个正值的常数Kp(表示比例)相乘。需要控制的量,比如水温,有它现在的 当前值 ,也有我们期望的 目标值 。
当两者差距不大时,就让加热器“轻轻地”加热一下。
要是因为某些原因,温度降低了很多,就让加热器“稍稍用力”加热一下。
要是当前温度比目标温度低得多,就让加热器“开足马力”加热,尽快让水温到达目标附近。
这就是P的作用,跟开关控制方法相比,是不是“温文尔雅”了很多。
实际写程序时,就让偏差(目标减去当前)与调节装置的“调节力度”,建立一个一次函数的关系,就可以实现最基本的“比例”控制了~
Kp越大,调节作用越激进,Kp调小会让调节作用更保守。
若你正在制作一个平衡车,有了P的作用,你会发现,平衡车在平衡角度附近来回“狂抖”,比较难稳住。
2、Kd微分增益
Kd微分控制考虑将来误差,计算误差的一阶导,并和一个正值的常数Kd相乘。
有了P的作用,不难发现,只有P好像不能让平衡车站起来,水温也控制得晃晃悠悠,好像整个系统不是特别稳定,总是在“抖动”。
设想有一个弹簧:现在在平衡位置上,拉它一下,然后松手,这时它会震荡起来,因为阻力很小,它可能会震荡很长时间,才会重新停在平衡位置。
请想象一下:要是把上图所示的系统浸没在水里,同样拉它一下 :这种情况下,重新停在平衡位置的时间就短得多。
此时需要一个控制作用,让被控制的物理量的“变化速度”趋于0,即类似于“阻尼”的作用。
因为,当比较接近目标时,P的控制作用就比较小了,越接近目标,P的作用越温柔,有很多内在的或者外部的因素,使控制量发生小范围的摆动。
D的作用就是让物理量的速度趋于0,只要什么时候,这个量具有了速度,D就向相反的方向用力,尽力刹住这个变化。
Kd参数越大,向速度相反方向刹车的力道就越强,如果是平衡小车,加上P和D两种控制作用,如果参数调节合适,它应该可以站起来了。
3、Ki积分增益
Ki积分控制考虑过去误差,将误差值过去一段时间和(误差和)乘以一个正值的常数Ki。
还是以热水为例,假如有个人把加热装置带到了非常冷的地方,开始烧水了,需要烧到50℃。
在P的作用下,水温慢慢升高,直到升高到45℃时,他发现了一个不好的事情:天气太冷,水散热的速度,和P控制的加热的速度相等了。
这可怎么办?
P兄这样想:我和目标已经很近了,只需要轻轻加热就可以了。
D兄这样想:加热和散热相等,温度没有波动,我好像不用调整什么。
于是,水温永远地停留在45℃,永远到不了50℃。
根据常识,我们知道,应该进一步增加加热的功率,可是增加多少该如何计算呢?
前辈科学家们想到的方法是真的巧妙,设置一个积分量,只要偏差存在,就不断地对偏差进行积分(累加),并反应在调节力度上。
这样一来,即使45℃和50℃相差不是太大,但是随着时间的推移,只要没达到目标温度,这个积分量就不断增加,系统就会慢慢意识到:还没有到达目标温度,该增加功率啦!
到了目标温度后,假设温度没有波动,积分值就不会再变动,这时,加热功率仍然等于散热功率,但是,温度是稳稳的50℃。
Ki的值越大,积分时乘的系数就越大,积分效果越明显,所以,I的作用就是,减小静态情况下的误差,让受控物理量尽可能接近目标值。
I在使用时还有个问题:需要设定积分限制,防止在刚开始加热时,就把积分量积得太大,难以控制。
PID算法的参数调试是指通过调整控制参数(比例增益、积分增益/时间、微分增益/时间) 让系统达到最佳的控制效果 。
调试中稳定性(不会有发散性的震荡)是首要条件,此外,不同系统有不同的行为,不同的应用其需求也不同,而且这些需求还可能会互相冲突。
PID算法只有三个参数,在原理上容易说明,但PID算法参数调试是一个困难的工作,因为要符合一些特别的判据,而且PID控制有其限制存在。
1、稳定性
若PID算法控制器的参数未挑选妥当,其控制器输出可能是不稳定的,也就是其输出发散,过程中可能有震荡,也可能没有震荡,且其输出只受饱和或是机械损坏等原因所限制。不稳定一般是因为过大增益造成,特别是针对延迟时间很长的系统。
2、最佳性能
PID控制器的最佳性能可能和针对过程变化或是设定值变化有关,也会随应用而不同。
两个基本的需求是调整能力(regulation,干扰拒绝,使系统维持在设定值)及命令追随 (设定值变化下,控制器输出追随设定值的反应速度)。有关命令追随的一些判据包括有上升时间及整定时间。有些应用可能因为安全考量,不允许输出超过设定值,也有些应用要求在到达设定值过程中的能量可以最小化。
3、各调试方法对比
4、调整PID参数对系统的影响
4. 数据挖掘十大算法-
整理里一晚上的数据挖掘算法,其中主要引自wiki和一些论坛。发布到上作为知识共享,但是发现Latex的公式转码到网页的时候出现了丢失,暂时没找到解决方法,有空再回来填坑了。
——编者按
一、 C4.5
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法[1],该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法主要应用于统计分类中,主要是通过分析数据的信息熵建立和修剪决策树。
1.1 决策树的建立规则
在树的每个节点处,C4.5选择最有效地方式对样本集进行分裂,分裂规则是分析所有属性的归一化的信息增益率,选择其中增益率最高的属性作为分裂依据,然后在各个分裂出的子集上进行递归操作。
依据属性A对数据集D进行分类的信息熵可以定义如下:
划分前后的信息增益可以表示为:
那么,归一化的信息增益率可以表示为:
1.2 决策树的修剪方法
C4.5采用的剪枝方法是悲观剪枝法(Pessimistic Error Pruning,PEP),根据样本集计算子树与叶子的经验错误率,在满足替换标准时,使用叶子节点替换子树。
不妨用K表示训练数据集D中分类到某一个叶子节点的样本数,其中其中错误分类的个数为J,由于用估计该节点的样本错误率存在一定的样本误差,因此用表示修正后的样本错误率。那么,对于决策树的一个子树S而言,设其叶子数目为L(S),则子树S的错误分类数为:
设数据集的样本总数为Num,则标准错误可以表示为:
那么,用表示新叶子的错误分类数,则选择使用新叶子节点替换子树S的判据可以表示为:
二、KNN
最近邻域算法(k-nearest neighbor classification, KNN)[2]是一种用于分类和回归的非参数统计方法。KNN算法采用向量空间模型来分类,主要思路是相同类别的案例彼此之间的相似度高,从而可以借由计算未知样本与已知类别案例之间的相似度,来实现分类目标。KNN是一种基于局部近似和的实例的学习方法,是目前最简单的机器学习算法之一。
在分类问题中,KNN的输出是一个分类族群,它的对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较小)中最常见的分类决定了赋予该对象的类别。若k = 1,则该对象的类别直接由最近的一个节点赋予。在回归问题中,KNN的输出是其周围k个邻居的平均值。无论是分类还是回归,衡量邻居的权重都非常重要,目标是要使较近邻居的权重比较远邻居的权重大,例如,一种常见的加权方案是给每个邻居权重赋值为1/d,其中d是到邻居的距离。这也就自然地导致了KNN算法对于数据的局部结构过于敏感。
三、Naive Bayes
在机器学习的众多分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)[3]。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
在假设各个属性相互独立的条件下,NBC模型的分类公式可以简单地表示为:
但是实际上问题模型的属性之间往往是非独立的,这给NBC模型的分类准确度带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型;而在属性相关性较小时,NBC模型的性能最为良好。
四、CART
CART算法(Classification And Regression Tree)[4]是一种二分递归的决策树,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。在CART算法中主要分为两个步骤:将样本递归划分进行建树过程;用验证数据进行剪枝。
五、K-means
k-平均算法(k-means clustering)[5]是源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-means的聚类目标是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类。
5.1 k-means的初始化方法
通常使用的初始化方法有Forgy和随机划分(Random Partition)方法。Forgy方法随机地从数据集中选择k个观测作为初始的均值点;而随机划分方法则随机地为每一观测指定聚类,然后执行“更新”步骤,即计算随机分配的各聚类的图心,作为初始的均值点。Forgy方法易于使得初始均值点散开,随机划分方法则把均值点都放到靠近数据集中心的地方;随机划分方法一般更适用于k-调和均值和模糊k-均值算法。对于期望-最大化(EM)算法和标准k-means算法,Forgy方法作为初始化方法的表现会更好一些。
5.2 k-means的标准算法
k-means的标准算法主要包括分配(Assignment)和更新(Update),在初始化得出k个均值点后,算法将会在这两个步骤中交替执行。
分配(Assignment):将每个观测分配到聚类中,使得组内平方和达到最小。
更新(Update):对于上一步得到的每一个聚类,以聚类中观测值的图心,作为新的均值点。
六、Apriori
Apriori算法[6]是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。Apriori采用自底向上的处理方法,每次只扩展一个对象加入候选集,并且使用数据集对候选集进行检验,当不再产生匹配条件的扩展对象时,算法终止。
Apriori的缺点在于生成候选集的过程中,算法总是尝试扫描整个数据集并尽可能多地添加扩展对象,导致计算效率较低;其本质上采用的是宽度优先的遍历方式,理论上需要遍历次才可以确定任意的最大子集S。
七、SVM
支持向量机(Support Vector Machine, SVM)[7]是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
除了进行线性分类之外,SVM还可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中,即支持向量机在高维或无限维空间中构造超平面或超平面集合,用于分类、回归或其他任务。直观来说,分类边界距离最近的训练数据点越远越好,因为这样可以缩小分类器的泛化误差。
八、EM
最大期望算法(Expectation–Maximization Algorithm, EM)[7]是从概率模型中寻找参数最大似然估计的一种算法。其中概率模型依赖于无法观测的隐性变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
九、PageRank
PageRank算法设计初衷是根据网站的外部链接和内部链接的数量和质量对网站的价值进行衡量。PageRank将每个到网页的链接作为对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。
算法假设上网者将会不断点网页上的链接,当遇到了一个没有任何链接出页面的网页,这时候上网者会随机转到另外的网页开始浏览。设置在任意时刻,用户到达某页面后并继续向后浏览的概率,该数值是根据上网者使用浏览器书签的平均频率估算而得。PageRank值可以表示为:
其中,是被研究的页面集合,N表示页面总数,是链接入页面的集合,是从页面链接处的集合。
PageRank算法的主要缺点是的主要缺点是旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多外链,除非它是某个站点的子站点。
十、AdaBoost
AdaBoost方法[10]是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它被选中的概率就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能“聚焦于”那些较难分的样本上。在具体实现上,最初令每个样本的权重都相等,对于第k次迭代操作,我们就根据这些权重来选取样本点,进而训练分类器Ck。然后就根据这个分类器,来提高被它分错的的样本的权重,并降低被正确分类的样本权重。然后,权重更新过的样本集被用于训练下一个分类器Ck[,并且如此迭代地进行下去。
AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感。但在一些问题中,AdaBoost方法相对于大多数其它学习算法而言,不会很容易出现过拟合现象。AdaBoost方法中使用的分类器可能很弱(比如出现很大错误率),但只要它的分类效果比随机好一点(比如两类问题分类错误率略小于0.5),就能够改善最终得到的模型。而错误率高于随机分类器的弱分类器也是有用的,因为在最终得到的多个分类器的线性组合中,可以给它们赋予负系数,同样也能提升分类效果。
引用
[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879
[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6
[4] decisiontrees.net Interactive Tutorial
[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002
[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.
[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018
[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977
[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]
[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855