㈠ knn算法是有监督还是无监督
knn算法是有监督机器学习算法。
KNN法即K最邻近法,最初由 Cover和Hart于1968年提态搏出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。KNN是通过测量不同特征值之间的距离进行分类州迟。
㈡ 聚类是有监督还是无监督
聚类分析是无监督算法的理论与实现,聚类是无监督。
简而言耐举之,聚类不过是根据某些属性分离观察值。用更专业的术语来说,聚类是一种无监督的机器学习算法,是一种过程,通过该过程将观察值(数据)进行分组,以使相似的观察值彼此靠近。这是一种“无监督”算法,因为与有监督算法(例如随机森林)不同,您不必使用标记的数据对其进行悉枣训练,计算机会根据基础模式和属性对昌陆碧数据进行聚类。
㈢ 有监督分类的算法
监督分类(supervisedclassification)又称训练场地法,是以建立统计识别函数为理论基础,依据典型样本训练方法进行分类的技术。
回归:在建模的过程中需同时具备自变量x和因变量y,属于有监督的学习算法。输出变量为离散型。
主要介绍:Logistic,决策树,随机森林,KNN,朴素贝则仿叶斯
tips:决策树,随机森林,KNN也可用于连续型变量的预测。
Logistic回归:
思想:
高低。
Logistic针对坦盯此离散型因变量的判别,如客户是否优质,客户的流失率概率等。
将线性回归的预测值经过非线性的Logit函数转换为[0,1]之间的概率值。参数求解:结合迭代对每一个未知的参数做梯度下降,学习率的步长通常可以取0.1,0.05,0.01,太小时需要迭代太多次收敛速度过慢,过大时难以得到理想的值可能只是局部最小。参数解释:优势比/发生比之比,如肿瘤体积每增加一个单位让迅,将会使癌症发生比变化e参数次倍。
㈣ 降维算法之LDA(线性判别降维算法)--有监督
LDA在模式识别领域( 比如人脸识别,舰艇识别等图形图像识别领域 )中有非常广泛的应用,因此我们有必要了解下它的算法原理。
不同于PCA方差最大化理论, LDA算法的思想是将数据投影到低维空间之后,使得同一类数据尽可能的紧凑,不同类的数据尽可能的分散 。因此,LDA算法是一种有监督的机器学习算法。同时,LDA有如下两个假设:(1)原始数据根据样本均值进行分类。(2)不同类的数据拥有相同的协方差矩阵。当然,在实际情况中,不可能满足以上两个假设。但是 当数据主要是由均值来区分的时候,LDA一般都可以取得很好的效果 。
(1)计算类内散度矩阵
(2)计算类间散度矩阵
(3)计算矩阵
(4)对矩阵 进行特征分解,计算最大的d个最大的特征值对应的特征向量组成W。
(5)计算投影后的数据点
以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外,还可以用于分类。 一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布 , 这样利用LDA进行投影后,可以利用极大似然估计计算各个累呗投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数 。当一个新的样本到来后,我们可以将它投影,然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算它属于这个类别的概率,最大的概率对应的类别即为预测类别。LDA应用于分类现在似乎也不是那么流行。
class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)
参数:
(1)solver: str类型,默认值为"svd",
svd:使用奇异值分解求解,不用计算协方差矩阵,适用于特征数量很大的情形,无法使用参数收缩(shrinkage)。
lsqr:最小平方QR分解,可以结合shrinkage使用。
eigen:特征值分解,可以结合shrinkage使用。
(2)shrinkage: str or float类型,默认值为None
是否使用参数收缩
None:不使用参数收缩
auto:str,使用Ledoit-Wolf lemma
浮点数:自定义收缩比例。
(3)components:int类型,需要保留的特征个数,小于等于n-1
属性:
(1)covariances_:每个类的协方差矩阵,shape = [n_features, n_features]
(2)means_:类均值,shape = [n_features, n_feateures]
(3)priors_:归一化的先验概率。
(4)rotations_:LDA分析得到的主轴,shape = [n_features, n_component]
(5)scalings_:数组列表,每个高斯分布的方差σ
特点:
降维之后的维数最多为类别数-1。所以当数据维度很高,但是类别数少的时候,算法并不适用 。LDA算法既可以用来降维,又可以用来分类。但是目前来说,主要还是用于降维。在我们 进行图像识别相关的数据分析时,LDA是一个有力的工具 。
优点:
(1) LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优 。
(2)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
缺点:
(1)LDA不适合非高斯分布样本进行降维,PCA也存在这个问题。
(2)LDA降维最多降到类别数K-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。 当然目前有一些LDA的进化版算法可以绕过这个问题 。
(3) LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好 。
(4)LDA可能过度拟合数据。
二者都有 降维 的作用。
1.左 边是PCA,属于无监督方法 ,当数据没有标签时可以用它。 右边是LDA,属于监督学习方法 。考虑了数据的分类信息,这样数据在低维空间上就可以分类了,减少了很多的运算量。
2. PCA主要是从特征的协方差角度考虑,追求的是在降维之后能够最大化保持数据的内在信息 。它不考虑分类信息,因此降低维度后,信息损失降到最低,但分类上可能会变得更加困难。 LDA追求的是降维后的数据点尽可能容易被区分 。降维后的样本数据在新的维度空间有最大的类间距离和最小的类内方差,数据在低维空间有最佳的可分离性。
3. PCA降维后的维度数目是和数据维度相关的 ,原始数据是n维,那么PCA后维度为1、2~n维。 LDA后的维度数目是和类别的个数相关的 ,原始数据是n维,一共有C个类别,那么LDA后维度为1、2~C-1维。
4. PCA投影的坐标系都是正交的 。 LDA关注分类能力,不保证投影到的坐标系是正交的 。
㈤ 常见的监督学习算法
K-近邻算法:K-近邻是一种分类算法,其思路是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
ID3算法:划分数据集的最大原则就是将数据变得更加有序。熵(entropy)是描述信息不确定性(杂乱程度)的一个值。
(5)机器学习算法哪些属于有监督算法扩展阅读:
注意事项:
分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。给一张图片贴上猫或狗的标签就是这种情况。当分类标签只有两个时,这就是二元分类,超过两个则是多元分类。
预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。一个典型实例是根据今年和前年的销售业绩以预测下一年的销售业绩。
㈥ 常见的监督学习算法
K-近邻算法,决策树,朴素贝叶斯,逻辑回归这些都是比较常见的。所有的回归算法和分类算法都属于监督学习。
在机器学习中,无监督学习就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。
回归和分类的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。
㈦ k近邻算法是有监督还是无监督
k近邻算法是有监督。
k近邻算法的流程和优点:
k近邻算法的一般流程是:
1、收集数据。
2、计算待测数据与训练数据之间的距离(一般采用欧式距离)。
3、将计算的距离排序。
4、找出距离最小的k个值。
5、计算找出值中每个类别的频次。
6、返回最高频次的类别。
优点:精度高、对异常值不敏感缺点:计算复杂度高、空间复杂度高。K近邻最直接的利用了样本之间的关系,减少了类别特征选择不当对分类结果造成的不利影响,可以最大程度减少分类过程中的做察派误差项。