降维的评价算法_机器学习中的降维算法和梯度下降法

1. PCA降维算法

降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集，它们会占用计算机的内存和硬盘空间，而且在运算时会减缓速度。
降维能够使得数据量被压缩，加快运算速度，减小储存空间，以及方便可视化的观察数据特点。

PS：在降维中，我们减少的是特征种类而不是样本数量，样本数量m不变，特征值数量n会减少。

一种常用的降维算法是主成分分析算法（Principal Component Analysis），简称 PCA 。

PCA是通过找到一个低维的线或面，然后将数据投影到线或面上去，然后通过减少投影误差（即每个特征到投影的距离的平均值）来实现降维。

上图是一个包含二维特征值的样本集。黑色的叉代表样本，红色的线表示找到的低维的线，绿色的叉则是样本投影在线上的位置。而它们的投影距离就是PCA算法所需要考虑的。

通过上图可以看出PCA算法就是找出一个线，在数学上就是一个向量，使得其他样本投影到该向量上的距离最小。

推而广之：
一般情况下，将特征值的维度从n降到k，就是找到k个向量，使得样本在这些向量上的投影最小。

例如，2维降到1维，就是找到1个向量，即一条线；3维降到2维，就是找到2向量，即一个平面。

数据处理

假设有m个样本集：
下面需要对数据做一下特征值缩放或者均值归一化。
先计算出平均值，然后用样本值减去平均值。

然后用替换，可以是数据最大值最小值的范围或者标准差。

算法部分

我们需要的就是矩阵U，他是一个n维方阵，它的每一列就是我们需要的向量：

使用矩阵可以降维：

那么要回到原来的维度上去就需要：

这里我们只能得到原来的近似值

与近似相等，两者之间的差就是投影误差，或平均平方映射误差：

数据的总变差（total variation），即样本的长度平方的均值：

选择维度k的最小值的方法：

表示平方投影误差除以总变差的值小于0.01，用PCA的语言称之为 保留了99%的差异性 。
PS：这个值是可以变化的，可以是95%，90%，85%等等。

使用循环验证的办法：
初始化，然后计算出，通过计算出和，然后通过上方的公式计算出值是不是小于0.01。
如果不是，增加k值，直到获得最小的k值满足条件。

快捷办法

通过奇异值分解的到的矩阵是一个n维的对角矩阵：

通过这个矩阵可以来计算：

也可以用下面的式子：

这种方法就非常快捷高效。

我们在训练集上通过PCA获得矩阵，在交叉验证集和测试集上就不能再使用PCA来计算矩阵了，而是直接用训练集里的矩阵来映射交叉验证集和测试集上的数据。

PCA最常用的就是压缩数据，加速算法的学习，或者可视化数据。

PCA的错误用法，用来防止算法过拟合
算法过拟合的原因之一是算法过于复杂，特征值的维度过高，使用PCA可以降低维度，看起来会有效，但是实际上效果很差。防止算法过拟合还是使用正则化的方法来实现。

还有一个注意点。就是在设计一个机器学习算法时，不用一开始就考虑降维，先在不使用PCA的条件下设计算法，当算法出现问题，例如，算法计算过慢，占用大量内存...，之后当确定需要使用PCA的时候再继续使用。

2. 第11章降维

去掉数据集中关联性不大和冗余的数据，确保不出现过度适应的前提下降低计算的成本，需要对特征进行无损规约，数学上叫降维。广泛用于模式识别、文本检索以及机器学习领域，主要分为两类，特征提取和特征筛选，前者是高维数据投影到低维空间，后者是特征子集代替锋做原始特征集，包括特征分级和特征筛选，分级是找到优化后的特征子集。
特征提取可以分成线性抽取和非线性抽取两种方法，前者是试图找到一个仿射空间能够最好的说明数据分布的变化，后者对高维非线性曲线平面分布的数据非常有效。
线性特征的抽取方法：

首先设定一些标准，然后挑选出满足标准的特征。

算法首先调用一个权重函数得到每个特征的权重值，权重评价指标是平均精确度下降 importance.type = 1 ，除了上面用的随机森林，还可以使用 chi.squared, information.gain 。
然后获取优化的特征子集，首先5折交叉验证评估特征子集的重要性，爬山搜索算法从原始特征集中选出优化的特征子集，也可以选择其他算法，比如 forward.search 。还可以使用caret包进行特征筛选，据说这个包是个宝呀，包罗万象。

主成分分析是一种应用非常广泛的线性降维方法，适合数据集包含非常多的特征，并且特征间彼此冗余（相关的情况）。通过将特征集缩减成一小部分能代表原始特征集最主要变化的主要特征分量，实现高维数据到低维数据空间的映射。

特征选择过程中会去掉一些彼此关联但有价值的特征，需要在特征制取过程中考虑将这些特征综合到单特征中，PCA采用正交变换将彼此有关行基丛联的特征转化为主成分，以便我们确定方差趋档樱势。
算法主要包括以下步骤：1）找到平均向量的数据点；2）计算
协方差矩阵；3）计算特征向量；4）对特征向量排序并选择前k个特征向量；5）构建特征向量矩阵；最后，将数据样本转换成新的子集。
拓展
princomp 是另一个高不成分分析函数，与上面的 prcomp 采用奇异值分解不同，采用相关矩阵或协方差矩阵的特征值计算方法，一般更习惯用后者。

以上两个函数均来自stats包，还可以使用psych包中的principal函数进行：

Kaiser方法、scree(碎石测试）和依据挑选规则使用解释变量比例都可以。碎石测试的主要目的是将主成分结果以碎石图方式表达，从图中找到引起曲线斜率变化最快的因素。

主成分为2时，斜率变化最快。也可以使用nfactors以并行分析非图形方式作Cattell碎石来测试。

biplot绘制数据与原始特征在前两个主成分上的投影图

biplot绘制数据及原始特征在前两个主成分上的投影，农业高，教育和检查低的省份在PC1上得分高；婴儿死亡率高，农业低的省份在主成分PC2上得分较高。

多维尺度分析通过图形方式展示多个对象之间的相似或相异程度距离），多维是指映射到一维、二维或多维空间表达CF全家人相对距离，一般使用一或二维空间。

分成计量和非计量两类，前者是主要考虑如何保证降维后各对象之间的距离尽可能接近它们在原始空间的距离，后者则假设两个空间中对象的距离排名已知，而且变换后排名不变。

可以通过将投影维度绘制在一个散点图中比较MDS和PCA的差异，如果MDS采用欧氏距离，投影维度将与PCA完全一致。

奇异值分解是矩阵分解的一种形式，可以将一个矩阵分解为两个正交矩阵和一个对角矩阵，原始矩阵可由这三个矩阵相乘得到。可以帮助去掉那些从线性代数角度观察存在线性相关冗余的矩阵，可以应用在特征筛选，图像处理和聚类等。

SVD是一类分解实数或复数矩阵的常见方法，PCA可以被看成SVD的一种特例：

两个矩阵基本相同。

[图片上传失败...(image-be0ae8-1639570485003)]
图像压缩领域应用最为广泛的标准测试图像，花花公子当年的模特图呀！

不知为啥，读什么图片都是负片呢？先继续：

ISOMAP属于流形学习方法，支持线性空间到非线性数据结构的转换，与MDS类似，它也能够以图形方式展现对象之间的相似性或相异性（距离），不过，由于数据采用非线性结构表示，以几何距离代替MDS中有欧氏距离。

ISOMAP是一种等距映射非线性降维方法，如果将计量MDS方法中数据点间成对的欧氏距离替换成邻接图间的测地距离，就可以将ISOMAP当做计量MDS方法的扩展。
算法分为4步：确定邻近点，构建邻接图，计算最短路径和MDS分析找到数据间的低维嵌入。

扩展
可以将RnavGraph包将图形作为数据浏览的基础方式来实现高维数据的可视化。

LLE算法是PCA算法的扩展，通过嵌入高维空间内的流形映射到低维空间来实现数据压缩。ISOMAP是全局性非线性降维，LLE主要是局部母性降维算法，假设每个数据点可以由k个邻近点的母性组合构成，映射后能保持原来的数据性质。

LLE是一种非线性降维算法，基于它我们可以得到高维数据在低维空间保持原有数据邻近嵌入关系的映射。算法主要分成三步：计算每个点的k个邻近，然后计算每个邻近点的权值，使得每个点都能最优地由其邻近点组合重构，即残差和最小。

扩展
还可以选择RDRTollbox包实现非线性降维，支持ISOMAP和LLE算法。

3. 数据降维方法介绍（六）

姓名：何源学号：21011210073 学院：通信工程学院

【嵌牛导读】线性鉴别分析方法介绍

【嵌牛鼻子】线性鉴别分析（LDA）

【嵌牛提问】线性鉴别分析方法如何降维以及原理是什么？

【嵌牛正文】

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。假设有两类数据，分别为红色和蓝色，如下图1所示，这些数据特征是二维的，希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在进行图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

优点：

（1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识；

（2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

缺点：

（1）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题；

（2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题；

（3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好；

（4）LDA可能过度拟合数据。

4. 机器学习中的降维算法和梯度下降法

机器学习中有很多算法都是十分经典的，比如说降维算法以及梯度下降法，这些方法都能够帮助大家解决很多问题，因此学习机器学习一定要掌握这些算法，而且这些算法都是比较受大家欢迎的。在这篇文章中我们就给大家重点介绍一下降维算法和梯度下降法。
降维算法
首先，来说一说降维算法，降维算法是一种无监督学习算法，其主要特征是将数据从高维降低到低维层次。在这里，维度其实表示的是数据的特征量的大小，当特征量大的话，那么就给计算机带来了很大的压力，所以我们可以通过降维计算，把维度高的特征量降到维度低的特征量，比如说从4维的数据压缩到2维。类似这样将数据从高维降低到低维有两个好处，第一就是利于表示，第二就是在计算上也能带来加速。
当然，有很多降维过程中减少的维度属于肉眼可视的层次，同时压缩也不会带来信息的损失。但是如果肉眼不可视，或者没有冗余的特征，这怎么办呢？其实这样的方式降维算法也能工作，不过这样会带来一些信息的损失。不过，降维算法可以从数学上证明，从高维压缩到的低维中最大程度地保留了数据的信息。所以说，降维算法还是有很多好处的。
那么降维算法的主要作用是什么呢？具体就是压缩数据与提升机器学习其他算法的效率。通过降维算法，可以将具有几千个特征的数据压缩至若干个特征。另外，降维算法的另一个好处是数据的可视化。这个优点一直别广泛应用。
梯度下降法
下面我们给大家介绍一下梯度下降法，所谓梯度下降法就是一个最优化算法，通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一，虽然现在已经不具有实用性，但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢。好比将函数比作一座山，我们站在某个山坡上，往四周看，从哪个方向向下走一小步，能够下降的最快;当然解决问题的方法有很多，梯度下降只是其中一个，还有很多种方法。
在这篇文章中我们给大家介绍了关于机器算法中的降维算法以及梯度下降法，这两种方法是机器学习中十分常用的算法，降维算法和梯度下降法都是十分实用的，大家在进行学习机器学习的时候一定要好好学习这两种算法，希望这篇文章能够帮助大家理解这两种算法。

5. 常用降维方法之PCA 和 LDA

PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。而方差最大的那个维度是主成分。
PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小。
PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。

再举个栗子：

下面举一个简单的例子，说明PCA的过程。

假设我们的数据集有10个二维数据(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9)，需要用PCA降到1维特征。

首先我们对样本中心化，这里样本的均值为(1.81, 1.91),所有的样本减去这个均值向量后，即中心化后的数据集为(0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01)。

现在我们开始求样本的协方差矩阵，由于我们是二维的，则协方差矩阵为：

对于我们的数据，求出协方差矩阵为：

求出特征值为（0.0490833989， 1.28402771），对应的特征向量分别为：

由于最大的k=1个特征值为1.28402771，对于的k=1个特征向量为则我们的W=
我们对所有的数据集进行投影得到PCA降维后的10个一维数据集为：(-0.827970186， 1.77758033， -0.992197494， -0.274210416， -1.67580142， -0.912949103， 0.0991094375， 1.14457216, 0.438046137， 1.22382056)

在上面的PCA算法中，我们假设存在一个线性的超平面，可以让我们对数据进行投影。但是有些时候，数据不是线性的，不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想，先把数据集从n维映射到线性可分的高维N>n,然后再从N维降维到一个低维度n', 这里的维度之间满足n'<n<N。

使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA, 以下简称KPCA。假设高维空间的数据是由n维空间的数据通过映射ϕ产生。

则对于n维空间的特征分解：

映射为：

通过在高维空间进行协方差矩阵的特征值分解，然后用和PCA一样的方法进行降维。一般来说，映射ϕ不用显式的计算，而是在需要计算的时候通过核函数完成。由于KPCA需要核函数的运算，因此它的计算量要比PCA大很多。

这里对PCA算法做一个总结。作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点，出现了很多PCA的变种，比如第六节的为解决非线性降维的KPCA，还有解决内存限制的增量PCA方法Incremental PCA，以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA算法的主要优点有：

LDA（线性判别分析，Linear Discriminant Analysis）是另一种常用的降维方法，它是有监督的。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下它的算法原理。这里需要注意的是，此处的LDA与文本主题模型中的LDA（隐含狄利克雷分布，Latent Dirichlet Allocation）并不相同，他是一种处理文档的主题模型。
LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。

LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。
什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。
可能还是有点抽象，我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。

LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

这点可以从下图形象的看出，在某些数据分布下LDA比PCA降维较优。

当然，某些某些数据分布下PCA比LDA降维较优，如下图所示：

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

LDA算法的主要优点有：

参考文章：刘建平老师的博客园

6. 降维算法之LDA(线性判别降维算法)--有监督

LDA在模式识别领域( 比如人脸识别，舰艇识别等图形图像识别领域 )中有非常广泛的应用，因此我们有必要了解下它的算法原理。

不同于PCA方差最大化理论， LDA算法的思想是将数据投影到低维空间之后，使得同一类数据尽可能的紧凑，不同类的数据尽可能的分散。因此，LDA算法是一种有监督的机器学习算法。同时，LDA有如下两个假设：(1)原始数据根据样本均值进行分类。(2)不同类的数据拥有相同的协方差矩阵。当然，在实际情况中，不可能满足以上两个假设。但是当数据主要是由均值来区分的时候，LDA一般都可以取得很好的效果。

（1）计算类内散度矩阵

（2）计算类间散度矩阵

（3）计算矩阵

（4）对矩阵进行特征分解，计算最大的d个最大的特征值对应的特征向量组成W。

（5）计算投影后的数据点

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个累呗投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。LDA应用于分类现在似乎也不是那么流行。

    class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)

参数：

（1）solver: str类型，默认值为"svd"，

svd:使用奇异值分解求解，不用计算协方差矩阵，适用于特征数量很大的情形，无法使用参数收缩(shrinkage)。

lsqr:最小平方QR分解，可以结合shrinkage使用。

eigen：特征值分解，可以结合shrinkage使用。

（2）shrinkage: str or float类型，默认值为None

是否使用参数收缩

None:不使用参数收缩

auto:str，使用Ledoit-Wolf lemma

浮点数：自定义收缩比例。

（3）components：int类型，需要保留的特征个数，小于等于n-1

属性：

（1）covariances_：每个类的协方差矩阵，shape = [n_features, n_features]

（2）means_：类均值，shape = [n_features, n_feateures]

（3）priors_：归一化的先验概率。

（4）rotations_：LDA分析得到的主轴，shape = [n_features, n_component]

（5）scalings_：数组列表，每个高斯分布的方差σ

     特点：

降维之后的维数最多为类别数-1。所以当数据维度很高，但是类别数少的时候，算法并不适用。LDA算法既可以用来降维，又可以用来分类。但是目前来说，主要还是用于降维。在我们进行图像识别相关的数据分析时，LDA是一个有力的工具。

优点：

（1） LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

（2）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。

缺点：

（1）LDA不适合非高斯分布样本进行降维，PCA也存在这个问题。

（2）LDA降维最多降到类别数K-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。

（3） LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。

（4）LDA可能过度拟合数据。

二者都有降维的作用。

1.左边是PCA，属于无监督方法，当数据没有标签时可以用它。右边是LDA，属于监督学习方法。考虑了数据的分类信息，这样数据在低维空间上就可以分类了，减少了很多的运算量。

2. PCA主要是从特征的协方差角度考虑，追求的是在降维之后能够最大化保持数据的内在信息。它不考虑分类信息，因此降低维度后，信息损失降到最低，但分类上可能会变得更加困难。 LDA追求的是降维后的数据点尽可能容易被区分。降维后的样本数据在新的维度空间有最大的类间距离和最小的类内方差，数据在低维空间有最佳的可分离性。

3. PCA降维后的维度数目是和数据维度相关的，原始数据是n维，那么PCA后维度为1、2~n维。 LDA后的维度数目是和类别的个数相关的，原始数据是n维，一共有C个类别，那么LDA后维度为1、2~C-1维。

4. PCA投影的坐标系都是正交的。 LDA关注分类能力，不保证投影到的坐标系是正交的。

7. (十)PCA降维算法

主成分分析（Principal components analysis，以下简称PCA） 是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。它可以通过 线性变换 将原始数据变换为一组 各维度线性无关 的表示，以此来提取数据的主要线性分量。需要注意的是，PCA一般只用于线性数据降维，对于非线性数据一般采用KPCA。

降维就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据，并且希望损失尽可能的小。首先看几张图，有一个直观的认识。
这里面，把椭圆看成是数据：

基于这个知识，如果我们想对数据进行降维的话，比如图1的两个维度的数据降成一维，我们可以选择保留X1这个维度的数据，因为在这个维度上蕴含的信息量更多。同理，图2就可以保留x2这个维度的数据。但是，问题来了，图3应该保留哪个维度的数据呢？答案是保留哪个维度都不好，都会丢失较大的信息量。但是，如果我们把图3的坐标轴旋转一下

比较容易看出，图3在新的坐标轴下就能进行降维了。
所以，第一，变换正确的坐标轴（基）；第二，保留方差最大的几个轴作为主成分，这样的做法就是PCA的核心思想。

从前文可以看出，理想的坐标轴是要求数据投在新坐标轴后，尽可能的分散，也就是数据的方差最大。然后每次选择方差最大的轴作为主成分。
将前文2维降1维的例子扩展到更高维度，还有一个问题需要解决，考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因为发生了大量的信息重复，起不到降维的作用，因此，应该有其他约束条件——就是正交。 PCA要求轴与轴之间是正交的，也就是不同维度的信息相关性为0。

在表示相关性中，相关系数与协方差是等价的，这里为了方便计算，使用协方差。下面是协方差公式，当协方差为0时，表示两个特征a,b线性不相关。

可以发现，当a=b时，协方差公式就变成了方差公式，方差是特殊的协方差。如果运气更好，特征a与b的平均数都为0，那么公式会进一步简化，得到：

所以说，为了计算方便，PCA降维前，一般都要求将所有特征属性中心化，即平均数为0。

因为PCA要求，同一轴内方差最大，不同轴协方差为0，如何把它们放在一块呢？这里就引入了协方差矩阵的概念：
假设有m个样本，每个样本特征维度是2，每个特征都经过中心化处理：

我们发现协方差矩阵的对角线是方差，而且是对称矩阵。方差和协方差都放在了一个矩阵里面，只需对这个矩阵优化，使它除了对角线的其余元素都为0，就可以了，美滋滋。

我们知道矩阵乘法，本质上就是一种线性变换的过程。而正交基矩阵的乘法，则是坐标系变换的过程。设原空间的数据为X，协方差矩阵为C，经过正交基矩阵P，得到了新坐标系下的数据Y，即Y=PX。那么新坐标系下的协方差矩阵D是怎样的呢？

我们发现，新旧空间的协方差矩阵是有关系的，而且都和变换矩阵P有关系。问题就转化成了，能不能找到一个矩阵P，使得新空间下的协方差矩阵的非对角线元素都为0.

首先，原始数据矩阵X的协方差矩阵C是一个实对称矩阵，它有特殊的数学性质：

也就是说，P就是是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。 如果设P按照中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y 。
其实，经过数学上的推导的，我们就可以知道，特征值对应的特征向量就是理想中想取得正确的坐标轴，而特征值就等于数据在旋转之后的坐标上对应维度上的方差。

由于协方差矩阵的维度和特征相同，所以在进行特征值分解时，得到的特征值数目不会超过特征的数目。

在学习线性代数时，我们都会学矩阵的特征值分解，我们知道一个方阵A经过 特征值分解 后就得到 特征向量 和 特征值 了。那么，这个所谓的特征值和特征向量到底是什么东西呢？
很多人都会说是那个经典的式子：

首先给出概念上的一种解释。所谓的特征值和特征向量，最重要的是理解“特征”这两个字，特征向量翻译为eigen vector, eigen这个单词来自德语，本义是在“本身固有的，本质的”。纯数学的定义下，并不能很明白地理解到底为什么叫做特征值和特征向量。但是举一个应用例子，可能就容易理解多了。

在图像处理中，有一种方法就是特征值分解。我们都知道图像其实就是一个像素值组成的矩阵，假设有一个100x100的图像，对这个图像矩阵做特征值分解，其实是在提取这个图像中的特征，这些提取出来的特征是一个个的向量，即对应着特征向量。而这些特征在图像中到底有多重要，这个重要性则通过特征值来表示。比如这个100x100的图像矩阵A分解之后，会得到一个100x100的特征向量组成的矩阵Q，以及一个100x100的只有对角线上的元素不为0的矩阵E，这个矩阵E对角线上的元素就是特征值，而且还是按照从大到小排列的（取模，对于单个数来说，其实就是取绝对值），也就是说这个图像A提取出来了100个特征，这100个特征的重要性由100个数字来表示，这100个数字存放在对角矩阵E中。在实际中我们发现，提取出来的这100个特征从他们的特征值大小来看，大部分只有前20（这个20不一定，有的是10，有的是30或者更多）个特征对应的特征值很大，后面的就都是接近0了，也就是说后面的那些特征对图像的贡献几乎可以忽略不计。

我们知道，图像矩阵 A 特征值分解后可以得到矩阵 P 和矩阵 E （特征值对角矩阵）：

我们可以看到，在只取前20个特征值和特征向量对图像进行恢复的时候，基本上已经可以看到图像的大体轮廓了，而取到前50的时候，几乎已经和原图像无异了。明白了吧，这就是所谓的矩阵的特征向量和特征值的作用。

所以归根结底，特征向量其实反应的是矩阵A本身固有的一些特征，本来一个矩阵就是一个线性变换，当把这个矩阵作用于一个向量的时候，通常情况绝大部分向量都会被这个矩阵A变换得“面目全非”，但是偏偏刚好存在这么一些向量，被矩阵A变换之后居然还能保持原来的样子，于是这些向量就可以作为矩阵的核心代表了。于是我们可以说：一个变换（即一个矩阵）可以由其特征值和特征向量完全表述，这是因为从数学上看，这个矩阵所有的特征向量组成了这个向量空间的一组基底。而矩阵作为变换的本质其实不就把一个基底下的东西变换到另一个基底表示的空间中么？

参考：
https://blog.csdn.net/hjq376247328/article/details/80640544
https://blog.csdn.net/hustqb/article/details/78394058
https://blog.csdn.net/woainishifu/article/details/76418176

导航:首页 > 源码编译 > 降维的评价算法

降维的评价算法

与降维的评价算法相关的资料