降维常用的算法_请问当今比较流行的数据降维算法有哪些

⑴ 第十五章降维

第二种类型的无监督学习问题，叫做降维。
这里有一些，你想要使用降维的原因：
① 数据压缩
数据压缩不仅能对数据进行压缩，使得数据占用较小的内存或硬盘空间。它还能对学习算法进行加速
② 可视化数据

但首先，让我们谈论降维是什么。举个例子，假设我们收集了一个数据集，它有很多很多的特征，我只在这里绘制两个特征。
假如，对我们来说，这两个特征，x_1 是某物体的厘米长度，另一个特征x_2 是同一物体的英寸长度。这实际上是一种高度冗余的表示。
对于这两个单独的特征 x_1 和 x_2，它们表示的都是基本长度。或许我们想做的是，把数据减少到一维。只有一个数字来测量某物体的长度。
这个例子可能有点牵强，这与我在行业中所见的完全是两回事。

如果你有几百个或成千上万的特征，你很容易就会迷失，自己到底有哪些特征。有时可能有几个不同的工程团队，也许一个工程队给你二百个特征，第二工程队给你另外三百个的特征，第三工程队给你五百个特征。最后加起来你就有一千多个特征，这时就很难去了解某个特征是从哪个小组得到的，这时就比较容易产生这与高度冗余的特征。
并且，如果这里的厘米和英寸长度都被四舍五入了，这就是这个例子为什么不是完美地落在一条直线上。

👆另一个例子：如果你想要调查或做这些不同飞行员的测试——你可能有两个特征：x_1 是他们的技能（直升机飞行员）；x_2 表示他们是否喜欢飞行。也许这两个特征将高度相关。你真正关心的可能是这条红线的方向。它是一个不同的特征，用来真正测量飞行员能力的特征。
还是那句话，如果特征高度冗余，那么你可能真的需要降低维数

如果我们将数据从二维（2D）降到一维（1D），究竟意味着什么？
现在我把不同的样本，用不同的颜色标出。在这时，通过降维，我的意思是我想找出这条看起来大多数样本所在的直线（绿色）。所有数据都投影到这条直线上，通过这种做法，我能够测量出每个样本在线上的位置，现在我能做的是建立新特征 z_1。我们只需要一个数，就能确定z_1所在的位置，也就是说z_1是一个全新的特征。它能够指定绿线上每一个点位置。

之前的样本 x_1，它是一个二维向量。在降维后，我们可用一维向量（即，实数）z_1表示第一个样本。

总结一下：
如果我们允许一个近似于原始数据集的数据集，该数据集通过投射原始样本数据到这个绿色线上而得到。那么，我们只需要一个实数，就能指定点在直线上的位置。所以，我能够只用一个数字表示样本的位置，通过把这些原始样本都投射到绿线上（这是对原始数据集的一种近似，因为我将这些样本都投射到了同一条直线上）。这样（样本从用二维表示，变为用一个实数表示）就能把内存/数据空间的需求减半。

另外，更有趣也更重要的是。在之前的视频中，我们将能够了解到，这么做能够让学习算法运行得更快。

另一个例子，将数据从 3D 降到 2D。

降维的第二个应用：可视化数据
在许多及其学习问题中，如果我们能将数据可视化，我们便能寻找到一个更好的解决方案，降维可以帮助我们。

假使我们有关于许多不同国家的数据，每一个特征向量都有50个特征（如GDP，人均GDP，平均寿命等）。如果要将这个50维的数据可视化是不可能的。使用降维的方法将其降至2维，我们便可以将其可视化了。

比如，你可能发现，横轴（z_1）大致相当于国家的总体规模或者国家的总体经济活跃程度，所以横轴代表的是GDP、一个国家的经济规模。而纵轴大致对应于人均GDP。你可能会发现，这50个特征，实际上只偏离为两个主要维度。（这样做的问题在于，降维的算法只负责减少维数，新产生的特征的意义就必须由我们自己去发现了）

一个特殊的算法：PAC，也叫做“主成分分析”。它可以用来做降维操作，可以用来实现我们之前所提到的压缩数据。

主成分分析(PCA)是最常见的降维算法。
在PCA中，我们要做的是找到一个方向向量（Vector direction），当我们把所有的数据都投射到该向量上时，我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量，而投射误差是从特征向量向该方向向量作垂线的长度。

PCA 问题的公式描述。换句话说，我们会试着用公式准确地表述PCA的用途。

所以，正式的说，PCA做的就是，它会找到一个低维平面（该例子中，是条直线），然后将数据投影在上面，使这些蓝色小线段（即，点到平面的距离）长度平方最小。这个蓝色小线段的距离，有时也称投影误差。
所以，PCA 所做的就是，它会试图寻找一个投影平面对数据进行投影，使得能最小化这个距离。
另外在应用PCA 之前，常规的做法是，先进行均值归一化，使得特征量 x_1 和 x_2 其均值为0。并且其数值在可比较的范围之内。（本例中，我们已经处理过了）

后面会详细讲，PCA背景下的均值归一化问题的细节。

PCA做的就是，如果想将数据从二维降到一维。我们要试着找一个方向向量，使得向量 u^(i) ∈ R^n （本例中， n = 2，即，u^(i) ∈ R^2）投影到这个方向向量上的投影误差最小。

更通常的情况是：我们会有N维数据，并且我们想其降到K维，这种情况下，我们不只是想找单个向量来对数据进行投影，而是想寻找K个方向来对数据进行投影，来最小化投影误差。（我们要做的是，将数据投影到这 k 个向量展开的线性子空间上）

u^(1) 和 u^(2) 两个向量一起定义了一个二维平面。我们将我们的数据投影到上面。

因此，PCA做的是其视图找出一条直线，或一个平面，或其他维的空间，然后对数据进行投影，以最小化平方投影。90度投影，或正交投影的误差。

事实上，PCA不是线性回归，尽管看上去有一些相似，但是它们确实是两种不同的算法。
上图中，左边的是线性回归的误差（垂直于横轴投影），右边则是主要成分分析的误差（垂直于红线投影）。
主成分分析最小化的是投射误差（Projected Error），而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果，而主成分分析不作任何预测。

PCA将n个特征降维到k个，可以用来进行数据压缩，如果100维的向量最后可以用10维来表示，那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA 要保证降维后数据的特性损失最小。

PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA技术的一个很大的优点是，它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。

但是，这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

主成分分析算法

在使用PCA之前，首先要做的是，进行数据的预处理。
给定一个交易例子的集合，
预处理：
① 一定要做的一个事情是：执行均值归一化。
② 依据于你的数据，可能也要进行特征缩放。
这两个过程，即在我们有监督学习中，均值标准化过程与特征缩放的过程是相似的。实际上，确实是相同的过程，除了我们现在是对未标记数据 x^(1) 到 x^(m) 做均值标准化过程与特征缩放过程。

接下来，如果不同的特征有非常不相同的缩放，例如 x_1 是房子的尺寸， x_2 是卧室的数量。我们缩放每一个特征，一个相对的价值范围。
相对于之前的监督学习：x_j^(i) = ( (x_j^(i) - u_j) / s_j )。 s_j = x_j 预测的最大值 - 最小值。更普遍的，s_j 是特征 j 的标准偏差。

做完这一系列的数据预处理之后，我们来看PCA算法
我们能从先前的视频看到，PCA所做的就是，它尝试着找到一个低维子空间，对数据进行投影，我们希望找到一个向量 u^(k) （比如，从 N 维将到 K 维），是的数据到这个向量的投影误差平方和最小。
给个提示，是什么减少了数据平均值的维度？？
对于左边的例子，我们给定的样本 x^(i) 在 R^2 中（即，两个维度，x_1^(i)， x_2^(i)）。我们要做的就是在 R 中（一维）找到一个数据集 z^(i) 来代表我们原始的样本数据。所以，我们的均值从 2维降到 1维。
所以，PCA要做的就是，要想出一个方法计算两个东西：
① 计算向量 u^(k)
② 计算 z^(i)

1，首先，我们要做的是计算这个“协方差（covariance matrix）”，通常用希腊字母 Σ。

① 希腊字母 Σ ，表示矩阵
② 累加和标记

‘ [U, S, V] = svd(Sigma); ’：计算矩阵U = S 和 V 协方差矩阵sigma。
再补充一些细节：这个协方差矩阵sigma，将会是一个 n*n 的矩阵。

矩阵U 的每一列就是 u^(i) ，即，u ∈ R^(n*n) 。所以，我们想减少数据的维度从 n 维到 k 维，我们需要做的是提取前 k 个向量。u^1, … , u^k ，这给了我们 k 个方向（构成了一个 k维度的子空间），即，我们想要投影数据的方向。

有了 u^k 后，我们要做的就是：x ∈ R^n ——> z ∈R^k
我们称矩阵U 为 U_rece（n*k 矩阵）。这是矩阵U 被降维的版本，我们将用它来对我们的数据进行降维。

z = (U_rece)^T * x
(U_rece)^T : k * n 矩阵
x 是 “n 维度向量（即，n * 1）”
所以，z 是 “k 维度向量”

在PCA算法中，我们将N维特征减少为K维特征。这个数字 K 是PCA算法的一个参数。这个数 K 也被称为主成分的数字。或者，我们保留的主成分的数字。
在一般情况下，如何考虑选取这个参数 K ？

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的k值。
如果我们希望这个比例小于1%，就意味着原本数据的方差有99%都保留下来了，如果我们选择保留95%的方差，便能非常显着地降低模型中特征的维度了。
99%、95%、90% 都是一些具有代表性的范围。

对于许多数据集，你会惊讶，为了保留99%的方差，你可以减少维度，但仍然保留大部分的方差。因为对于真实世界的数据来说，许多特征都是高度相关的。因此，结果证明：对数据进行很多压缩，仍然可以保留99%的方差。

那么该如何实现了？

但是，👆这个方法非常低效。

在以前的视频中，我谈论PCA作为压缩算法。在那里你可能需要把1000维的数据压缩100维特征，或具有三维数据压缩到一二维表示。所以，如果这是一个压缩算法，应该能回到这个压缩表示，回到你原有的高维数据的一种近似。
所以，给定的z^{(i)，这可能100维，怎么回到你原来的表示x} (i)，这可能是1000维的数组？

我们可以把👆这个过程叫做：原始数据的重构。

我们常常使用PCA算法对监督学习算法进行加速。

假使我们正在针对一张 100×100像素的图片进行某个计算机视觉的机器学习，即总共有10000 个特征。

最后要注意的一点是，PCA所做的是定义一个从 x 到 z 的映射。这个从 x 到 z 的映射只能通过在训练集上运行PCA来得到。这个映射（注意，这里说的是映射，而不是PCA算法）也能够被应用在交叉校验和测试集上的其他样本中。（即，如果我们有交叉验证集合测试集，也采用对训练集学习而来的U_rece。）

总结一下：当在运行PCA时，仅仅在训练集中的数据上运行，不能用在交叉验证和测试集上。但，当你定义了 x 到 z 的映射后，你可以应用这个映射到你的交叉验证集和你的测试集。

顺便说一下，实际上，在许多问题中我们确实能减少数据的维度，大概可以减少到 1/5 或者 1/10，而且仍然保留大部分的方差，几乎不影响性能。而且使用较低的维度数据，我们的学习算法通常可以运行的更快。

错误的主要成分分析情况：一个常见错误使用主要成分分析的情况是，将其用于减少过拟合（减少了特征的数量）。这样做非常不好，不如尝试正则化处理。原因在于PCA不需要使用标签y，它仅仅使用输入的 x^(i) ，使用它去寻找低纬数据，来近似你的数据。因此PCA会舍掉一些信息，它扔掉或减少数据的维度，不关心 y 值是什么。所以如果99%的方差信息被保留，你保留了大部分的方差，那么这样使用PCA是可以的。但是它也可能会丢掉一些有价值的信息。
事实证明，只使用正则化来防止过拟合常常会给你带来更好的结果。因为，当你应用线性回归或者 logistic回归或其他的一些方法，进行正则化时，这个最小化问题，实际上是知道 y 的值的，所以不太可能损失掉一些有价值的信息。而PCA不使用标签，更有可能丢失一些有价值的信息。

因此，总结一下，使用PCA比较好的方式，是用它来提高学习算法的速度。但是使用PCA来防止过拟合，这不是PCA的一个好的运用。要使用正则化来防止过拟合。

另一个常见的错误是，默认地将主要成分分析作为学习过程中的一部分，这虽然很多时候有效果，最好还是从所有原始特征开始，只在有必要的时候（算法运行太慢或者占用太多内存）才考虑采用主要成分分析。

⑵ 数据降维方法介绍（六）

姓名：何源学号：21011210073 学院：通信工程学院

【嵌牛导读】线性鉴别分析方法介绍

【嵌牛鼻子】线性鉴别分析（LDA）

【嵌牛提问】线性鉴别分析方法如何降维以及原理是什么？

【嵌牛正文】

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。假设有两类数据，分别为红色和蓝色，如下图1所示，这些数据特征是二维的，希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在进行图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

优点：

（1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识；

（2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

缺点：

（1）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题；

（2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题；

（3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好；

（4）LDA可能过度拟合数据。

⑶ 降维的方法主要有

在分析高维数据时，降维（Dimensionality rection，DR）方法是我们不可或缺的好帮手。

作为数据去噪简化的一种方法，它对处理大多数现代生物数据很有帮助。在这些数据集中，经常存在着为单个样本同时收集数百甚至数百万个测量值的情况。

由于“维度灾难”（curse of dimensionality）的存在，很多统计方法难以应用到高维数据上。虽然收集到的数据点很多，但是它们会散布在一个庞大的、几乎不可能进行彻底探索的高维空间中。

通过降低数据的维度，你可以把这个复杂棘手的问题变得简单轻松。除去噪音但保存了所关注信息的低维度数据，对理解其隐含的结构和模式很有帮助。原始的高维度数据通常包含了许多无关或冗余变量的观测值。降维可以被看作是一种潜在特征提取的方法。它也经常用于数据压缩、数据探索以及数据可视化。

虽然在标准的数据分析流程中已经开发并实现了许多降维方法，但它们很容易被误用，并且其结果在实践中也常被误解。

本文为从业者提供了一套有用的指南，指导其如何正确进行降维，解释其输出并传达结果。

技巧1：选择一个合适的方法

当你想从现有的降维方法中选择一种进行分析时，可用的降维方法的数量似乎令人生畏。事实上，你不必拘泥于一种方法；但是，你应该意识到哪些方法适合你当前的工作。

降维方法的选择取决于输入数据的性质。比如说，对于连续数据、分类数据、计数数据、距离数据，它们会需要用到不同的降维方法。你也应该用你的直觉和相关的领域知识来考虑收集到的数据。通常情况下，观测可以充分捕获临近（或类似）数据点之间的小规模关系，但并不能捕获远距离观测之间的长期相互作用。对数据的性质和分辨率的考虑是十分重要的，因为降维方法可以还原数据的整体或局部结构。一般来说，线性方法如主成分分析（Principal Component Analysis, PCA）、对应分析（Correspondence Analysis, CA）、多重对应分析（Multiple Correspondence Analysis, MCA）、经典多维尺度分析（classical multidimensional scaling, cMDS）也被称为主坐标分析（Principal Coordinate Analysis, PCoA）等方法，常用于保留数据的整体结构；而非线性方法，如核主成分分析（Kernel Principal Component Analysis, Kernel PCA）、非度量多维尺度分析（Nonmetric Multidimensional Scaling, NMDS）、等度量映射（Isomap）、扩散映射（Diffusion Maps）、以及一些包括t分布随机嵌入（t-Distributed Stochastic Neighbor Embedding, t-SNE）在内的邻近嵌入技术，更适合于表达数据局部的相互作用关系。NE技术不会保留数据点之间的长期相互作用关系，其可视化报告中的非临近观测组的排列并没有参考价值。因此，NE的图表不应该被用于数据的大规模结构的推测

⑷ 请问当今比较流行的数据降维算法有哪些

这个要看你的需求和数据的data distribution，找到最合适的算法解决你的问题。
如果数据分布比较简单，线性映射降维就够了，比如PCA、ICA。
如果数据分布比较复杂，可能需要用到manifold learning，具体算法比如SOM、MDS、ISOMAP、LLE，另外deep learning也可以用来做降维。

⑸ (十)PCA降维算法

主成分分析（Principal components analysis，以下简称PCA） 是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。它可以通过 线性变换 将原始数据变换为一组 各维度线性无关 的表示，以此来提取数据的主要线性分量。需要注意的是，PCA一般只用于线性数据降维，对于非线性数据一般采用KPCA。

降维就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据，并且希望损失尽可能的小。首先看几张图，有一个直观的认识。
这里面，把椭圆看成是数据：

基于这个知识，如果我们想对数据进行降维的话，比如图1的两个维度的数据降成一维，我们可以选择保留X1这个维度的数据，因为在这个维度上蕴含的信息量更多。同理，图2就可以保留x2这个维度的数据。但是，问题来了，图3应该保留哪个维度的数据呢？答案是保留哪个维度都不好，都会丢失较大的信息量。但是，如果我们把图3的坐标轴旋转一下

比较容易看出，图3在新的坐标轴下就能进行降维了。
所以，第一，变换正确的坐标轴（基）；第二，保留方差最大的几个轴作为主成分，这样的做法就是PCA的核心思想。

从前文可以看出，理想的坐标轴是要求数据投在新坐标轴后，尽可能的分散，也就是数据的方差最大。然后每次选择方差最大的轴作为主成分。
将前文2维降1维的例子扩展到更高维度，还有一个问题需要解决，考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因为发生了大量的信息重复，起不到降维的作用，因此，应该有其他约束条件——就是正交。 PCA要求轴与轴之间是正交的，也就是不同维度的信息相关性为0。

在表示相关性中，相关系数与协方差是等价的，这里为了方便计算，使用协方差。下面是协方差公式，当协方差为0时，表示两个特征a,b线性不相关。

可以发现，当a=b时，协方差公式就变成了方差公式，方差是特殊的协方差。如果运气更好，特征a与b的平均数都为0，那么公式会进一步简化，得到：

所以说，为了计算方便，PCA降维前，一般都要求将所有特征属性中心化，即平均数为0。

因为PCA要求，同一轴内方差最大，不同轴协方差为0，如何把它们放在一块呢？这里就引入了协方差矩阵的概念：
假设有m个样本，每个样本特征维度是2，每个特征都经过中心化处理：

我们发现协方差矩阵的对角线是方差，而且是对称矩阵。方差和协方差都放在了一个矩阵里面，只需对这个矩阵优化，使它除了对角线的其余元素都为0，就可以了，美滋滋。

我们知道矩阵乘法，本质上就是一种线性变换的过程。而正交基矩阵的乘法，则是坐标系变换的过程。设原空间的数据为X，协方差矩阵为C，经过正交基矩阵P，得到了新坐标系下的数据Y，即Y=PX。那么新坐标系下的协方差矩阵D是怎样的呢？

我们发现，新旧空间的协方差矩阵是有关系的，而且都和变换矩阵P有关系。问题就转化成了，能不能找到一个矩阵P，使得新空间下的协方差矩阵的非对角线元素都为0.

首先，原始数据矩阵X的协方差矩阵C是一个实对称矩阵，它有特殊的数学性质：

也就是说，P就是是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。 如果设P按照中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y 。
其实，经过数学上的推导的，我们就可以知道，特征值对应的特征向量就是理想中想取得正确的坐标轴，而特征值就等于数据在旋转之后的坐标上对应维度上的方差。

由于协方差矩阵的维度和特征相同，所以在进行特征值分解时，得到的特征值数目不会超过特征的数目。

在学习线性代数时，我们都会学矩阵的特征值分解，我们知道一个方阵A经过 特征值分解 后就得到 特征向量 和 特征值 了。那么，这个所谓的特征值和特征向量到底是什么东西呢？
很多人都会说是那个经典的式子：

首先给出概念上的一种解释。所谓的特征值和特征向量，最重要的是理解“特征”这两个字，特征向量翻译为eigen vector, eigen这个单词来自德语，本义是在“本身固有的，本质的”。纯数学的定义下，并不能很明白地理解到底为什么叫做特征值和特征向量。但是举一个应用例子，可能就容易理解多了。

在图像处理中，有一种方法就是特征值分解。我们都知道图像其实就是一个像素值组成的矩阵，假设有一个100x100的图像，对这个图像矩阵做特征值分解，其实是在提取这个图像中的特征，这些提取出来的特征是一个个的向量，即对应着特征向量。而这些特征在图像中到底有多重要，这个重要性则通过特征值来表示。比如这个100x100的图像矩阵A分解之后，会得到一个100x100的特征向量组成的矩阵Q，以及一个100x100的只有对角线上的元素不为0的矩阵E，这个矩阵E对角线上的元素就是特征值，而且还是按照从大到小排列的（取模，对于单个数来说，其实就是取绝对值），也就是说这个图像A提取出来了100个特征，这100个特征的重要性由100个数字来表示，这100个数字存放在对角矩阵E中。在实际中我们发现，提取出来的这100个特征从他们的特征值大小来看，大部分只有前20（这个20不一定，有的是10，有的是30或者更多）个特征对应的特征值很大，后面的就都是接近0了，也就是说后面的那些特征对图像的贡献几乎可以忽略不计。

我们知道，图像矩阵 A 特征值分解后可以得到矩阵 P 和矩阵 E （特征值对角矩阵）：

我们可以看到，在只取前20个特征值和特征向量对图像进行恢复的时候，基本上已经可以看到图像的大体轮廓了，而取到前50的时候，几乎已经和原图像无异了。明白了吧，这就是所谓的矩阵的特征向量和特征值的作用。

所以归根结底，特征向量其实反应的是矩阵A本身固有的一些特征，本来一个矩阵就是一个线性变换，当把这个矩阵作用于一个向量的时候，通常情况绝大部分向量都会被这个矩阵A变换得“面目全非”，但是偏偏刚好存在这么一些向量，被矩阵A变换之后居然还能保持原来的样子，于是这些向量就可以作为矩阵的核心代表了。于是我们可以说：一个变换（即一个矩阵）可以由其特征值和特征向量完全表述，这是因为从数学上看，这个矩阵所有的特征向量组成了这个向量空间的一组基底。而矩阵作为变换的本质其实不就把一个基底下的东西变换到另一个基底表示的空间中么？

参考：
https://blog.csdn.net/hjq376247328/article/details/80640544
https://blog.csdn.net/hustqb/article/details/78394058
https://blog.csdn.net/woainishifu/article/details/76418176

⑹ 三种常用降维方法的思想总结

LDA降维和PCA的不同是LDA是有监督的降维，其原理是将特征映射到低维上，原始数据的类别也能清晰的反应在低维的数据上，也就是低维的数据也可以用来判别分类。

我们先看看二维的情况，我们希望找到一个向量，使得数据点映射到这个向量上后，两个类间的距离尽可能，两个类内的样本的距离尽可能小。这样就得到了一个目标函数，分子是投影后两个类间均值的差的平方，我们希望这个值尽可能大，分母是投影后的类的散列值的和，是少除以样本数量的方差，进一步化简分子得到投影向量的转置乘以投影前的类均值差向量的外积再乘以投影向量，分母是投影向量的转置乘以投影前的类间散列矩阵的和再乘以投影向量，此时我们需要求使得目标函数最小的投影向量，由于投影向量扩大或缩小多少倍，目标函数值不变，那么我们可以让分母的模长为1，此时可以使用拉格朗日乘子法，最后求得：当类间散列矩阵的和存在逆矩阵时，投影向量就是类间散列矩阵的和的逆矩阵和投影前的类均值差向量的外积的特征向量。进一步的，我们化简等式左边得到类间散列矩阵的逆矩阵乘以投影前类间均值向量的差乘以一个常数，那么由于投影向量可以放缩常数倍不影响结果，我们约掉两边的常数，得到投影向量等于投影前类均值向量的差左乘散列矩阵的逆矩阵，这就是fisher提出的判别分析

PCA是将原始样本投影到低维的空间上，使得样本的绝大部分信息得以保留，并且特征的维度降低使得模型不易过拟合。思想是：对于原始空间中的m维向量而言，找到k个投影向量使得这m维向量投影到这k个投影向量上的方差最大，保留原始的样本信息最多，我们首先可以看看找第一个向量，使得在这个方向上的投影方差最大。步骤如下：

1.在投影之前，我们对数据做中心化处理，使得原始数据均值为0

2.计算中心化后的样本的协方差矩阵，这是个m*m维的矩阵，m表示原始特征的数目。第i行第j列的元素表示数据中第i列和第j列的协方差

3.计算协方差矩阵的特征值和特征向量，特征向量是单位向量，模长为1，

4.选择带有最大特征值的k个特征向量

5.计算k个最大特征值对应的k个特征，对于每一个特征，都是用原数据矩阵（n行m列）乘以对应的特征向量（m行1列，m是原始变量的数目）：因此最后的特征有n行一列，表示每个样本一个特征值

对数据进行中心化和归一化，然后将其投影到某个向量上，计算这一维上的数据点的方差，经过化简就是投影向量的转置乘以原始数据的协方差矩阵再乘以投影向量，前提是这个投影向量是单位向量，然后我们令这个方差λ最大，得到最大方差时对应的那个投影向量就是第一个主成分，那么这个向量如何求解呢?因为这个投影向量是单位向量，那么等式两边左乘以投影向量，得到了λu=Σu，则说明这个投影向量u的方向其实就是这个协方差矩阵的特征向量，那么最大方差λ对应的就是Σ的最大特征值对应的特征向量的方向，就是第一主成分的方向，第二大特征值对应的特征向量就是第二主成分的方向

数据的中心化并不是必要的，但是却方便了表示和计算，PCA是计算样本协方差矩阵的，因此中心化或者中心化并不改变特征向量的方向或者特征值的大小，因此即使不中心化，PCA一样的起作用，然而如果你中心化数据了，那么样本的协方差矩阵的数学表示就会得以简化，如果你的数据点就是你的数据矩阵的列，那么协方差矩阵就表示为xx'，多么简便啊！技术上，PCA是包括数据中心化这一步的，但是那只是为了计算协方差矩阵，然后对协方差矩阵做特征值分解，得到各个特征值和特征向量

数据的归一化也不是必须的，如果某些变量有很大或者很小的方差，那么PCA将会倾向于这些大的方差的变量，例如如果你增加了一个变量的方差，也许这个变量对第一个主成分会从很小的影响到起主导性的作用，因此如果你想要PCA独立于这样的变化，归一化可以做到，当然，如果你的变量在那个规模上很重要，那么你可以不归一化，归一化在PCA中是很重要的，因为PCA是一个方差最大化的实验，它就是投影你的原始数据到方差最大化的方向上

（1）如果原始的特征是高度相关的，PCA的结果是不稳定的；

（2）新的特征是原始特征的线性组合，所以缺乏解释性。

（3）原始数据不一定要是多元高斯分布的，除非你使用这个技术来预测性的建模去计算置信区间

矩阵乘法的作用是线性变换，对一个向量乘以一个矩阵，可以使得这个向量发生伸缩、切变和旋转。我们都知道对称矩阵的特征向量是相互正交的，给定一个对称矩阵M，可以找到一些这样的正交向量v，使得Mv=λv，即这个矩阵M对向量做了拉伸变换，λ是拉伸的倍数。那么对于普通的矩阵呢，才能让一个原来就是相互垂直的网格平面(orthogonal grid), 线性变换成另外一个网格平面同样垂直呢？

对于一个正交矩阵，其对应的变换叫做正交变换，这个变换的作用是不改变向量的尺寸和向量间的夹角。正交变换中的旋转变换只是将变换向量用另一组正交基表示，在这个过程中并没有对向量做拉伸，也不改变向量的空间位置，只是将原坐标系旋转得到新的坐标系，那么这个旋转矩阵怎么求呢？对于二维空间中的某个向量而言，其经过旋转变换的结果就是从用一组坐标系表示到用另外一组坐标系表示，新的坐标系下的坐标各个分量相当于是原坐标系下的坐标的各个分量在新的坐标系的两个正交基下的投影，或者是相当于将原来的二维向量经过旋转到了新的坐标，因此相当于对向量左乘一个旋转矩阵，求出这个矩阵就是旋转变换的矩阵。刚刚说正交变换不改变向量的空间位置是绝对的，但是坐标是相对的，从原来的坐标系的基向量位置看这个二维向量，到从新的坐标系下看这个向量的坐标是变化的

矩阵乘以一个向量的结果仍是同维数的一个向量。因此，矩阵乘法对应了一个变换，把一个向量变成同维数的另一个向量。

对特定的向量，经过一种方阵变换，经过该变换后，向量的方向不变（或只是反向），而只是进行伸缩变化（伸缩值可以是负值，相当于向量的方向反向）？这就是相当于特征向量的定义

特征向量的几何含义是：特征向量通过方阵A变换只进行伸缩，而保持特征向量的方向不变。特征值表示的是这个特征到底有多重要，类似于权重，而特征向量在几何上就是一个点，从原点到该点的方向表示向量的方向。

一个变换（或者说矩阵）的特征向量就是这样一种向量，它经过这种特定的变换后保持方向不变，只是进行长度上的伸缩而已。特征值分解则是对旋转和缩放两种效应的归并。因为特征值分解中的A为方阵，显然是不存在投影效应的。或者说，我们找到了一组基（特征向量们），在这组基下，矩阵的作用效果仅仅是缩放。即矩阵A将一个向量从x这组基的空间旋转到x这组基的空间上，并在每个方向进行了缩放，由于前后两组基都是x，即没有进行旋转和投影。

详细分析特征值分解的过程：首先由于特征向量是正交的，特征向量组成的矩阵是正交方阵，两边同时右乘以这个方阵的逆矩阵，可以得到矩阵A的表达式为A=UΛU'，两边同时右乘一个向量，相当于对这个向量左乘矩阵A，对向量做旋转或拉伸的变换。这个变换的过程分为三个映射：第一个是将向量x进行了旋转，它将x用新的坐标系来表示；第二个变换是拉伸变化，对x的每一维分量都进行了特征值大小的拉伸或缩小变换；第三个是对x做第一个变换的逆变换，因为是第一个矩阵的逆矩阵，也是旋转变换。在第二个拉伸变换中，可以看出，如果矩阵A不是满秩的，即有的特征值为0，那么这里相当于将x映射到了m维空间的子空间（m是矩阵A的维数m*m），此时矩阵A是一个正交投影矩阵，它将m维向量x映射到了它的列空间。如果A是二维的，那么可以在二维平面上可以找到一个矩形，使得这个矩形经过A变换后还是矩形

在特征值分解中，矩阵A要求是方阵，那么对于一个任意的矩阵m*n，能否找到一组正交基使得经过它变换后还是正交基？这就是SVD的精髓所在

A=UΣU'，我们来分析矩阵A的作用：首先是旋转，U的列向量是一组标准正交基，V也是，这表示我们找到了两组基。A的作用是将一个向量从V这组正交基向量空间旋转到U这组正交基向量空间；其次是缩放，当V对向量x做了旋转以后，相当于把向量x旋转使其用V这组正交基表示坐标，然后Σ对向量x的每个分量做了缩放，缩放的程度就是Σ的主对角线上的元素，是奇异值；最后是投影，如果U的维数小于V的维数，那么这个过程还包含了投影

现在的目的是找一组正交基，使得经过A矩阵变换后仍然是一组正交基，假设已经找到这样一组正交基，那么对这组正交基经过A变换，如何使其仍然是一组正交基呢？只要使得原来的正交基是A'A的特征向量即可，|AVi|就是A'A的特征值的开方，也就是奇异值，然后我们求AVi的单位向量Ui，这些Ui也都是正交的，那么我们就找到了两组正交基使得从V这组正交基变换到U这组正交基，V称作右奇异向量，U称作左奇异向量，AVi的模是奇异值，我们对V1,...,Vk进行扩充Vk+1,..,Vn（Vk+1,..,Vn是Ax=0的零空间）使得V1，...,Vn是n维空间中的一组正交基，对U1,...,Uk进行扩充Uk+1,...,Um，使得U1,..,Um是m维空间中的一组正交基，这个k值是矩阵A的秩，当A是满秩时，分解后的矩阵相乘等于A，k越接近于n，则分解后的矩阵相乘结果越接近于A

对矩阵A的映射过程分析：如果在n维空间中找到一个超矩形，使其都落在A'A的特征向量的方向上，那么经过A变换后的形状仍为超矩形。Vi是A'A的特征向量，Ui是AA'的特征向量，也是AVi的单位向量，σ是A'A的特征值的开方，根据这个公式可以计算出矩阵A的奇异值分解矩阵

SVD是将一个相互垂直的网格变换到另外一个相互垂直的网格，按照上面的对于U,V的定位，可以实现用矩阵A将一个向量变换的过程，首先将向量x写成用V这组正交基表示的形式，然后用矩阵A左乘向量x，并带入AVi=σiUi，最后可以得到A的分解式，不是矩阵分解式，而是向量分解式，可以看出，如果有的奇异值很小甚至为0，那么本来有n项相加，就最后只有奇异值不为0的项相加了，假如有k项相加，那么k越接近于n最后A分解的结果越接近于A

（1）可以用来减少元素的存储

（2）可以用来降噪：去掉奇异值小的项，奇异值小的我们认为是含有样本重要信息很少，都是噪声，因此就把这些信息少的给去掉了

（3）数据分析：比如说我们有一些样本点用于建模，我们通过SVD将数据里面的奇异值小的都去掉了，最后得到了分解后的数据，用来做分析，更加准确

我们知道PCA里面，我们对变量进行降维实际上就相当于对数据矩阵Am*n右乘一个矩阵Pn*r，就得到了Am*r，表示每个样本的特征向量只有r维的，和这个矩阵P代表了r个列向量是数据矩阵A的协方差矩阵n*n的最大的r的特征值对应r个特征向量，都是n维的。和SVD相比，将SVD的表达式两边同时右乘一个Vn*r，这样等式右边就Vr*n和Vn*r相乘是单位向量，因为Vn*r是A'A的r个特征向量，是前r个不为0的特征值对应的特征向量，且由于A'A是对称的，那么各个特征向量之间是正交的，这样就得到了刚刚PCA推导出来的公式

同理,对数据矩阵Am*n左乘一个矩阵Pr*m，就得到了Ar*n，表示每个特征对应的样本只有r个，矩阵P代表了r个m维向量，每个向量是让每个特征对应的样本向量所要投影的方向向量。和SVD相比，将SVD两边同时左乘以一个矩阵Ur*m，就得到了Ar*n，即在行方向上进行了降维，等式右边是Ur*m和Um*r相乘为单位向量，因为Um*r是AA'的特征向量，是AA'的前r个不为0的特征值对应的特征向量，是m维的，由于AA'是对称矩阵，那么各个特征向量之间是正交的，这样就得到了刚刚PCA推导出来的公式

可以看出：

--PCA几乎可以说是对SVD的一个包装，如果我们实现了SVD，那也就实现了PCA了

--而且更好的地方是，有了SVD，我们就可以得到两个方向的PCA，如果我们对A’A进行特征值的分解，只能得到一个方向的PCA。

⑺ 常用降维方法之PCA 和 LDA

PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。而方差最大的那个维度是主成分。
PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小。
PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。

再举个栗子：

下面举一个简单的例子，说明PCA的过程。

假设我们的数据集有10个二维数据(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9)，需要用PCA降到1维特征。

首先我们对样本中心化，这里样本的均值为(1.81, 1.91),所有的样本减去这个均值向量后，即中心化后的数据集为(0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01)。

现在我们开始求样本的协方差矩阵，由于我们是二维的，则协方差矩阵为：

对于我们的数据，求出协方差矩阵为：

求出特征值为（0.0490833989， 1.28402771），对应的特征向量分别为：

由于最大的k=1个特征值为1.28402771，对于的k=1个特征向量为则我们的W=
我们对所有的数据集进行投影得到PCA降维后的10个一维数据集为：(-0.827970186， 1.77758033， -0.992197494， -0.274210416， -1.67580142， -0.912949103， 0.0991094375， 1.14457216, 0.438046137， 1.22382056)

在上面的PCA算法中，我们假设存在一个线性的超平面，可以让我们对数据进行投影。但是有些时候，数据不是线性的，不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想，先把数据集从n维映射到线性可分的高维N>n,然后再从N维降维到一个低维度n', 这里的维度之间满足n'<n<N。

使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA, 以下简称KPCA。假设高维空间的数据是由n维空间的数据通过映射ϕ产生。

则对于n维空间的特征分解：

映射为：

通过在高维空间进行协方差矩阵的特征值分解，然后用和PCA一样的方法进行降维。一般来说，映射ϕ不用显式的计算，而是在需要计算的时候通过核函数完成。由于KPCA需要核函数的运算，因此它的计算量要比PCA大很多。

这里对PCA算法做一个总结。作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点，出现了很多PCA的变种，比如第六节的为解决非线性降维的KPCA，还有解决内存限制的增量PCA方法Incremental PCA，以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA算法的主要优点有：

LDA（线性判别分析，Linear Discriminant Analysis）是另一种常用的降维方法，它是有监督的。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下它的算法原理。这里需要注意的是，此处的LDA与文本主题模型中的LDA（隐含狄利克雷分布，Latent Dirichlet Allocation）并不相同，他是一种处理文档的主题模型。
LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。

LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。
什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。
可能还是有点抽象，我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。

LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

这点可以从下图形象的看出，在某些数据分布下LDA比PCA降维较优。

当然，某些某些数据分布下PCA比LDA降维较优，如下图所示：

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

LDA算法的主要优点有：

参考文章：刘建平老师的博客园

⑻ 降维算法之LDA(线性判别降维算法)--有监督

LDA在模式识别领域( 比如人脸识别，舰艇识别等图形图像识别领域 )中有非常广泛的应用，因此我们有必要了解下它的算法原理。

不同于PCA方差最大化理论， LDA算法的思想是将数据投影到低维空间之后，使得同一类数据尽可能的紧凑，不同类的数据尽可能的分散。因此，LDA算法是一种有监督的机器学习算法。同时，LDA有如下两个假设：(1)原始数据根据样本均值进行分类。(2)不同类的数据拥有相同的协方差矩阵。当然，在实际情况中，不可能满足以上两个假设。但是当数据主要是由均值来区分的时候，LDA一般都可以取得很好的效果。

（1）计算类内散度矩阵

（2）计算类间散度矩阵

（3）计算矩阵

（4）对矩阵进行特征分解，计算最大的d个最大的特征值对应的特征向量组成W。

（5）计算投影后的数据点

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个累呗投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。LDA应用于分类现在似乎也不是那么流行。

    class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)

参数：

（1）solver: str类型，默认值为"svd"，

svd:使用奇异值分解求解，不用计算协方差矩阵，适用于特征数量很大的情形，无法使用参数收缩(shrinkage)。

lsqr:最小平方QR分解，可以结合shrinkage使用。

eigen：特征值分解，可以结合shrinkage使用。

（2）shrinkage: str or float类型，默认值为None

是否使用参数收缩

None:不使用参数收缩

auto:str，使用Ledoit-Wolf lemma

浮点数：自定义收缩比例。

（3）components：int类型，需要保留的特征个数，小于等于n-1

属性：

（1）covariances_：每个类的协方差矩阵，shape = [n_features, n_features]

（2）means_：类均值，shape = [n_features, n_feateures]

（3）priors_：归一化的先验概率。

（4）rotations_：LDA分析得到的主轴，shape = [n_features, n_component]

（5）scalings_：数组列表，每个高斯分布的方差σ

     特点：

降维之后的维数最多为类别数-1。所以当数据维度很高，但是类别数少的时候，算法并不适用。LDA算法既可以用来降维，又可以用来分类。但是目前来说，主要还是用于降维。在我们进行图像识别相关的数据分析时，LDA是一个有力的工具。

优点：

（1） LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

（2）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。

缺点：

（1）LDA不适合非高斯分布样本进行降维，PCA也存在这个问题。

（2）LDA降维最多降到类别数K-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。

（3） LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。

（4）LDA可能过度拟合数据。

二者都有降维的作用。

1.左边是PCA，属于无监督方法，当数据没有标签时可以用它。右边是LDA，属于监督学习方法。考虑了数据的分类信息，这样数据在低维空间上就可以分类了，减少了很多的运算量。

2. PCA主要是从特征的协方差角度考虑，追求的是在降维之后能够最大化保持数据的内在信息。它不考虑分类信息，因此降低维度后，信息损失降到最低，但分类上可能会变得更加困难。 LDA追求的是降维后的数据点尽可能容易被区分。降维后的样本数据在新的维度空间有最大的类间距离和最小的类内方差，数据在低维空间有最佳的可分离性。

3. PCA降维后的维度数目是和数据维度相关的，原始数据是n维，那么PCA后维度为1、2~n维。 LDA后的维度数目是和类别的个数相关的，原始数据是n维，一共有C个类别，那么LDA后维度为1、2~C-1维。

4. PCA投影的坐标系都是正交的。 LDA关注分类能力，不保证投影到的坐标系是正交的。

⑼ 数据降维的几种方法

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/donghua_wu/article/details/45746569

【嵌牛导读】以2009 KDD Challenge 大数据集来预测客户流失量为例子。该数据集维度达到 15000 维。大多数数据挖掘算法都直接对数据逐列处理，在数据数目一大时，导致算法越来越慢。那么如何能实现在减少数据列数的同时保证丢失的数据信息尽可能少呢。

【嵌牛鼻子】数据降维

【嵌牛提问】如何实现数据降维

【嵌牛正文】

随着数据集的增加，衍生出大数据平台和并行数据分析算法，同时数据的降维过程的使用重要性也随之凸显。数据的维度并不是越多越好，在数据分析的过程大量的数据也可能产生很差的表现效果。现在就自己最近看的一篇文章总结降维的几种方法：

1.缺失值的比例

数据列如果存在太多的缺失值是不可能有太多的有用信息，因此设定一个阈值，如果数据列缺失的数据大于阈值时将数据列删除，设定的阈值越大删除的数据列越多随之维度减少的幅度也越大

2.低方差过滤

和缺失值比例很相似，数据列中的数据很小的变动即方差过小时（低于预先设定的阈值）删除数据列。特别注意的是：方差是依赖于范围的，因此在应用该方法前对数据正则化处理。

3.高相关过滤

数据列中有相似趋势往往也存在着相似的信息，这种情况下往往一个数据列就可以参与机器学习的模型的建立了，因此我们需要计算数值列之间的相关系数和标称列之间的皮尔逊积矩系数和皮尔逊卡方值，双列的相关系数高于设定的阈值时可以减少到只有一个。提醒一下：相关量比较敏感，因此列的归一化需要一个相对有意义的相关性比较。

4.Random Forests / Ensemble Trees

决策树的ensemble也成为RF（随机森林），除了在做有效的分类器很有用外，在特征选择方面也很有效果。一种降维的方法是针对目标属性生成一个大的和构造的树,然后使用每个属性的使用统计数据发现大多数信息的特征子集。特别地，我们可以生成大量层次很低的树（2层），与每棵树正在训练总额的一小部分数量的属性。如果一个属性经常被选为最佳的，它是最有可能被保留的一个有效特征。在RF中分数计算的随机属性的使用统计数据告诉我们——相对于其他属性——这是最有预测力的属性。

5.PCA（主成分分析）

主成分分析(PCA)是一种正交统计过程,将一个数据集的原始n坐标转换成一个新的n组坐标（叫做主成分）。转化的结果，第一个主成分具有最大可能的方差，在正交于（不相关）先前的主成分的限制条件下，每个成功转化后的成分都具有最高可能的方差。只保留第一个m < n成分降低了数据的维度,同时保留大部分的数据信息也就是变化的数据。注意,PCA转化对原始变量的变化比例很敏感。数据列（维度）范围在应用PCA之前需要正则化；同时也要注意新的坐标系（PCs）不再是真正的系统变量了；PCA在应用到你的数据集产生新的维度时也就失去了它的可解释性，如果结果的可解释性对于你的数据分析很重要，那么在针对你的项目分析时，PCA不能作为你的首要选择转化方法。

6.反向特征的消除

这个方法中，在给定的迭代次数下选定的分类算法对n个输入特征进行训练，然后我们每次删除一个输入特征用相同的模型对剩下的n-1个输入特征训练n次，删除的输入特征在错误率上已产生最小的增长应该就将其删除，留给我们将剩余的n-1个输入特征。分类器接着使用n-2个特征作为输入，等等…每次迭代k产生一个模型训练n-k特征和一个出错率e(k)；选择一个最大可容许的错误率，我们定义的最小数量的特性必须达到所选的机器学习算法的分类器的性能。

7.正向特征的构建

这种方法和反向特征消除方法具有相反的处理过程。刚开始只处理一个特征，然后逐步每次添加一个特征，也就是说输入特征即特征维度在分类器的性能上产生最大的增加。就这两种算法而言，计算特别耗时而且计算量也特别大，它们实际上只适用于一个数据集已经相对具有较少的输入列（特侦维度）。

除了上面谈到的几种方法外，随机推测、NMF、自动编码器、卡方检验或信息增益、多维度等级法、一致性分析、因子分析、聚类和贝叶斯模型在数据降维上表现也不错。

⑽ 现有矩阵降维常用方法

降维方法分为线性核非线性降维，非线性降维又分为基于核函数和基于特征值的方法。

线性降维方法：PCA ICALDA LFA LPP(LE的线性表示)

于核函数的非线性降维方法：KPCA KICAKDA

基于特征值的非线性降维方法（流型学习）：ISOMAP LLE LE LPP LTSA MVU

导航:首页 > 源码编译 > 降维常用的算法

降维常用的算法

与降维常用的算法相关的资料