机器学习svd源码_常用的机器学习&数据挖掘知识(点）

A. 奇异值分解（SVD）的原理及应用

姓名：刘保阔

学号：19021210887

转自：https://www.cnblogs.com/tianqi/p/9745913.html

【嵌牛导读】

奇异值分解（Singular Value Decomposition）是矩阵论中一种重要的矩阵分解，奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。

【嵌牛正文】

一、奇异值与特征值基础知识：

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧：

   1）特征值：

    如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：

    这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：

    其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵：

它其实对应的线性变换是下面的形式：

因为这个矩阵M乘以一个向量(x,y)的结果是：

上面的矩阵是对称的，所以这个变换是一个对x，y轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短），当矩阵不是对称的时候，假如说矩阵是下面的样子：

它所描述的变换是下面的样子：

这其实是在平面上对一个轴进行的拉伸变换（如蓝色的箭头所示），在图中，蓝色的箭头是一个最主要的变化方向（变化方向可能有不止一个），如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子，分解得到的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。

当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。总结一下，特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

2）奇异值：

    下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法：

假设A是一个N * M的矩阵，那么得到的U是一个N * N的方阵（里面的向量是正交的，U里面的向量称为左奇异向量），Σ是一个N * M的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值），V’(V的转置)是一个N * N的矩阵，里面的向量也是正交的，V里面的向量称为右奇异向量），从图片来反映几个相乘的矩阵的大小可得下面的图片

那么奇异值和特征值是怎么对应起来的呢？首先，我们将一个矩阵A的转置 * A，将会得到一个方阵，我们用这个方阵求特征值可以得到：这里得到的v，就是我们上面的右奇异向量。此外我们还可以得到：

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

    r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：

    右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，在这儿，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的面积之和（在存储观点来说，矩阵面积越小，存储量就越小）要远远小于原始的矩阵A，我们如果想要压缩空间来表示原矩阵A，我们存下这里的三个矩阵：U、Σ、V就好了。

二、奇异值的计算：

    奇异值的计算是一个难题，是一个O(N^3)的算法。在单机的情况下当然是没问题的，matlab在一秒钟内就可以算出1000 * 1000的矩阵的所有奇异值，但是当矩阵的规模增长的时候，计算的复杂度呈3次方增长，就需要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候，说起Google实现了SVD的并行化算法，说这是对人类的一个贡献，但是也没有给出具体的计算规模，也没有给出太多有价值的信息。

    其实SVD还是可以用并行的方式去实现的，在解大规模的矩阵的时候，一般使用迭代的方法，当矩阵的规模很大（比如说上亿）的时候，迭代的次数也可能会上亿次，如果使用Map-Rece框架去解，则每次Map-Rece完成的时候，都会涉及到写文件、读文件的操作。个人猜测Google云计算体系中除了Map-Rece以外应该还有类似于MPI的计算模型，也就是节点之间是保持通信，数据是常驻在内存中的，这种计算模型比Map-Rece在解决迭代次数非常多的时候，要快了很多倍。

Lanczos迭代就是一种解对称方阵部分特征值的方法（之前谈到了，解A’* A得到的对称方阵的特征值就是解A的右奇异向量），是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看，Google应该是用这种方法去做的奇异值分解的。请见Wikipedia上面的一些引用的论文，如果理解了那些论文，也“几乎”可以做出一个SVD了。

    由于奇异值的计算是一个很枯燥，纯数学的过程，而且前人的研究成果（论文中）几乎已经把整个程序的流程图给出来了。更多的关于奇异值计算的部分，将在后面的参考文献中给出，这里不再深入，我还是focus在奇异值的应用中去。

三、奇异值与主成分分析（PCA）：

主成分分析在上一节里面也讲了一些，这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数据（主要是训练数据），方差大才有意义，不然输入的数据都是同一个点，那方差就为0了，这样输入的多个数据就等同于一个数据了。以下面这张图为例子：

这个假设是一个摄像机采集一个物体运动得到的图片，上面的点表示物体运动的位置，假如我们想要用一条直线去拟合这些点，那我们会选择什么方向的线呢？当然是图上标有signal的那条线。如果我们把这些点单纯的投影到x轴或者y轴上，最后在x轴与y轴上得到的方差是相似的（因为这些点的趋势是在45度左右的方向，所以投影到x轴或者y轴上都是类似的），如果我们使用原来的xy坐标系去看这些点，容易看不出来这些点真正的方向是什么。但是如果我们进行坐标系的变化，横轴变成了signal的方向，纵轴变成了noise的方向，则就很容易发现什么方向的方差大，什么方向的方差小了。

    一般来说，方差大的方向是信号的方向，方差小的方向是噪声的方向，我们在数据挖掘中或者数字信号处理中，往往要提高信号与噪声的比例，也就是信噪比。对上图来说，如果我们只保留signal方向的数据，也可以对原数据进行不错的近似了。

    PCA的全部工作简单点说，就是对原始的空间中顺序地找一组相互正交的坐标轴，第一个轴是使得方差最大的，第二个轴是在与第一个轴正交的平面中使得方差最大的，第三个轴是在与第1、2个轴正交的平面中方差最大的，这样假设在N维空间中，我们可以找到N个这样的坐标轴，我们取前r个去近似这个空间，这样就从一个N维的空间压缩到r维的空间了，但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

   还是假设我们矩阵每一行表示一个样本，每一列表示一个feature，用矩阵的语言来表示，将一个m * n的矩阵A的进行坐标轴的变化，P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间，在空间中就会进行一些类似于旋转、拉伸的变化。

    而将一个m * n的矩阵A变换成一个m * r的矩阵，这样就会使得本来有n个feature的，变成了有r个feature了（r < n)，这r个其实就是对n个feature的一种提炼，我们就把这个称为feature的压缩。用数学语言表示就是：

但是这个怎么和SVD扯上关系呢？之前谈到，SVD得出的奇异向量也是从奇异值由大到小排列的，按PCA的观点来看，就是方差最大的坐标轴就是第一个奇异向量，方差次大的坐标轴就是第二个奇异向量…我们回忆一下之前得到的SVD式子：

在矩阵的两边同时乘上一个矩阵V，由于V是一个正交的矩阵，所以V转置乘以V得到单位阵I，所以可以化成后面的式子

将后面的式子与A * P那个m * n的矩阵变换为m * r的矩阵的式子对照看看，在这里，其实V就是P，也就是一个变化的向量。这里是将一个m * n 的矩阵压缩到一个m * r的矩阵，也就是对列进行压缩，如果我们想对行进行压缩（在PCA的观点下，对行进行压缩可以理解为，将一些相似的sample合并在一起，或者将一些没有太大价值的sample去掉）怎么办呢？同样我们写出一个通用的行压缩例子：

这样就从一个m行的矩阵压缩到一个r行的矩阵了，对SVD来说也是一样的，我们对SVD分解的式子两边乘以U的转置U'

这样我们就得到了对行进行压缩的式子。可以看出，其实PCA几乎可以说是对SVD的一个包装，如果我们实现了SVD，那也就实现了PCA了，而且更好的地方是，有了SVD，我们就可以得到两个方向的PCA，如果我们对A’A进行特征值的分解，只能得到一个方向的PCA。

四、奇异值与潜在语义索引LSI：

潜在语义索引（Latent Semantic Indexing）与PCA不太一样，至少不是实现了SVD就可以直接用的，不过LSI也是一个严重依赖于SVD的算法，之前吴军老师在矩阵计算与文本处理中的分类问题中谈到：

    “三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章雷之间的相关性。因此，我们只要对关联矩阵A进行一次奇异值分解，w 我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。”

     上面这段话可能不太容易理解，不过这就是LSI的精髓内容，我下面举一个例子来说明一下，下面的例子来自LSA tutorial，具体的网址我将在最后的引用中给出：

这就是一个矩阵，不过不太一样的是，这里的一行表示一个词在哪些title中出现了（一行就是之前说的一维feature），一列表示一个title中有哪些词，（这个矩阵其实是我们之前说的那种一行是一个sample的形式的一种转置，这个会使得我们的左右奇异向量的意义产生变化，但是不会影响我们计算的过程）。比如说T1这个title中就有guide、investing、market、stock四个词，各出现了一次，我们将这个矩阵进行SVD，得到下面的矩阵：

左奇异向量表示词的一些特性，右奇异向量表示文档的一些特性，中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序，数字越大越重要。

      继续看这个矩阵还可以发现一些有意思的东西，首先，左奇异向量的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述，比如book是0.15对应文档中出现的2次，investing是0.74对应了文档中出现了9次，rich是0.36对应文档中出现了3次；

      其次，右奇异向量中一的第一行表示每一篇文档中的出现词的个数的近似，比如说，T6是0.49，出现了5个词，T2是0.22，出现了2个词。

      然后我们反过头来看，我们可以将左奇异向量和右奇异向量都取后2维（之前是3维的矩阵），投影到一个平面上，可以得到：

在图上，每一个红色的点，都表示一个词，每一个蓝色的点，都表示一篇文档，这样我们可以对这些词和文档进行聚类，比如说stock 和 market可以放在一类，因为他们老是出现在一起，real和estate可以放在一类，dads，guide这种词就看起来有点孤立了，我们就不对他们进行合并了。按这样聚类出现的效果，可以提取文档集合中的近义词，这样当用户检索文档的时候，是用语义级别（近义词集合）去检索了，而不是之前的词的级别。这样一减少我们的检索、存储量，因为这样压缩的文档集合和PCA是异曲同工的，二可以提高我们的用户体验，用户输入一个词，我们可以在这个词的近义词的集合中去找，这是传统的索引无法做到的。

B. 求《Java机器学习》全文免费下载百度网盘资源,谢谢~

《Java机器学习》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1D1gpbGOim6uvIv698RZtXA

?pwd=7vbh 提取码: 7vbh
简介：本书涵盖了机器学习中的经典技术，如分类、聚类、降维、离群值检测、半监督学习和主动学习。同时介绍了近期高深的主题，包括流数据学习、深度学习以及大数据学习的挑战。每一章指定一个主题，包括通过案例研究，介绍前沿的基于Java的工具和软件，以及完整的知识发现周期：数据采集、实验设计、建模、结果及评估。每一章都是独立的，提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说，这确实很难得，大家可以直接用刚学到的方法进行实验，或者通过将这些方法应用到真实环境中，加深对它们的理解。

C. 常用的机器学习&数据挖掘知识(点）

常用的机器学习&数据挖掘知识(点）
Basis(基础)：MSE(Mean Square Error 均方误差)，
LMS(LeastMean Square 最小均方)，
LSM(Least Square Methods 最小二乘法)，
MLE(MaximumLikelihood Estimation最大似然估计)，
QP(Quadratic Programming 二次规划)，
CP(Conditional Probability条件概率)，
JP(Joint Probability 联合概率)，
MP(Marginal Probability边缘概率)，
Bayesian Formula(贝叶斯公式)，
L1 /L2Regularization(L1/L2正则，
以及更多的，现在比较火的L2.5正则等)，
GD(GradientDescent 梯度下降)，
SGD(Stochastic Gradient Descent 随机梯度下降)，
Eigenvalue(特征值)，
Eigenvector(特征向量)，
QR-decomposition(QR分解)，
Quantile (分位数)，
Covariance(协方差矩阵)。
Common Distribution(常见分布)：
Discrete Distribution(离散型分布)：
BernoulliDistribution/Binomial(贝努利分布/二项分布)，
Negative BinomialDistribution(负二项分布)，
MultinomialDistribution(多项式分布)，
Geometric Distribution(几何分布)，
HypergeometricDistribution(超几何分布)，
Poisson Distribution (泊松分布)。
Continuous Distribution (连续型分布)：
UniformDistribution(均匀分布)，
Normal Distribution /Guassian Distribution(正态分布/高斯分布)，
ExponentialDistribution(指数分布)，
Lognormal Distribution(对数正态分布)，
GammaDistribution(Gamma分布)，
Beta Distribution(Beta分布)，
Dirichlet Distribution(狄利克雷分布)，
Rayleigh Distribution(瑞利分布)，
Cauchy Distribution(柯西分布)，
Weibull Distribution (韦伯分布)。
Three Sampling Distribution(三大抽样分布)：
Chi-squareDistribution(卡方分布)，
t-distribution(t-distribution)，
F-distribution(F-分布)。
Data Pre-processing(数据预处理)：
Missing Value Imputation(缺失值填充)，
Discretization(离散化)，Mapping(映射)，
Normalization(归一化/标准化)。
Sampling(采样)：
Simple Random Sampling(简单随机采样)，
OfflineSampling(离线等可能K采样)，
Online Sampling(在线等可能K采样)，
Ratio-based Sampling(等比例随机采样)，
Acceptance-RejectionSampling(接受-拒绝采样)，
Importance Sampling(重要性采样)，
MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法：Metropolis-Hasting& Gibbs)。
Clustering(聚类)：
K-Means，
K-Mediods，
二分K-Means，
FK-Means，
Canopy，
Spectral-KMeans(谱聚类)，
GMM-EM(混合高斯模型-期望最大化算法解决)，
K-Pototypes，CLARANS(基于划分)，
BIRCH(基于层次)，
CURE(基于层次)，
DBSCAN(基于密度)，
CLIQUE(基于密度和基于网格)。
Classification&Regression(分类&回归)：
LR(Linear Regression 线性回归)，
LR(LogisticRegression逻辑回归)，
SR(Softmax Regression 多分类逻辑回归)，
GLM(GeneralizedLinear Model 广义线性模型)，
RR(Ridge Regression 岭回归/L2正则最小二乘回归)，
LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归)，
RF(随机森林)，
DT(DecisionTree决策树)，
GBDT(Gradient BoostingDecision Tree 梯度下降决策树)，
CART(ClassificationAnd Regression Tree 分类回归树)，
KNN(K-Nearest Neighbor K近邻)，
SVM(Support VectorMachine)，
KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、
Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、
String KernelFunction 字符串核函数)、
NB(Naive Bayes 朴素贝叶斯)，BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)，
LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别)，
EL(Ensemble Learning集成学习Boosting，Bagging，Stacking)，
AdaBoost(Adaptive Boosting 自适应增强)，
MEM(MaximumEntropy Model最大熵模型)。
Effectiveness Evaluation(分类效果评估)：
Confusion Matrix(混淆矩阵)，
Precision(精确度)，Recall(召回率)，
Accuracy(准确率)，F-score(F得分)，
ROC Curve(ROC曲线)，AUC(AUC面积)，
LiftCurve(Lift曲线) ，KS Curve(KS曲线)。
PGM(Probabilistic Graphical Models概率图模型)：
BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络)，
MC(Markov Chain 马尔科夫链)，
HMM(HiddenMarkov Model 马尔科夫模型)，
MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型)，
CRF(ConditionalRandom Field 条件随机场)，
MRF(MarkovRandom Field 马尔科夫随机场)。
NN(Neural Network神经网络)：
ANN(Artificial Neural Network 人工神经网络)，
BP(Error BackPropagation 误差反向传播)。
Deep Learning(深度学习)：
Auto-encoder(自动编码器)，
SAE(Stacked Auto-encoders堆叠自动编码器，
Sparse Auto-encoders稀疏自动编码器、
Denoising Auto-encoders去噪自动编码器、
Contractive Auto-encoders 收缩自动编码器)，
RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机)，
DBN(Deep Belief Network 深度信念网络)，
CNN(ConvolutionalNeural Network 卷积神经网络)，
Word2Vec(词向量学习模型)。
DimensionalityRection(降维)：
LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别，
PCA(Principal Component Analysis 主成分分析)，
ICA(IndependentComponent Analysis 独立成分分析)，
SVD(Singular Value Decomposition 奇异值分解)，
FA(FactorAnalysis 因子分析法)。
Text Mining(文本挖掘)：
VSM(Vector Space Model向量空间模型)，
Word2Vec(词向量学习模型)，
TF(Term Frequency词频)，
TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率)，
MI(MutualInformation 互信息)，
ECE(Expected Cross Entropy 期望交叉熵)，
QEMI(二次信息熵)，
IG(InformationGain 信息增益)，
IGR(Information Gain Ratio 信息增益率)，
Gini(基尼系数)，
x2 Statistic(x2统计量)，
TEW(TextEvidence Weight文本证据权)，
OR(Odds Ratio 优势率)，
N-Gram Model，
LSA(Latent Semantic Analysis 潜在语义分析)，
PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析)，
LDA(Latent DirichletAllocation 潜在狄利克雷模型)。
Association Mining(关联挖掘)：
Apriori，
FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法)，
AprioriAll，
Spade。
Recommendation Engine(推荐引擎)：
DBR(Demographic-based Recommendation 基于人口统计学的推荐)，
CBR(Context-basedRecommendation 基于内容的推荐)，
CF(Collaborative Filtering协同过滤)，
UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐)，
ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。
Similarity Measure&Distance Measure(相似性与距离度量)：
Euclidean Distance(欧式距离)，
ManhattanDistance(曼哈顿距离)，
Chebyshev Distance(切比雪夫距离)，
MinkowskiDistance(闵可夫斯基距离)，
Standardized Euclidean Distance(标准化欧氏距离)，
MahalanobisDistance(马氏距离)，
Cos(Cosine 余弦)，
HammingDistance/Edit Distance(汉明距离/编辑距离)，
JaccardDistance(杰卡德距离)，
Correlation Coefficient Distance(相关系数距离)，
InformationEntropy(信息熵)，
KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。
Optimization(最优化)：
Non-constrainedOptimization(无约束优化)：
Cyclic VariableMethods(变量轮换法)，
Pattern Search Methods(模式搜索法)，
VariableSimplex Methods(可变单纯形法)，
Gradient Descent Methods(梯度下降法)，
Newton Methods(牛顿法)，
Quasi-NewtonMethods(拟牛顿法)，
Conjugate Gradient Methods(共轭梯度法)。
ConstrainedOptimization(有约束优化)：
Approximation Programming Methods(近似规划法)，
FeasibleDirection Methods(可行方向法)，
Penalty Function Methods(罚函数法)，
Multiplier Methods(乘子法)。
Heuristic Algorithm(启发式算法)，
SA(SimulatedAnnealing，
模拟退火算法)，
GA(genetic algorithm遗传算法)。
Feature Selection(特征选择算法)：
Mutual Information(互信息)，
DocumentFrequence(文档频率)，
Information Gain(信息增益)，
Chi-squared Test(卡方检验)，
Gini(基尼系数)。
Outlier Detection(异常点检测算法)：
Statistic-based(基于统计)，
Distance-based(基于距离)，
Density-based(基于密度)，
Clustering-based(基于聚类)。
Learning to Rank(基于学习的排序)：
Pointwise：McRank；
Pairwise：RankingSVM，RankNet，Frank，RankBoost；
Listwise：AdaRank，SoftRank，LamdaMART。
Tool(工具)：
MPI，Hadoop生态圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…
以及一些具体的业务场景与case等。

D. 推荐系统中矩阵分解算法-funkSVD和ALS

矩阵分解funkSVD:该矩阵分解不像是线代中的，他属于伪分解。其主要思想是，用两个m＊k和k＊n的矩阵代替m＊n的矩阵。

因为在推荐系统中，矩阵十分稀疏，分解后的矩阵一般是密集的，且可以通过行列相乘来得到空缺的值。

(其预测的是第u个用户对第i个商品的评分)

其通过机器学习最小化损失函数来得到矩阵，

其学习方式有两种，一种是随机梯度下降，一种是交替最小二乘。

第一种不说，随处可见。第二种是通过

该式子实现的。

我们先随机化一个Q，因为R是那个稀疏矩阵已知，所以能得到P，我们再反过来用PR求Q。直到模型的误差低于一个阈值。

上面的svd是对于评分的算法，还有svd++等对用户，物品做了偏移项。

隐式矩阵分解(最常见)ALS

我们一般的推荐问题不是通过评分推荐，因为评分的产生十分的困难，一般用户没有这个习惯。我们与其预测评分，不如去预测用户行为。如果我们给用户一个页面有十个商品，我们预测到用户会点击哪一个，这不就说明用户喜欢这个。而且基于用户的信息很多。

我们的矩阵由1，0和空缺组成，1表示该用户点击过该商品(即表示用户对它有想法)，0表示用户对它没有想法(怎么是没想法呢，我们定义用户知道他却不想了解他。即我们在所有没有点击该商品的用户中抽样，该商品越火热抽取的人越多。因为热门的东西大家应该都知道，而你却没点击他，说明他不感兴趣)

我们要将该矩阵分解。

我们的损失函数是

Cui是置信度，比如我点击10次当时比只点击一次的喜欢置信度高。

对于学习方法，我们使用加权交替最小二乘法

初始化Y，我们计算出x，再通过

计算出y。再反复交替，直到小于阈值。

该算法目前在spark上有实现。且sparkml将其作为唯一的推荐系统算法。

导航:首页 > 源码编译 > 机器学习svd源码

机器学习svd源码

与机器学习svd源码相关的资料