⑴ 线性回归公式,怎么推导的
线性回归是一种用来研究两种或两种以上变量之间相互依存关系的统计分析方法。其中一种变量称为自变量,另一种称为因变量。线性回归假设自变量与因变量之间存在线性关系,即因变量可以用一个或多个自变量的线性组合来表示。公式的推导过程可以分为如下几个步骤:定义自变量和因变量设有 n 组观测数据,其中自变量为 x,因变量为 y。因此,可以得到如下的观测数据:(x1, y1), (x2, y2), … , (xn, yn)假设存在一个线性函数 y=wx+b 能够较好地描述自变量与因变量之间的关系线性回归假设存在一个线性函数 y=wx+b 能够较好地描述自变量与因变量之间的关系,其中 w 和 b 是常数。因此,我们的目标是找到一组最优的 w 和 b 值,使得该函数能够尽可能准确地描述观测数据。定义损失函数为了找到最优的 w 和 b 值,我们需要定义一个损失函数来衡量线性函数 y=wx+b 和观测数据之间的差异。常用的损失函数有均方差损失函数和平均绝对误差损失函数。均方差损失函数为:L = (1/n) * ∑(yi - (wx + b))^2其中,yi 表示第 i 组观测数据的因变量,wx+b 表示线性函数对于第 i 组观测数据的预测值。平均绝对误差损失函数为:L = (1/n) * ∑|yi - (wx + b)|求解最优解接下来,我们可以使用梯度下降法或其他优化算法来求解最优解。梯度下降法的基本思想是,通过不断迭代调整 w 和 b 的值,使得损失函数的值越来越小,从而得到最优的 w 和 b 值。最终,我们就可以得到最优的线性回归模型 y=wx+b。希望以上回答能帮到你!
⑵ 线性回归算法原理(越详细越好)
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。
分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
我们以一简单数据组来说明什么是线性回归。假设有一组数据型态为y=y(x),其中
x={0,1,2,3,4,5},y={0,20,60,68,77,110}
如果我们要以一个最简单的方程式来近似这组数据,则非一阶的线性方程式莫属。先将这组数据绘图如下
图中的斜线是我们随意假设一阶线性方程式y=20x,用以代表这些数据的一个方程式。以下将上述绘图的MATLAB指令列出,并计算这个线性方程式的y值与原数据y值间误差平方的总合。
>>x=[012345];
>>y=[020606877110];
>>y1=20*x;%一阶线性方程式的y1值
>>sum_sq=sum(y-y1).^2);%误差平方总合为573
>>axis([-1,6,-20,120])
>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid
如此任意的假设一个线性方程式并无根据,如果换成其它人来设定就可能采用不同的线性方程式;所以我们须要有比较精确方式决定理想的线性方程式。我们可以要求误差平方的总合为最小,做为决定理想的线性方程式的准则,这样的方法就称为最小平方误差(leastsquareserror)或是线性回归。MATLAB的polyfit函数提供了从一阶到高阶多项式的回归法,其语法为polyfit(x,y,n),其中x,y为输入数据组n为多项式的阶数,n=1就是一阶的线性回归法。polyfit函数所建立的多项式可以写成
从polyfit函数得到的输出值就是上述的各项系数,以一阶线性回归为例n=1,所以只有二个输出值。如果指令为coef=polyfit(x,y,n),则coef(1)=,coef(2)=,...,coef(n+1)=。注意上式对n阶的多项式会有n+1项的系数。我们来看以下的线性回归的示范:
>>x=[012345];
>>y=[020606877110];
>>coef=polyfit(x,y,1);%coef代表线性回归的二个输出值
>>a0=coef(1);a1=coef(2);
>>ybest=a0*x+a1;%由线性回归产生的一阶方程式
>>sum_sq=sum(y-ybest).^2);%误差平方总合为356.82
>>axis([-1,6,-20,120])
>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid
[编辑本段]线性回归拟合方程
一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线,其经验拟合方程如下: