導航:首頁 > 源碼編譯 > 協方差演算法

協方差演算法

發布時間:2023-05-16 13:35:36

① 向量的表示及協方差矩陣(PCA)

當面對的數據被抽象為一組向量,那麼有必要研究一些向量的數學性質。而這些數學性質將成為PCA的理論基礎。

向量運算即:內積。首先,定義兩個維數相同的向量的內積為:

(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn

內積運算將兩個向量映射為一個實數。其計算方式非常容易理解,但是其意義並不明顯。所以,我們分析內積的幾何意義。假設A和B是兩個n維向量,我們知道n維向量可以等價表示為n維空間中的一條從原點發射的有向線段,為了簡單起見我們假設A和B均為二維向量,則A=(x1,y1),B=(x2,y2)。則在二維平面上A和B可以用兩條發自原點的有向線段表示,如圖1所示。

現在,我們從A點向B所在直線引一條垂線。我們知道垂線與B的交點叫做A在B上的投影,再設A與B的夾角是a,則投影的矢量長度為|A|cos(a),其中|A|=(x1**2+y1**2)**1/2−−−−−−是向量A的模,也就是段薯頃A線段的標量長度。注意這里我們專門區分了矢量長度和標量長度,標量長度總是大於等於0,值就是線段的長度;而矢量長度可能為負,其絕對值是線段長度,而符號取決於其方向與標准方向相同或相反。到這里還是看不出內積和這東西有什麼關系,不過如果我們將內積表示為另一種我們熟悉的形式:

 A⋅B=|A||B|cos(a)

現在事情似乎是有點眉目了:A與B的內積等於A到B的投影長度乘以B的模。再進一步,如果我們假設B的模為1,即讓|B|=1,那麼就變成了:

A⋅B=|A|cos(a)

也就是說, 設向量B的模為1,則A與B的內積值等於A向B所在直線投影的矢量長度! 這就是內積的一種幾何解釋,也是我們得到的第一個重要結論。在後面的推導中,將反復使用這個結論。

本節將繼續在二維空間內討論向量。上文說過,一個二維向量可以對應二維笛卡爾直角坐標系中從原點出發的一個有向線段。例如圖2所示,這個向量,在代數表示方面,我握陸手橘們經常用線段終點的點坐標表示向量,例如上面的向量可以表示為(3,2),這是我們再熟悉不過的向量表示。不過我們常常忽略,只有一個(3,2)本身是不能夠精確表示一個向量的。我們仔細看一下,這里的3實際表示的是向量在x軸上的投影值是3,在y軸上的投影值是2。也就是說我們其實隱式引入了一個定義:以x軸和y軸上正方向長度為1的向量為標准。那麼一個向量(3,2)實際是說在x軸投影為3而y軸的投影為2。注意投影是一個矢量,所以可以為負。更正式的說,向量(x,y)實際上表示線性組合:

                                                                          x(1,0)T+y(0,1)T

不難證明所有二維向量都可以表示為這樣的線性組合。此處(1,0)和(0,1)叫做二維空間中的一組基,如圖3。所以, 要准確描述向量,首先要確定一組基,然後給出在基所在的各個直線上的投影值 ,就可以了。只不過我們經常省略第一步,而默認以(1,0)和(0,1)為基。我們之所以默認選擇(1,0)和(0,1)為基,當然是比較方便,因為它們分別是x和y軸正方向上的單位向量,因此就使得二維平面上點坐標和向量一一對應,非常方便。但實際上任何兩個線性無關的二維向量都可以成為一組基,所謂線性無關在二維平面內可以直觀認為是兩個不在一條直線上的向量。

例如,(1,1)和(-1,1)也可以成為一組基。一般來說,我們希望基的模是1,因為從內積的意義可以看到,如果基的模是1,那麼就可以方便的用向量點乘基而直接獲得其在新基上的坐標了!實際上,對應任何一個向量我們總可以找到其同方向上模為1的向量,只要讓兩個分量分別除以模就好了。例如,上面的基可以變為(1/√2,1/√2)和(−1/√2,1/√2)。現在,我們想獲得(3,2)在新基上的坐標,即在兩個方向上的投影矢量值,那麼根據內積的幾何意義,我們只要分別計算(3,2)和兩個基的內積,不難得到新的坐標為(5/√2,−1/√2)。圖4給出了新的基以及(3,2)在新基上坐標值的示意圖4所示。另外這里要注意的是,我們列舉的例子中基是正交的(即內積為0,或直觀說相互垂直),但可以成為一組基的唯一要求就是線性無關,非正交的基也是可以的。不過因為正交基有較好的性質,所以一般使用的基都是正交的。

下面我們找一種簡便的方式來表示基變換。還是拿上面的例子,想一下,將(3,2)變換為新基上的坐標,就是用(3,2)與第一個基做內積運算,作為第一個新的坐標分量,然後用(3,2)與第二個基做內積運算,作為第二個新坐標的分量。實際上,我們可以用矩陣相乘的形式簡潔的表示這個變換:

太漂亮了!其中矩陣的兩行分別為兩個基,乘以原向量,其結果剛好為新基的坐標。可以稍微推廣一下,如果我們有m個二維向量,只要將二維向量按列排成一個兩行m列矩陣,然後用「基矩陣」乘以這個矩陣,就得到了所有這些向量在新基下的值。例如(1,1),(2,2),(3,3),想變換到剛才那組基上,則可以這樣表示:

於是一組向量的基變換被干凈的表示為矩陣的相乘。

一般的,如果我們有M個N維向量,想將其變換為由R個N維向量表示的新空間中,那麼首先將R個基按行組成矩陣A,然後將向量按列組成矩陣B,那麼兩矩陣的乘積AB就是變換結果,其中AB的第m列為A中第m列變換後的結果。數學表示為:

其中pi是一個行向量,表示第i個基,aj是一個列向量,表示第j個原始數據記錄。

特別要注意的是,這里R可以小於N,而R決定了變換後數據的維數。也就是說,我們可以將一N維數據變換到更低維度的空間中去,變換後的維度取決於基的數量。因此這種矩陣相乘的表示也可以表示降維變換。

最後,上述分析同時給矩陣相乘找到了一種物理解釋: 兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去 。更抽象的說,一個矩陣可以表示一種線性變換。很多同學在學線性代數時對矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義,其合理性就一目瞭然了。

上述我們討論了選擇不同的基可以對同樣一組數據給出不同的表示,而且如果基的數量少於向量本身的維數,則可以達到降維的效果。但是我們還沒有回答一個最最關鍵的問題:如何選擇基才是最優的。或者說,如果我們有一組N維向量,現在要將其降到K維(K小於N),那麼我們應該如何選擇K個基才能最大程度保留原有的信息?要完全數學化這個問題非常繁雜,這里我們用一種非形式化的直觀方法來看這個問題。為了避免過於抽象的討論,我們仍以一個具體的例子展開。假設我們的數據由五條記錄組成,將它們表示成矩陣形式:

其中每一列為一條數據記錄,而一行為一個欄位。為了後續處理方便,我們首先將每個欄位內所有值都減去欄位均值,其結果是將每個欄位都變為均值為0(這樣做的道理和好處後面會看到)。我們看上面的數據,第一個欄位均值為2,第二個欄位均值為3,所以變換後:

我們可以看下五條數據在平面直角坐標系內的樣子:

現在問題來了:如果我們必須使用一維來表示這些數據,又希望盡量保留原始的信息,你要如何選擇?

通過上一節對基變換的討論我們知道,這個問題實際上是要在二維平面中選擇一個方向,將所有數據都投影到這個方向所在直線上,用投影值表示原始記錄。這是一個實際的二維降到一維的問題。那麼如何選擇這個方向(或者說基)才能盡量保留最多的原始信息呢?一種直觀的看法是:希望投影後的投影值盡可能分散。以上圖為例,可以看出如果向x軸投影,那麼最左邊的兩個點會重疊在一起,中間的兩個點也會重疊在一起,於是本身四個各不相同的二維點投影後只剩下兩個不同的值了,這是一種嚴重的信息丟失,同理,如果向y軸投影最上面的兩個點和分布在x軸上的兩個點也會重疊。所以看來x和y軸都不是最好的投影選擇。我們直觀目測,如果向通過第一象限和第三象限的斜線投影,則五個點在投影後還是可以區分的。接下來,我們用數學方法表述這個問題。

上文說到,我們希望投影後投影值盡可能分散,而這種分散程度,可以用數學上的方差來表述。此處,一個欄位的方差可以看做是每個元素與欄位均值的差的平方和的均值,即:

由於上面我們已經將每個欄位的均值都化為0了,因此方差可以直接用每個元素的平方和除以元素個數表示:

於是上面的問題被形式化表述為:尋找一個一維基,使得所有數據變換為這個基上的坐標表示後,方差值最大。

對於上面二維降成一維的問題來說,找到那個使得方差最大的方向就可以了。不過對於更高維,還有一個問題需要解決。考慮三維降到二維問題。與之前相同,首先我們希望找到一個方向使得投影後方差最大,這樣就完成了第一個方向的選擇,繼而我們選擇第二個投影方向。如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是「幾乎重合在一起」,顯然這樣的維度是沒有用的,因此,應該有其他約束條件。從直觀上說,讓兩個欄位盡可能表示更多的原始信息,我們是不希望它們之間存在(線性)相關性的,因為相關性意味著兩個欄位不是完全獨立,必然存在重復表示的信息。

數學上可以用兩個欄位的協方差表示其相關性,由於已經讓每個欄位均值為0,則:

可以看到,在欄位均值為0的情況下,兩個欄位的協方差簡潔的表示為其內積除以元素數m。當協方差為0時,表示兩個欄位完全獨立。為了讓協方差為0,我們選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。至此,我們得到了降維問題的優化目標: 將一組N維向量降為K維(K大於0,小於N),其目標是選擇K個單位(模為1)正交基,使得原始數據變換到這組基上後,各欄位兩兩間協方差為0,而欄位的方差則盡可能大(在正交的約束下,取最大的K個方差 )。

上面我們導出了優化目標,但是這個目標似乎不能直接作為操作指南(或者說 演算法 ),因為它只說要什麼,但根本沒有說怎麼做。所以我們要繼續在數學上研究計算方案。我們看到,最終要達到的目的與欄位內方差及欄位間協方差有密切關系。因此我們希望能將兩者統一表示,仔細觀察發現,兩者均可以表示為內積的形式,而內積又與矩陣相乘密切相關。於是我們來了靈感:假設我們只有a和b兩個欄位,那麼我們將它們按行組成矩陣X:

然後我們用X乘以X的轉置,並乘上系數1/m:

奇跡出現了!這個矩陣對角線上的兩個元素分別是兩個欄位的方差,而其它元素是a和b的協方差。兩者被統一到了一個矩陣的。

根據矩陣相乘的運演算法則,這個結論很容易被推廣到一般情況: 設我們有m個n維數據記錄,將其按列排成n乘m的矩陣X,設C=1mXXT,則C是一個對稱矩陣,其對角線分別個各個欄位的方差,而第i行j列和j行i列元素相同,表示i和j兩個欄位的協方差 。

根據上述推導,我們發現要達到優化目前,等價於將協方差矩陣對角化:即除對角線外的其它元素化為0,並且在對角線上將元素按大小從上到下排列,這樣我們就達到了優化目的。這樣說可能還不是很明晰,我們進一步看下原矩陣與基變換後矩陣協方差矩陣的關系:設原始數據矩陣X對應的協方差矩陣為C,而P是一組基按行組成的矩陣,設Y=PX,則Y為X對P做基變換後的數據。設Y的協方差矩陣為D,我們推導一下D與C的關系:

現在事情很明白了!我們要找的P不是別的,而是能讓原始協方差矩陣對角化的P。換句話說,優化目標變成了 尋找一個矩陣P,滿足PCPT是一個對角矩陣,並且對角元素按從大到小依次排列,那麼P的前K行就是要尋找的基,用P的前K行組成的矩陣乘以X就使得X從N維降到了K維並滿足上述優化條件。

現在所有焦點都聚焦在了協方差矩陣對角化問題上,由上文知道,協方差矩陣C是一個是對稱矩陣,在線性代數上,實對稱矩陣有一系列非常好的性質:第一、實對稱矩陣不同特徵值對應的特徵向量必然正交;第二、設特徵向量λ重數為r,則必然存在r個線性無關的特徵向量對應於λ,因此可以將這r個特徵向量單位正交化。由兩條性質可知,一個n行n列的實對稱矩陣一定可以找到n個單位正交特徵向量,設這n個特徵向量為e1,e2,⋯,en,我們將其按列組成矩陣:

則對協方差矩陣C有如下結論:

其中Λ為對角矩陣,其對角元素為各特徵向量對應的特徵值(可能有重復)。

因此,我們可以發現已經找到了需要的矩陣P:

P是協方差矩陣的特徵向量單位化後按行排列出的矩陣,其中每一行都是C的一個特徵向量。如果設P按照Λ中特徵值的從大到小,將特徵向量從上到下排列,則用P的前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維後的數據矩陣Y。

② 協方差法和改進協方差法

4.9.2.1 協方差法

用下列時間平均最小平方准則代替集合平均的最小平方准則:

地球物理信息處理基礎

該式與自相關法的主要區別是求和范圍不同。現在的求和范圍是p~N-1,說明濾波器工作時,在所處理的數據扮孝段左右兩端不需要添加任何零采樣值,即沒有假設已知數據x(n)(0≤n≤N-1)以外的數據等於零。因此,與自相關法比較,去掉了「加窗處理」的不合理假設。為求得模型參數可應用復梯度使式(4-78)達到最小值。由下式

地球物理信息處理基礎

地球物理信息處理基礎

式中

地球物理信息處理基礎

由觀測數據(x(0),x(1),…,x(N-1)),利用上述公式(4-79)、(4-80)、(4-81)可以求出模型的參數:(1,ap1,ap2,…,app

)。按照定義,式(4-79)中的cxx(i,j)可以稱作協方差函數,它有兩個變數,因此也適合於非平穩隨機信號。式(4-79)的協方差矩陣是Hermitian矩陣,不是Toeplitz的,

,是半正定的,因此協方差法存在著穩定性問題,例如:設輸入序列長度為3,對它進行1階線性預測,誤差產生的過程如圖4-10所示。

圖4-10 協方差法不穩定性的實例

地球物理信息處理基礎

由圖4-10可以得出,

地球物理信息處理基礎

a11的計算式中分母與x(2)無關,因而若x(2)足夠大,就有神顫可能使|a11|>1,這表明預測誤差濾波器不是最小相位的,所以不穩定。在實際應用協方差法時應當注意這個問題。

4.9.2.2 改進的協方差法

改進的協方差法是以前向預測誤差功率和後向預測誤差功率估計的平均值最小為准則,來估計AR模型參數,從而估計功率譜的,即

地球物理信息處理基礎

注意:

都與api有關,且x(n)是復數據。廳瞎稿要直接對AR參數api求解,可以令ξ的復梯度等於零,因而前向和後向預測誤差功率分別為(ap0=1)

地球物理信息處理基礎

ξ的復梯度為

,j=0,1,2,p,得

地球物理信息處理基礎

經簡化後,上式變為

地球物理信息處理基礎

地球物理信息處理基礎

則式(4-83)可寫成矩陣形式

地球物理信息處理基礎

最小預測誤差功率可由

地球物理信息處理基礎

求出。式(4-84)和式(4-85)合起來構成改進的協方差矩陣法。由於cxx(i,j)不能寫成cxx(i,-j),所以,式(4-84)的系數矩陣不是Toeplitz矩陣,因此該線性方程組不能用Levinson演算法求解,但可用Cholesky分解來解。

最後需要指出,改進的協方差演算法,最適合於用來估計正弦波頻率。可以證明,在無雜訊情況下,修正協方差AR譜估計的峰的位置就是相應正弦波的准確頻率;在有雜訊情況下,對於雜訊引起的譜峰移動,用改進的協方差法比用其它演算法都要小;此外,改進的協方差法對正弦波相位最不敏感。因此,改進的協方差法能提供穩定的高解析度的譜估計。

③ 協方差為0,一定獨立嗎

協方差為0,不一定獨立。

因為協方差等於零隻能推出不相關的,所以不能推出互相獨立的。但互相獨立的告皮鬧可以推出互不相乾的。

協方差的演算法:COV(X,Y)=E{(X-E(X))(Y=E(Y))}E為數學期望;它反映隨機變數平均取值的大小。又稱期握清望或均值。它是簡單算術平均的一種推廣。

折疊定理

設ρXY是隨機變數X和Y的相關系數,則有:

(1)∣ρXY∣≤1;

(2)∣ρXY∣=1充分必要條件為P{Y=aX+b}=1,(a,b為常數,a≠0)。

設X和Y是隨機變數,若E(X^k),k=1,2,...存在,則稱它為X的k階原點矩,簡稱k階矩。

若E{[X-E(X)]^k},k=1,2,...存在,則稱它為X的k階中心矩。

若E(X^kY^l),k、l=1,2,...存在,則稱它為X和Y的k+l階混合原點矩。

若E{[X-E(X)]^k[Y-E(Y)]^l},k、l=1,2,...存在,則稱它為X和Y的k+l階混合中心矩。襪罩

④ 協方差公式中E(XY)是指什麼,怎麼算

X乘以Y的期待
演算法見期待的公式

⑤ Cov(3x+2y,3x-2y)怎麼算

Cov(3x+2y,3x-2y)演算法如下:

Cov(3X+2Y,3X-2Y)=9Cov(X,X)-4Cov(Y,Y)=5σ^2

Var(Z1)=9*Var(X)+4*Var(Y)=13σ^2

Var(Z2)=9*Var(X)+4Var(Y)=13*σ^2

Corr(3X+2Y,3X-2Y)=Cov(3X+2Y,3X-2Y)/(Std(Z1)*Std(Z2))=5/13

隨機變數:

如果亮卜指X與Y是統計獨立的敬配,那麼二者之間的協方差就是0,因為兩個獨立的隨機變數滿足E[XY]=E[X]E[Y]。但是,反過來並不成立。即如果X與Y的協方差為0,二者並不一定是統計獨立的。協方差Cov(X,Y)的度量單位是X的協方弊御差乘以Y的協方差。協方差為0的兩個隨機變數稱為是不相關的。

⑥ 聯合隨機變數(x,y)求cov(x,y)和離散型隨機變數求協方差演算法是一樣的嗎

公式都是一樣的,Cov(X, Y)=EXY-EX EY
只是,這里帆吵螞具體的期望,如果是連續型隨機變數用碰租積分來求,如果是離散型隨機變數,用求和來態埋算的

⑦ 下面這個題目怎麼求協方差與相關系數

A股票期望值:-5%*0.3+10%*0.4+25%*0.3=10%
標准差:根號((-5%-10%)^2*0.3+(10%-10%)^2*0.4+(25%-10%)^2*0.3)=11.62%
B股票期望值跡信歲:-10%*0.3+15%*0.4+40%*0.3=15%
標准差:根號((-10%-15%)^2*0.3+(15%-15%)^2*0.4+(40%-15%)^2*0.3)=19.36%
相坦液關系數=∑(Xi-X-)*(Yi-Y-)/姿睜sqrt∑(Xi-X-)^2*sqrt∑(Yi-Y-)^2=1
協方差=1*11.62%*19.36%=2.25%

⑧ 卡爾曼濾波(kalman)演算法中,協方差怎麼計算

這個嘛,要看你解決問題所建立的模型,一般文獻資料有參考數據。這些值是實驗和調試出來的

⑨ (十)PCA降維演算法

主成分分析(Principal components analysis,以下簡稱PCA) 是最重要的降維方法之一。在數據壓縮消除冗餘和數據噪音消除等領域都有廣泛的應用。它可以通過 線性變換 將原始數據變換為一組 各維度線性無關 的表示,以此來提取數據的主要線性分量。需要注意的是,PCA一般只用於線性數據降維,對於非線性數據一般採用KPCA。

降維就是找出數據里最主要的方面,用數據里最主要的方面來代替原始數據,並且希望損失盡可能的小。首先看幾張圖,有一個直觀的認識。
這裡面,把橢圓看成是數據:

基於這個知識,如果我們想對數據進行降維的話,比如圖1的兩個維度的數據降成一維,我們可以選擇保留X1這個維度的數據,因為在這個維度上蘊含的信息量更多。同理,圖2就可以保留x2這個維度的數據。但是,問題來了,圖3應該保留哪個維度的數據呢?答案是保留哪個維度都不好,都會丟失較大的信息量。但是,如果我們把圖3的坐標軸旋轉一下

比較容易看出,圖3在新的坐標軸下就能進行降維了。
所以,第一,變換正確的坐標軸(基);第二,保留方差最大的幾個軸作為主成分,這樣的做法就是PCA的核心思想。

從前文可以看出,理想的坐標軸是要求數據投在新坐標軸後,盡可能的分散,也就是數據的方差最大。然後每次選擇方差最大的軸作為主成分。
將前文2維降1維的例子擴展到更高維度,還有一個問題需要解決,考慮三維降到二維問題。與之前相同,首先我們希望找到一個方向使得投影後方差最大,這樣就完成了第一個方向的選擇,繼而我們選擇第二個投影方向。如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是「幾乎重合在一起」,顯然這樣的維度是沒有用的,因為發生了大量的信息重復,起不到降維的作用,因此,應該有其他約束條件——就是正交。 PCA要求軸與軸之間是正交的,也就是不同維度的信息相關性為0。

在表示相關性中,相關系數與協方差是等價的,這里為了方便計算,使用協方差。下面是協方差公式,當協方差為0時,表示兩個特徵a,b線性不相關。

可以發現,當a=b時,協方差公式就變成了方差公式,方差是特殊的協方差。如果運氣更好,特徵a與b的平均數都為0,那麼公式會進一步簡化,得到:

所以說,為了計算方便,PCA降維前,一般都要求將所有特徵屬性中心化,即平均數為0。

因為PCA要求,同一軸內方差最大,不同軸協方差為0,如何把它們放在一塊呢?這里就引入了協方差矩陣的概念:
假設有m個樣本,每個樣本特徵維度是2,每個特徵都經過中心化處理:

我們發現協方差矩陣的對角線是方差,而且是對稱矩陣。方差和協方差都放在了一個矩陣裡面,只需對這個矩陣優化,使它除了對角線的其餘元素都為0,就可以了,美滋滋。

我們知道矩陣乘法,本質上就是一種線性變換的過程。而正交基矩陣的乘法,則是坐標系變換的過程。設原空間的數據為X,協方差矩陣為C,經過正交基矩陣P,得到了新坐標系下的數據Y,即Y=PX。那麼新坐標系下的協方差矩陣D是怎樣的呢?

我們發現,新舊空間的協方差矩陣是有關系的,而且都和變換矩陣P有關系。問題就轉化成了,能不能找到一個矩陣P,使得新空間下的協方差矩陣的非對角線元素都為0.

首先,原始數據矩陣X的協方差矩陣C是一個實對稱矩陣,它有特殊的數學性質:

也就是說,P就是是協方差矩陣的特徵向量單位化後按行排列出的矩陣,其中每一行都是C的一個特徵向量。 如果設P按照中特徵值的從大到小,將特徵向量從上到下排列,則用P的前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維後的數據矩陣Y
其實,經過數學上的推導的,我們就可以知道,特徵值對應的特徵向量就是理想中想取得正確的坐標軸,而特徵值就等於數據在旋轉之後的坐標上對應維度上的方差。

由於協方差矩陣的維度和特徵相同,所以在進行特徵值分解時,得到的特徵值數目不會超過特徵的數目。

在學習線性代數時,我們都會學矩陣的特徵值分解,我們知道一個方陣A經過 特徵值分解 後就得到 特徵向量 特徵值 了。那麼,這個所謂的特徵值和特徵向量到底是什麼東西呢?
很多人都會說是那個經典的式子:

首先給出概念上的一種解釋。所謂的特徵值和特徵向量,最重要的是理解「特徵」這兩個字,特徵向量翻譯為eigen vector, eigen這個單詞來自德語,本義是在「本身固有的,本質的」。純數學的定義下,並不能很明白地理解到底為什麼叫做特徵值和特徵向量。但是舉一個應用例子,可能就容易理解多了。

在圖像處理中,有一種方法就是特徵值分解。我們都知道圖像其實就是一個像素值組成的矩陣,假設有一個100x100的圖像, 對這個圖像矩陣做特徵值分解,其實是在提取這個圖像中的特徵,這些提取出來的特徵是一個個的向量,即對應著特徵向量。而這些特徵在圖像中到底有多重要,這個重要性則通過特徵值來表示。 比如這個100x100的圖像矩陣A分解之後,會得到一個100x100的特徵向量組成的矩陣Q,以及一個100x100的只有對角線上的元素不為0的矩陣E,這個矩陣E對角線上的元素就是特徵值,而且還是按照從大到小排列的(取模,對於單個數來說,其實就是取絕對值),也就是說這個圖像A提取出來了100個特徵,這100個特徵的重要性由100個數字來表示,這100個數字存放在對角矩陣E中。 在實際中我們發現,提取出來的這100個特徵從他們的特徵值大小來看,大部分只有前20(這個20不一定,有的是10,有的是30或者更多)個特徵對應的特徵值很大,後面的就都是接近0了,也就是說後面的那些特徵對圖像的貢獻幾乎可以忽略不計。

我們知道,圖像矩陣 A 特徵值分解後可以得到矩陣 P 和矩陣 E (特徵值對角矩陣):

我們可以看到,在只取前20個特徵值和特徵向量對圖像進行恢復的時候,基本上已經可以看到圖像的大體輪廓了,而取到前50的時候,幾乎已經和原圖像無異了。明白了吧,這就是所謂的矩陣的特徵向量和特徵值的作用。

所以歸根結底,特徵向量其實反應的是矩陣A本身固有的一些特徵,本來一個矩陣就是一個線性變換,當把這個矩陣作用於一個向量的時候,通常情況絕大部分向量都會被這個矩陣A變換得「面目全非」,但是偏偏剛好存在這么一些向量,被矩陣A變換之後居然還能保持原來的樣子,於是這些向量就可以作為矩陣的核心代表了。於是我們可以說:一個變換(即一個矩陣)可以由其特徵值和特徵向量完全表述,這是因為從數學上看,這個矩陣所有的特徵向量組成了這個向量空間的一組基底。而矩陣作為變換的本質其實不就把一個基底下的東西變換到另一個基底表示的空間中么?

參考:
https://blog.csdn.net/hjq376247328/article/details/80640544
https://blog.csdn.net/hustqb/article/details/78394058
https://blog.csdn.net/woainishifu/article/details/76418176

閱讀全文

與協方差演算法相關的資料

熱點內容
軟通動力程序員節2021 瀏覽:845
安卓系統如何卸載安裝包 瀏覽:868
簡訊刪除助手文件夾 瀏覽:688
java辦公自動化 瀏覽:340
php中超鏈接 瀏覽:253
linux默認路由設置 瀏覽:36
linux如何掛載iso 瀏覽:432
vs程序換文件夾後不能編譯 瀏覽:557
安卓源碼編譯輸入腳本沒反應 瀏覽:47
phpmysql自增 瀏覽:167
把ppt保存為pdf 瀏覽:533
汽車密封件加密配件 瀏覽:887
黑馬程序員15天基礎班 瀏覽:560
java調整格式 瀏覽:521
香港雲伺服器租用價 瀏覽:78
linuxsublime3 瀏覽:560
imac混合硬碟命令 瀏覽:278
沈陽用什麼app租房車 瀏覽:857
00後高中生都用什麼app 瀏覽:239
戴爾塔式伺服器怎麼打開獨立顯卡 瀏覽:808