導航:首頁 > 源碼編譯 > 多維尺度演算法

多維尺度演算法

發布時間:2025-02-10 04:46:20

① 因子分析法的概念

1.主成分分析
主成分分析主要是一種探索性的技術,在分析者進行多元數據分析之前,用他來分析數據,讓自己對數據有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數據。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成分對變數簡化(rece dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變數的線性組合。
2、主成分分析的重點在於解釋各變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
演算法上,主成分分析和因子分析很類似,不過在因子分析中所採用的協方差矩陣的對角元素不再是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
2.聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
3.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
4.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
5.典型相關分析
典型相關分析是分析兩組隨機變數間線性密切程度的統計方法,是兩變數間線性相關分析的拓廣。各組隨機變數中既可有定量隨機變數,也可有定性隨機變數(分析時須F6說明為定性變數)。本法還可以用於分析高維列聯表各邊際變數的線性關系。
注意
1.嚴格地說,一個典型相關系數描述的只是一對典型變數之間的相關,而不是兩個變數組之間的相關。而各對典型變數之間構成的多維典型相關才共同揭示了兩個觀測變數組之間的相關形式。
2.典型相關模型的基本假設和數據要求
要求兩組變數之間為線性關系,即每對典型變數之間為線性關系;
每個典型變數與本組所有觀測變數的關系也是線性關系。如果不是線性關系,可先線性化:如經濟水平和收入水平與其他一些社會發展水之間並不是線性關系,可先取對數。即log經濟水平,log收入水平。
3.典型相關模型的基本假設和數據要求
所有觀測變數為定量數據。同時也可將定性數據按照一定形式設為虛擬變數後,再放入典型相關模型中進行分析。
6.多維尺度分析(Multi-dimension Analysis)
多維尺度分析(Multi-dimension Analysis) 是市場研究的一種有力手段,它可以通過低維空間(通常是二維空間)展示多個研究對象(比如品牌)之間的聯系,利用平面距離來反映研究對象之間的相似程度。由於多維尺度分析法通常是基於研究對象之間的相似性(距離)的,只要獲得了兩個研究對象之間的距離矩陣,我們就可以通過相應統計軟體做出他們的相似性知覺圖。
在實際應用中,距離矩陣的獲得主要有兩種方法:一種是採用直接的相似性評價,先將所有評價對象進行兩兩組合,然後要求被訪者所有的這些組合間進行直接相似性評價,這種方法我們稱之為直接評價法;另一種為間接評價法,由研究人員根據事先經驗,找出影響人們評價研究對象相似性的主要屬性,然後對每個研究對象,讓被訪者對這些屬性進行逐一評價,最後將所有屬性作為多維空間的坐標,通過距離變換計算對象之間的距離。
多維尺度分析的主要思路是利用對被訪者對研究對象的分組,來反映被訪者對研究對象相似性的感知,這種方法具有一定直觀合理性。同時該方法實施方便,調查中被訪者負擔較小,很容易得到理解接受。當然,該方法的不足之處是犧牲了個體距離矩陣,由於每個被訪者個體的距離矩陣只包含1與0兩種取值,相對較為粗糙,個體距離矩陣的分析顯得比較勉強。但這一點是完全可以接受的,因為對大多數研究而言,我們並不需要知道每一個體的空間知覺圖。
多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變數的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅對所研究的專業領域要有很好的訓練,而且要掌握必要的統計分析工具。對實際領域中的研究者和高等院校的研究生來說,要學習掌握多元統計分析的各種模型和方法,手頭有一本好的、有長久價值的參考書是非常必要的。這樣一本書應該滿足以下條件:首先,它應該是「淺入深出」的,也就是說,既可供初學者入門,又能使有較深基礎的人受益。其次,它應該是既側重於應用,又兼顧必要的推理論證,使學習者既能學到「如何」做,而且在一定程度上了解「為什麼」這樣做。最後,它應該是內涵豐富、全面的,不僅要基本包括各種在實際中常用的多元統計分析方法,而且還要對現代統計學的最新思想和進展有所介紹、交代。
主成分分析通過線性組合將原變數綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變數)。在多變數分析中,某些變數間往往存在相關性。是什麼原因使變數間有關聯呢?是否存在不能直接觀測到的、但影響可觀測變數變化的公共因子?因子分析法(Factor Analysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎上構築若干意義較為明確的公因子,以它們為框架分解原變數,以此考察原變數間的聯系與區別。
例如,隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關性,身高和體重之間為何會有相關性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那麼,我們能否通過對多個變數的相關系數矩陣的研究,找出同時影響或支配所有變數的共性因子呢?因子分析就是從大量的數據中「由表及裡」、「去粗取精」,尋找影響或支配變數的多變數統計方法。
可以說,因子分析是主成分分析的推廣,也是一種把多個變數化為少數幾個綜合變數的多變數分析方法,其目的是用有限個不可觀測的隱變數來解釋原始變數之間的相關關系。
因子分析主要用於:1、減少分析變數個數;2、通過對變數間相關關系探測,將原始變數進行分類。即將相關性高的變數分為一組,用共性因子代替該組變數。

② 流形學習的分類

流形學習方法是模式識別中的基本方法,分為線性流形學習演算法和非線性流形學習演算法,非線性流形學習演算法包括等距映射(Isomap) ,拉普拉斯特徵映射(Laplacian eigenmaps,LE) ,局部線性嵌入(Locally-linear embedding,LLE) 等。而線性方法則是對非線性方法的線性擴展,如主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等。 Isomap由麻省理工學院計算機科學與人工智慧實驗室的JoshTenenbaum教授於2000在Science雜志上提出 。Isomap的主要目標是對於給定的高維流形,欲找到其對應的低維嵌入,使得高維流形上數據點間的近鄰結構在低維嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)為計算工具,創新之處在於計算高維流形上數據點間距離時,不是用傳統的歐式距離,而是採用微分幾何中的測地線距離(或稱為曲線距離),並且找到了一種用實際輸入數據估計其測地線距離的演算法(即圖論中的最小路徑逼近測地線距離)。
Isomap的優點在於: 求解過程依賴於線性代數的特徵值和特徵向量問題,保證了結果的穩健性和全局最優性; 能通過剩餘方差判定隱含的低維嵌入的本質維數; Isomap方法計算過程中只需要確定唯一的一個參數(近鄰參數k或鄰域半徑e)。 LE(Laplacian eigenmaps)的基本思想是,用一個無向有權圖描述一個流形,然後通過用圖的嵌入(graph embedding)來找低維表示。簡單來說,就是在保持圖的局部鄰接關系的情況下,將其圖從高維空間中重新畫在一個低維空間中(graph drawing)。
在至今為止的流形學習的典型方法中,LE速度最快,但是效果相對來說不理想。
LE的特點,就是如果出現離群值(outlier)情況下,其魯棒性(robustness)十分理想。這個特點在其他流形學習方法中沒有體現。 局部線性嵌入相關工作發表在Science (2000) 上 ,是非線性降維的里程碑。
LLE演算法可以歸結為三步 : 尋找每個樣本點的k個近鄰點; 由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣; 由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。具體的演算法流程如下圖所示。 與PCA類似,多維尺度分析(MDS)的目的也是把觀察的數據用較少的維數來表達。然而,MDS利用的是成對樣本間相似性構建合適的低維空間,使得樣本在此空間的距離和在高維空間中的樣本間的相似性盡可能的保持一致。
MDS方法有5個關鍵的要素,分別為主體、客體、准則、准則權重、主體權重。具體定義為: 客體:被評估的對象。可以認為是待分類的幾種類別。 主體:評估客體的單位。就是訓練數據。 准則:根據研究目的自行定義,用以評估客體優劣的標准。 准則權重:主體衡量准則重要性後,對每個准則分別賦予權重值。 主體權重:研究者權衡准則重要性後,對主體賦予權重值。

閱讀全文

與多維尺度演算法相關的資料

熱點內容
linuxc多進程 瀏覽:647
android飛行游戲 瀏覽:963
數據挖掘常見演算法 瀏覽:128
python單實例化 瀏覽:349
str中python 瀏覽:89
java的equals用法 瀏覽:845
奧維雲伺服器怎麼開通 瀏覽:171
js取得伺服器地址 瀏覽:812
起點中文網小說緩存在哪個文件夾 瀏覽:216
java瘋狂講義pdf 瀏覽:300
推有錢app在哪裡 瀏覽:744
寧波鮑斯壓縮機 瀏覽:93
新建文件夾電影2完整版演員表 瀏覽:988
空調壓縮機為什麼不能放到冷庫用 瀏覽:89
江西雲伺服器節點虛擬主機 瀏覽:997
新氧app如何測試臉型 瀏覽:688
個稅app如何查詢社保 瀏覽:495
安卓設備快充什麼時候開啟的 瀏覽:13
ipad怎麼用安卓手機傳文件 瀏覽:584
編輯程序員視頻 瀏覽:634