㈠ knn演算法是有監督還是無監督
knn演算法是有監督機器學習演算法。
KNN法即K最鄰近法,最初由 Cover和Hart於1968年提態搏出,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。KNN是通過測量不同特徵值之間的距離進行分類州遲。
㈡ 聚類是有監督還是無監督
聚類分析是無監督演算法的理論與實現,聚類是無監督。
簡而言耐舉之,聚類不過是根據某些屬性分離觀察值。用更專業的術語來說,聚類是一種無監督的機器學習演算法,是一種過程,通過該過程將觀察值(數據)進行分組,以使相似的觀察值彼此靠近。這是一種「無監督」演算法,因為與有監督演算法(例如隨機森林)不同,您不必使用標記的數據對其進行悉棗訓練,計算機會根據基礎模式和屬性對昌陸碧數據進行聚類。
㈢ 有監督分類的演算法
監督分類(supervisedclassification)又稱訓練場地法,是以建立統計識別函數為理論基礎,依據典型樣本訓練方法進行分類的技術。
回歸:在建模的過程中需同時具備自變數x和因變數y,屬於有監督的學習演算法。輸出變數為離散型。
主要介紹:Logistic,決策樹,隨機森林,KNN,樸素貝則仿葉斯
tips:決策樹,隨機森林,KNN也可用於連續型變數的預測。
Logistic回歸:
思想:
高低。
Logistic針對坦盯此離散型因變數的判別,如客戶是否優質,客戶的流失率概率等。
將線性回歸的預測值經過非線性的Logit函數轉換為[0,1]之間的概率值。參數求解:結合迭代對每一個未知的參數做梯度下降,學習率的步長通常可以取0.1,0.05,0.01,太小時需要迭代太多次收斂速度過慢,過大時難以得到理想的值可能只是局部最小。參數解釋:優勢比/發生比之比,如腫瘤體積每增加一個單位讓迅,將會使癌症發生比變化e參數次倍。
㈣ 降維演算法之LDA(線性判別降維演算法)--有監督
LDA在模式識別領域( 比如人臉識別,艦艇識別等圖形圖像識別領域 )中有非常廣泛的應用,因此我們有必要了解下它的演算法原理。
不同於PCA方差最大化理論, LDA演算法的思想是將數據投影到低維空間之後,使得同一類數據盡可能的緊湊,不同類的數據盡可能的分散 。因此,LDA演算法是一種有監督的機器學習演算法。同時,LDA有如下兩個假設:(1)原始數據根據樣本均值進行分類。(2)不同類的數據擁有相同的協方差矩陣。當然,在實際情況中,不可能滿足以上兩個假設。但是 當數據主要是由均值來區分的時候,LDA一般都可以取得很好的效果 。
(1)計算類內散度矩陣
(2)計算類間散度矩陣
(3)計算矩陣
(4)對矩陣 進行特徵分解,計算最大的d個最大的特徵值對應的特徵向量組成W。
(5)計算投影後的數據點
以上就是使用LDA進行降維的演算法流程。實際上LDA除了可以用於降維以外,還可以用於分類。 一個常見的LDA分類基本思想是假設各個類別的樣本數據符合高斯分布 , 這樣利用LDA進行投影後,可以利用極大似然估計計算各個累唄投影數據的均值和方差,進而得到該類別高斯分布的概率密度函數 。當一個新的樣本到來後,我們可以將它投影,然後將投影後的樣本特徵分別帶入各個類別的高斯分布概率密度函數,計算它屬於這個類別的概率,最大的概率對應的類別即為預測類別。LDA應用於分類現在似乎也不是那麼流行。
class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)
參數:
(1)solver: str類型,默認值為"svd",
svd:使用奇異值分解求解,不用計算協方差矩陣,適用於特徵數量很大的情形,無法使用參數收縮(shrinkage)。
lsqr:最小平方QR分解,可以結合shrinkage使用。
eigen:特徵值分解,可以結合shrinkage使用。
(2)shrinkage: str or float類型,默認值為None
是否使用參數收縮
None:不使用參數收縮
auto:str,使用Ledoit-Wolf lemma
浮點數:自定義收縮比例。
(3)components:int類型,需要保留的特徵個數,小於等於n-1
屬性:
(1)covariances_:每個類的協方差矩陣,shape = [n_features, n_features]
(2)means_:類均值,shape = [n_features, n_feateures]
(3)priors_:歸一化的先驗概率。
(4)rotations_:LDA分析得到的主軸,shape = [n_features, n_component]
(5)scalings_:數組列表,每個高斯分布的方差σ
特點:
降維之後的維數最多為類別數-1。所以當數據維度很高,但是類別數少的時候,演算法並不適用 。LDA演算法既可以用來降維,又可以用來分類。但是目前來說,主要還是用於降維。在我們 進行圖像識別相關的數據分析時,LDA是一個有力的工具 。
優點:
(1) LDA在樣本分類信息依賴均值而不是方差的時候,比PCA之類的演算法較優 。
(2)在降維過程中可以使用類別的先驗知識經驗,而像PCA這樣的無監督學習則無法使用類別先驗知識。
缺點:
(1)LDA不適合非高斯分布樣本進行降維,PCA也存在這個問題。
(2)LDA降維最多降到類別數K-1的維數,如果我們降維的維度大於k-1,則不能使用LDA。 當然目前有一些LDA的進化版演算法可以繞過這個問題 。
(3) LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好 。
(4)LDA可能過度擬合數據。
二者都有 降維 的作用。
1.左 邊是PCA,屬於無監督方法 ,當數據沒有標簽時可以用它。 右邊是LDA,屬於監督學習方法 。考慮了數據的分類信息,這樣數據在低維空間上就可以分類了,減少了很多的運算量。
2. PCA主要是從特徵的協方差角度考慮,追求的是在降維之後能夠最大化保持數據的內在信息 。它不考慮分類信息,因此降低維度後,信息損失降到最低,但分類上可能會變得更加困難。 LDA追求的是降維後的數據點盡可能容易被區分 。降維後的樣本數據在新的維度空間有最大的類間距離和最小的類內方差,數據在低維空間有最佳的可分離性。
3. PCA降維後的維度數目是和數據維度相關的 ,原始數據是n維,那麼PCA後維度為1、2~n維。 LDA後的維度數目是和類別的個數相關的 ,原始數據是n維,一共有C個類別,那麼LDA後維度為1、2~C-1維。
4. PCA投影的坐標系都是正交的 。 LDA關注分類能力,不保證投影到的坐標系是正交的 。
㈤ 常見的監督學習演算法
K-近鄰演算法:K-近鄰是一種分類演算法,其思路是如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
K通常是不大於20的整數。KNN演算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
ID3演算法:劃分數據集的最大原則就是將數據變得更加有序。熵(entropy)是描述信息不確定性(雜亂程度)的一個值。
(5)機器學習演算法哪些屬於有監督演算法擴展閱讀:
注意事項:
分類:當數據被用於預測類別時,監督學習也可處理這類分類任務。給一張圖片貼上貓或狗的標簽就是這種情況。當分類標簽只有兩個時,這就是二元分類,超過兩個則是多元分類。
預測:這是一個基於過去和現在的數據預測未來的過程,其最大應用是趨勢分析。一個典型實例是根據今年和前年的銷售業績以預測下一年的銷售業績。
㈥ 常見的監督學習演算法
K-近鄰演算法,決策樹,樸素貝葉斯,邏輯回歸這些都是比較常見的。所有的回歸演算法和分類演算法都屬於監督學習。
在機器學習中,無監督學習就是聚類,事先不知道樣本的類別,通過某種辦法,把相似的樣本放在一起歸位一類;而監督型學習就是有訓練樣本,帶有屬性標簽,也可以理解成樣本有輸入有輸出。
回歸和分類的演算法區別在於輸出變數的類型,定量輸出稱為回歸,或者說是連續變數預測;定性輸出稱為分類,或者說是離散變數預測。
㈦ k近鄰演算法是有監督還是無監督
k近鄰演算法是有監督。
k近鄰演算法的流程和優點:
k近鄰演算法的一般流程是:
1、收集數據。
2、計算待測數據與訓練數據之間的距離(一般採用歐式距離)。
3、將計算的距離排序。
4、找出距離最小的k個值。
5、計算找出值中每個類別的頻次。
6、返回最高頻次的類別。
優點:精度高、對異常值不敏感缺點:計算復雜度高、空間復雜度高。K近鄰最直接的利用了樣本之間的關系,減少了類別特徵選擇不當對分類結果造成的不利影響,可以最大程度減少分類過程中的做察派誤差項。