『壹』 python 數據可視化:分類特徵統計圖
上一課已經體驗到了 Seaborn 相對 Matplotlib 的優勢,本課將要介紹的是 Seaborn 對分類數據的統計,也是它的長項。
針對分類數據的統計圖,可以使用 sns.catplot 繪制,其完整參數如下:
本課使用演繹的方式來學習,首先理解這個函數的基本使用方法,重點是常用參數的含義。
其他的參數,根據名稱也能基本理解。
下面就依據 kind 參數的不同取值,分門別類地介紹各種不同類型的分類統計圖。
讀入數據集:
然後用這個數據集制圖,看看效果:
輸出結果:
毫無疑問,這里繪制的是散點圖。但是,該散點圖的橫坐標是分類特徵 time 中的三個值,並且用 hue='kind' 又將分類特徵插入到圖像中,即用不同顏色的的點代表又一個分類特徵 kind 的值,最終得到這些類別組合下每個記錄中的 pulse 特徵值,並以上述圖示表示出來。也可以理解為,x='time', hue='kind' 引入了圖中的兩個特徵維度。
語句 ① 中,就沒有特別聲明參數 kind 的值,此時是使用默認值 'strip'。
與 ① 等效的還有另外一個對應函數 sns.stripplot。
輸出結果:
② 與 ① 的效果一樣。
不過,在 sns.catplot 中的兩個參數 row、col,在類似 sns.stripplot 這樣的專有函數中是沒有的。因此,下面的圖,只有用 sns.catplot 才能簡潔直觀。
輸出結果:
不過,如果換一個叫角度來說,類似 sns.stripplot 這樣的專有函數,表達簡單,參數與 sns.catplot 相比,有所精簡,使用起來更方便。
仔細比較,sns.catplot 和 sns.stripplot 兩者還是稍有區別的,雖然在一般情況下兩者是通用的。
因此,不要追求某一個是萬能的,各有各的用途,存在即合理。
不過,下面的聲明請注意: 如果沒有非常的必要,比如繪制分區圖,在本課中後續都演示如何使用專有名稱的函數。
前面已經初步解釋了這個函數,為了格式完整,這里再重復一下,即 sns.catplot 中參數 kind='strip'。
如果非要將此函數翻譯為漢語,可以稱之為「條狀散點圖」。以分類特徵為一坐標軸,在另外一個坐標軸上,根據分類特徵,將該分類特徵數據所在記錄中的連續值沿坐標軸描點。
從語句 ② 的結果圖中可以看到,這些點雖然縱軸的數值有相同的,但是沒有將它們重疊。因此,我們看到的好像是「一束」散點,實際上,所有點的橫坐標都應該是相應特徵分類數據,也不要把分類特徵的值理解為一個范圍,分散開僅僅是為了圖示的視覺需要。
輸出結果:
④ 相對 ② 的圖示,在於此時同一縱軸值的都重合了——本來它們的橫軸值都是一樣的。實現此效果的參數是 jitter=0,它可以表示點的「振動」,如果默認或者 jitter=True,意味著允許描點在某個范圍振動——語句 ② 的效果;還可設置為某個 0 到 1 的浮點,表示許可振動的幅度。請對比下面的操作。
輸出結果:
語句 ② 中使用 hue='kind' 參數向圖中提供了另外一個分類特徵,但是,如果感覺圖有點亂,還可以這樣做:
輸出結果:
dodge=True 的作用就在於將 hue='kind' 所引入的特徵數據分開,相對 ② 的效果有很大差異。
並且,在 ⑤ 中還使用了 paletter='Set2' 設置了色彩方案。
sns.stripplot 函數中的其他有關參數,請讀者使用幫助文檔了解。
此函數即 sns.catplot 的參數 kind='swarm'。
輸出結果:
再繪制一張簡單的圖,一遍研究這種圖示的本質。
輸出結果:
此圖只使用了一個特徵的數據,簡化表象,才能探究 sns.swarmplot 的本質。它同樣是將該特徵中的數據,依據其他特徵的連續值在圖中描點,並且所有點在默認情況下不彼此重疊——這方面與 sns.stripplot 一樣。但是,與之不同的是,這些點不是隨機分布的,它們經過調整之後,均勻對稱分布在分類特徵數值所在直線的兩側,這樣能很好地表示數據的分布特點。但是,這種方式不適合「大數據」。
sns.swarmplot 的參數似乎也沒有什麼太特殊的。下面使用幾個,熟悉一番基本操作。
在分類維度上還可以再引入一個維度,用不同顏色的點表示另外一種類別,即使用 hue 參數來實現。
輸出結果:
這里用 hue = 'smoker' 參數又引入了一個分類特徵,在圖中用不同顏色來區分。
如果覺得會 smoker 特徵的值都混在一起有點亂,還可以使用下面方式把他們分開——老調重彈。
輸出結果:
生成此效果的參數就是 dodge=True,它的作用就是當 hue 參數設置了特徵之後,將 hue 的特徵數據進行分類。
sns.catplot 函數的參數 kind 可以有三個值,都是用於繪制分類的分布圖:
下面依次對這三個專有函數進行闡述。
『貳』 譜聚類(Spectral clustering)(python實現)
譜聚類概念 :
譜聚類是一種基於圖論的聚類方法,通過對樣本數據的拉普拉斯矩陣的特徵向量進行聚類,從而達到對樣本數據聚類的母的。譜聚類可以理解為將高維空間的數據映射到低維,然後在低維空間用其它聚類演算法(如KMeans)進行聚類。
演算法步驟
1 計算相似度矩陣 W
2 計算度矩陣 D
3 計算拉普拉斯矩陣L=D-W
4 計算L的特徵值,將特徵值從小到大排序,取前k個特徵值.將這個特徵值向量轉換為矩陣
5 通過其他聚類演算法對其進行聚類,如k-means
詳細公式和概念請到 大佬博客
相比較PCA降維中取前k大的特徵值對應的特徵向量,這里取得是前k小的特徵值對應的特徵向量。但是上述的譜聚類演算法並不是最優的,接下來我們一步一步的分解上面的步驟,總結一下在此基礎上進行優化的譜聚類的版本。
python實現
例子一:使用譜聚類從雜訊背景中分割目標
效果圖
例子2:分割圖像中硬幣的區域
效果圖
注意
1)當聚類的類別個數較小的時候,譜聚類的效果會很好,但是當聚類的類別個數較大的時候,則不建議使用譜聚類;
(2)譜聚類演算法使用了降維的技術,所以更加適用於高維數據的聚類;
(3)譜聚類只需要數據之間的相似度矩陣,因此對於處理稀疏數據的聚類很有效。這點傳統聚類演算法(比如K-Means)很難做到
(4)譜聚類演算法建立在譜圖理論基礎上,與傳統的聚類演算法相比,它具有能在任意形狀的樣本空間上聚類且收斂於全局最優解
(5)譜聚類對相似度圖的改變和聚類參數的選擇非常的敏感;
(6)譜聚類適用於均衡分類問題,即各簇之間點的個數相差不大,對於簇之間點個數相差懸殊的聚類問題,譜聚類則不適用;
參考
譜聚類演算法介紹
sklearn官網
『叄』 特徵值,特徵向量,標准正交向量組與numpy
使用python的數值計算庫numpy來計算矩陣的特徵值,特徵向量與標准正交向量組
1.求矩陣 的特徵值和各特徵值所對應的特徵向量
2.求矩陣 的特徵值和各特徵值所對應的特徵向量
3.由向量組 構造一組標准正交向量組
『肆』 python中有沒有求灰度共生矩陣的函數
matlab提供了現成的函數
graycomatrix生成共生矩陣
graycoprops計算其特徵值
具體用法:
glcm = graycomatrix(I)通過計算具有灰度級i和灰度級j的像素對在水平方向相鄰出現的頻繁程度。glcm中的每個元素說明了水平方向相鄰像素對出現的次數。
『伍』 Python數據分析在數學建模中的應用匯總(持續更新中!)
1、Numpy常用方法使用大全(超詳細)
1、Series和DataFrame簡單入門
2、Pandas操作CSV文件的讀寫
3、Pandas處理DataFrame,Series進行作圖
1、Matplotlib繪圖之屬性設置
2、Matplotlib繪制誤差條形圖、餅圖、等高線圖、3D柱形圖
1、層次分析法(AHP)——算數平均值法、幾何平均值法、特徵值法(Python實現,超詳細注釋)
2、Python實現TOPSIS分析法(優劣解距離法)
3、Python實現線性插值和三次樣條插值
4、Python實現線性函數的擬合演算法
5、Python實現統計描述以及計算皮爾遜相關系數
6、Python實現迪傑斯特拉演算法和貝爾曼福特演算法求解最短路徑
『陸』 怎樣求特徵值和特徵向量
求特徵值的傳統方法是令特徵多項式| AE-A| = 0,求出A的特徵值,對於A的任一特徵值h,特徵方程( aE- A)X= 0的所有非零解X即為矩陣A的屬於特徵值N的特徵向量兩者的計算是分割的,一個是計算行列式,另一個是解齊次線性方程組,且計算量都較大。使用matlab可以方便的計算任何復雜的方陣的特徵值和特徵向量:
1、首先需要知道計算矩陣的特徵值和特徵向量要用eig函數,可以在命令行窗口中輸入help eig,查看一下eig函數的用法,如下圖所示:
注意事項:
特徵值和特徵向量的應用:
1、可以用在研究物理、化學領域的微分方程、連續的或離散的動力系統中。例如,在力學中,慣量的特徵向量定義了剛體的主軸。慣量是決定剛體圍繞質心轉動的關鍵數據;
2、數學生態學家用來預測原始森林遭到何種程度的砍伐,會造成貓頭鷹的種群滅亡;
3、著名的圖像處理中的PCA方法,選取特徵值最高的k個特徵向量來表示一個矩陣,從而達到降維分析+特徵顯示的方法,還有圖像壓縮的K-L變換。再比如很多人臉識別,數據流模式挖掘分析等方面。
『柒』 python求特徵值和特徵向量
拍子在求特徵值和特徵向量的過程中,你可以一定要變成這些正確編寫,正確之後的話就能夠直接出來了。
『捌』 python pca怎麼得到主成份
一般步驟來實現PCA演算法
(1)零均值化
假如原始數據集為矩陣dataMat,dataMat中每一行代表一個樣本,每一列代表同一個特徵。零均值化就是求每一列的平均值,然後該列上的所有數都減去這個均值。也就是說,這里零均值化是對每一個特徵而言的,零均值化都,每個特徵的均值變成0。實現代碼如下:
[python]view plain
defzeroMean(dataMat):
meanVal=np.mean(dataMat,axis=0)#按列求均值,即求各個特徵的均值
newData=dataMat-meanVal
returnnewData,meanVal
函數中用numpy中的mean方法來求均值,axis=0表示按列求均值。
該函數返回兩個變數,newData是零均值化後的數據,meanVal是每個特徵的均值,是給後面重構數據用的。
(2)求協方差矩陣
[python]view plain
newData,meanVal=zeroMean(dataMat)
covMat=np.cov(newData,rowvar=0)
numpy中的cov函數用於求協方差矩陣,參數rowvar很重要!若rowvar=0,說明傳入的數據一行代表一個樣本,若非0,說明傳入的數據一列代表一個樣本。因為newData每一行代表一個樣本,所以將rowvar設置為0。
covMat即所求的協方差矩陣。
(3)求特徵值、特徵矩陣
調用numpy中的線性代數模塊linalg中的eig函數,可以直接由covMat求得特徵值和特徵向量:
[python]view plain
eigVals,eigVects=np.linalg.eig(np.mat(covMat))
eigVals存放特徵值,行向量。
eigVects存放特徵向量,每一列帶別一個特徵向量。
特徵值和特徵向量是一一對應的
(4)保留主要的成分[即保留值比較大的前n個特徵]
第三步得到了特徵值向量eigVals,假設裡面有m個特徵值,我們可以對其排序,排在前面的n個特徵值所對應的特徵向量就是我們要保留的,它們組成了新的特徵空間的一組基n_eigVect。將零均值化後的數據乘以n_eigVect就可以得到降維後的數據。代碼如下:
[python]view plain
eigValIndice=np.argsort(eigVals)#對特徵值從小到大排序
n_eigValIndice=eigValIndice[-1:-(n+1):-1]#最大的n個特徵值的下標
n_eigVect=eigVects[:,n_eigValIndice]#最大的n個特徵值對應的特徵向量
lowDDataMat=newData*n_eigVect#低維特徵空間的數據
reconMat=(lowDDataMat*n_eigVect.T)+meanVal#重構數據
returnlowDDataMat,reconMat
代碼中有幾點要說明一下,首先argsort對特徵值是從小到大排序的,那麼最大的n個特徵值就排在後面,所以eigValIndice[-1:-(n+1):-1]就取出這個n個特徵值對應的下標。【python裡面,list[a:b:c]代表從下標a開始到b,步長為c。】
『玖』 在Python中如何提取多個圖片的特徵值
importnumpyasnp
importmatplotlib.pyplotasplt
importscipy
caffe_root='/home/hser/Project/caffe/'
importsys
sys.path.insert(0,caffe_root+'python/')
importcaffe
plt.rcParams['figure.figsize']=(10,10)
plt.rcParams['image.interpolation']='nearest'
plt.rcParams['image.cmap']='gray'
net=caffe.Classifier(caffe_root+'models/bvlc_reference_caffenet/deploy.prototxt',
caffe_root+'models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel')
net.set_phase_test()
net.set_mode_cpu()
net.set_mean('data',np.load(caffe_root+'python/caffe/imagenet/ilsvrc_2012_mean.npy'))
net.set_raw_scale('data',255)
net.set_channel_swap('data',(2,1,0))
#infact,youcaninputalistofimages.
scores=net.predict([caffe.io.load_image(caffe_root+"examples/yilin/data/building.jpg"),caffe.io.load_image(caffe_root+"examples/yilin/data/thumb.jpg")])
output=open("feature.txt","w")
#printscores[0].argmax()
#print[(k,v.data.shape)fork,vinnet.blobs.items()]
#thefc6isthefc6layerfeature,data[4]meansthefivecropimages,-images.
#feat=net.blobs['fc6'].data[4]
feat=net.blobs['prob'].data[4]
plt.plot(feat.flat)
plt.show()
feat2=net.blobs['fc6'].data[14]
plt.plot(feat2.flat)
plt.show()