① python的類和對象入門
本文來說說Python中的類與對象,Python這門語言是無處不對象,如果你曾淺要了解過Python,你應該聽過Python是一種面向對象編程的語言,所以你經常可能會看到面向「對象」編程這類段子,而面向對象編程的語言都會有三大特徵:封裝、繼承、多態。
我們平時接觸到的很多函數、方法的操作都具有這些性質,我們只是會用,但還沒有去深入了解它的本質,下面就介紹一下關於類和對象的相關知識。
封裝這個概念應該並不陌生,比如我們把一些數據封裝成一個列表,這就屬於數據封裝,我們也可以將一些代碼語句封裝成一個函數方便調用,這就是代碼的封裝,我們也可以將數據和代碼封裝在一起。用術語表示的話,就是可以將屬性和方法進行封裝,從而得到對象。
首先我們可以定義一個類,這個類中有屬性和方法,但有的夥伴會比較好奇,屬性和方法不是會封裝成對象嘛,為什麼又變成類了?舉個例子,類就好比是一個毛坯房,而對象是在毛坯房的基礎上改造成的精裝房。
在類定義完成時就創建了一個類對象,它是對類定義創建的命名空間進行了一個包裝。類對象支持兩種操作:屬性引用和實例化。
屬性引用的語法就是一般的標准語法:obj.name。比如XiaoMing.height和XiaoMing.run就是屬性引用,前者會返回一條數據,而後者會返回一個方法對象。
這里也支持對類屬性進行賦值操作,比如為類中的weight屬性賦予一個新值。
而類的實例化可以將類對象看作成一個無參函數的賦值給一個局部變數,如下:
ming就是由類對象實例化後創建的一個實例對象,通過實例對象也可以調用類中的屬性和方法。
類在實例化過程中並不都是像上面例子一樣簡單的,一般類都會傾向將實例對象創建為有初始狀態的,所以在類中可能會定義一個__init__的魔法方法,這個方法就可以幫助接收、傳入參數。
而一個類如果定義了__init__方法,那麼在類對象實例化的過程中就會自動為新創建的實例化對象調用__init__方法,請看下面這個例子。
可以看到在__init__()中傳入了參數x和y,然後在print_coor中需要接收參數x和y,接下來通過實例化這個類對象,驗證一下參數是否能通過__init__()傳遞到類的實例化操作中。
所謂繼承就是一個新類在另一個類的基礎上構建而成,這個新類被稱作子類或者派生類,而另一個類被稱作父類、基類或者超類,而子類會繼承父類中已有的一些屬性和方法。
比如上面這個例子,我並沒有將list_定義成一個列表,但它卻能調用append方法。原因是類Mylist繼承於list這個基類,而list_又是Mylist的一個實例化對象,所以list_也會擁有父類list擁有的方法。當然可以通過自定義類的形式實現兩個類之間的繼承關系,我們定義Parent和Child兩個類,Child中沒有任何屬性和方法,只是繼承於父類Parent。
當子類中定義了與父類中同名的方法或者屬性,則會自動覆蓋父類對應的方法或屬性,還是用上面這個例子實現一下,方便理解。
可以看到子類Child中多了一個和父類Parent同名的方法,再實例化子類並調用這個方法時,最後調用的是子類中的方法。Python中繼承也允許多重繼承,也就是說一個子類可以繼承多個父類中的屬性和方法,但是這類操作會導致代碼混亂,所以大多數情況下不推薦使用,這里就不過多介紹了。
多態比較簡單,比如定義兩個類,這兩個類沒有任何關系,只是兩個類中有同名的方法,而當兩個類的實例對象分別調用這個方法時,不同類的實例對象調用的方法也是不同的。
上面這兩個類中都有introce方法,我們可以實例化一下兩個類,利用實例對象調用這個方法實現一下多態。
判斷一個類是否是另一個類的子類,如果是則返回True,反之則返回False。
需要注意的有兩點:
判斷一個對象是否為一個類的實例對象,如果是則返回True,反之則返回False。
需要注意的有兩點:
判斷一個實例對象中是否包含一個屬性,如果是則返回True,反之則返回False。
需要注意的是第二個參數name必須為字元串形式傳入,如果不是則會返回False。
② python中的元類是什麼,它們用於什麼
元類是類的類。類定義類的實例(即對象)的行為,而元類定義類的行為。類是元類的實例。
雖然在Python中你可以對元類使用任意可調用對象(例如Jerub演示),但是更好的方法是使其成為實際的類。type是Python中常見的元類。type它本身是一個類,並且是它自己的類型。你將無法type純粹使用Python 重新創建類似的東西,但是Python有點作弊。要在Python中創建自己的元類,你實際上只想將其子類化type。
元類最常用作類工廠。當你通過調用類創建對象時,Python通過調用元類來創建一個新類(執行「 class」語句時)。因此,與普通方法__init__和__new__方法結合使用,元類可以讓你在創建類時做「額外的事情」,例如在某些注冊表中注冊新類或將其完全替換為其他類。
class執行該語句時,Python首先將class語句的主體作為普通代碼塊執行。生成的名稱空間(字典)保留了將來類的屬性。通過查看待定類的基類(繼承了元類),待定類的__metaclass__屬性(如果有)或__metaclass__全局變數來確定元類。然後使用該類的名稱,基數和屬性調用該元類以實例化它。但是,元類實際上定義了類的類型,而不僅僅是它的工廠,因此你可以使用它們做更多的事情。例如,你可以在元類上定義常規方法。這些元類方法就像類方法,因為它們可以在沒有實例的情況下在類上調用,但是它們也不像類方法,因為它們不能在類的實例上被調用。type.__subclasses__()是type元類上方法的示例。你還可以定義正常的「魔力」的方法,如__add__,__iter__和__getattr__,執行或如何變化的類的行為。
③ python是什麼樣的編程語言
Python是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言;
Python的設計具有很強的可讀性,相比其他語言經常使用英文關鍵字,其他語言的一些標點符號,它具有比其他語言更有特色語法結構;
Python是一種解釋型語言,意味著開發過程中沒有了編譯這個環節,類似於PHP和Perl語言;
Python是互動式語言,意味著你可以在一個Python提示符>>>後直接執行代碼;
Python是面向對象語言,意味著Python支持面向對象的風格或代碼封裝在對象的編程技術;
Python是初學者首選的語言,Python對初級程序員而言,是一種偉大的編程語言,它支持廣泛的應用程序開發,從簡單的文字處理到WWW瀏覽器再到游戲,無所不能。
④ python數據統計分析
1. 常用函數庫
scipy包中的stats模塊和statsmodels包是python常用的數據分析工具,scipy.stats以前有一個models子模塊,後來被移除了。這個模塊被重寫並成為了現在獨立的statsmodels包。
scipy的stats包含一些比較基本的工具,比如:t檢驗,正態性檢驗,卡方檢驗之類,statsmodels提供了更為系統的統計模型,包括線性模型,時序分析,還包含數據集,做圖工具等等。
2. 小樣本數據的正態性檢驗
(1) 用途
夏皮羅維爾克檢驗法 (Shapiro-Wilk) 用於檢驗參數提供的一組小樣本數據線是否符合正態分布,統計量越大則表示數據越符合正態分布,但是在非正態分布的小樣本數據中也經常會出現較大的W值。需要查表來估計其概率。由於原假設是其符合正態分布,所以當P值小於指定顯著水平時表示其不符合正態分布。
正態性檢驗是數據分析的第一步,數據是否符合正態性決定了後續使用不同的分析和預測方法,當數據不符合正態性分布時,我們可以通過不同的轉換方法把非正太態數據轉換成正態分布後再使用相應的統計方法進行下一步操作。
(2) 示例
(3) 結果分析
返回結果 p-value=0.029035290703177452,比指定的顯著水平(一般為5%)小,則拒絕假設:x不服從正態分布。
3. 檢驗樣本是否服務某一分布
(1) 用途
科爾莫戈羅夫檢驗(Kolmogorov-Smirnov test),檢驗樣本數據是否服從某一分布,僅適用於連續分布的檢驗。下例中用它檢驗正態分布。
(2) 示例
(3) 結果分析
生成300個服從N(0,1)標准正態分布的隨機數,在使用k-s檢驗該數據是否服從正態分布,提出假設:x從正態分布。最終返回的結果,p-value=0.9260909172362317,比指定的顯著水平(一般為5%)大,則我們不能拒絕假設:x服從正態分布。這並不是說x服從正態分布一定是正確的,而是說沒有充分的證據證明x不服從正態分布。因此我們的假設被接受,認為x服從正態分布。如果p-value小於我們指定的顯著性水平,則我們可以肯定地拒絕提出的假設,認為x肯定不服從正態分布,這個拒絕是絕對正確的。
4.方差齊性檢驗
(1) 用途
方差反映了一組數據與其平均值的偏離程度,方差齊性檢驗用以檢驗兩組或多組數據與其平均值偏離程度是否存在差異,也是很多檢驗和演算法的先決條件。
(2) 示例
(3) 結果分析
返回結果 p-value=0.19337536323599344, 比指定的顯著水平(假設為5%)大,認為兩組數據具有方差齊性。
5. 圖形描述相關性
(1) 用途
最常用的兩變數相關性分析,是用作圖描述相關性,圖的橫軸是一個變數,縱軸是另一變數,畫散點圖,從圖中可以直觀地看到相關性的方向和強弱,線性正相關一般形成由左下到右上的圖形;負面相關則是從左上到右下的圖形,還有一些非線性相關也能從圖中觀察到。
(2) 示例
(3) 結果分析
從圖中可以看到明顯的正相關趨勢。
6. 正態資料的相關分析
(1) 用途
皮爾森相關系數(Pearson correlation coefficient)是反應兩變數之間線性相關程度的統計量,用它來分析正態分布的兩個連續型變數之間的相關性。常用於分析自變數之間,以及自變數和因變數之間的相關性。
(2) 示例
(3) 結果分析
返回結果的第一個值為相關系數表示線性相關程度,其取值范圍在[-1,1],絕對值越接近1,說明兩個變數的相關性越強,絕對值越接近0說明兩個變數的相關性越差。當兩個變數完全不相關時相關系數為0。第二個值為p-value,統計學上,一般當p-value<0.05時,可以認為兩變數存在相關性。
7. 非正態資料的相關分析
(1) 用途
斯皮爾曼等級相關系數(Spearman』s correlation coefficient for ranked data ),它主要用於評價順序變數間的線性相關關系,在計算過程中,只考慮變數值的順序(rank, 值或稱等級),而不考慮變數值的大小。常用於計算類型變數的相關性。
(2) 示例
(3) 結果分析
返回結果的第一個值為相關系數表示線性相關程度,本例中correlation趨近於1表示正相關。第二個值為p-value,p-value越小,表示相關程度越顯著。
8. 單樣本T檢驗
(1) 用途
單樣本T檢驗,用於檢驗數據是否來自一致均值的總體,T檢驗主要是以均值為核心的檢驗。注意以下幾種T檢驗都是雙側T檢驗。
(2) 示例
(3) 結果分析
本例中生成了2列100行的數組,ttest_1samp的第二個參數是分別對兩列估計的均值,p-value返回結果,第一列1.47820719e-06比指定的顯著水平(一般為5%)小,認為差異顯著,拒絕假設;第二列2.83088106e-01大於指定顯著水平,不能拒絕假設:服從正態分布。
9. 兩獨立樣本T檢驗
(1) 用途
由於比較兩組數據是否來自於同一正態分布的總體。注意:如果要比較的兩組數據不滿足方差齊性, 需要在ttest_ind()函數中添加參數equal_var = False。
(2) 示例
(3) 結果分析
返回結果的第一個值為統計量,第二個值為p-value,pvalue=0.19313343989106416,比指定的顯著水平(一般為5%)大,不能拒絕假設,兩組數據來自於同一總結,兩組數據之間無差異。
10. 配對樣本T檢驗
(1) 用途
配對樣本T檢驗可視為單樣本T檢驗的擴展,檢驗的對象由一群來自正態分布獨立樣本更改為二群配對樣本觀測值之差。它常用於比較同一受試對象處理的前後差異,或者按照某一條件進行兩兩配對分別給與不同處理的受試對象之間是否存在差異。
(2) 示例
(3) 結果分析
返回結果的第一個值為統計量,第二個值為p-value,pvalue=0.80964043445811551,比指定的顯著水平(一般為5%)大,不能拒絕假設。
11. 單因素方差分析
(1) 用途
方差分析(Analysis of Variance,簡稱ANOVA),又稱F檢驗,用於兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析主要是考慮各組之間的平均數差別。
單因素方差分析(One-wayAnova),是檢驗由單一因素影響的多組樣本某因變數的均值是否有顯著差異。
當因變數Y是數值型,自變數X是分類值,通常的做法是按X的類別把實例成分幾組,分析Y值在X的不同分組中是否存在差異。
(2) 示例
(3) 結果分析
返回結果的第一個值為統計量,它由組間差異除以組間差異得到,上例中組間差異很大,第二個返回值p-value=6.2231520821576832e-19小於邊界值(一般為0.05),拒絕原假設, 即認為以上三組數據存在統計學差異,並不能判斷是哪兩組之間存在差異 。只有兩組數據時,效果同 stats.levene 一樣。
12. 多因素方差分析
(1) 用途
當有兩個或者兩個以上自變數對因變數產生影響時,可以用多因素方差分析的方法來進行分析。它不僅要考慮每個因素的主效應,還要考慮因素之間的交互效應。
(2) 示例
(3) 結果分析
上述程序定義了公式,公式中,"~"用於隔離因變數和自變數,」+「用於分隔各個自變數, ":"表示兩個自變數交互影響。從返回結果的P值可以看出,X1和X2的值組間差異不大,而組合後的T:G的組間有明顯差異。
13. 卡方檢驗
(1) 用途
上面介紹的T檢驗是參數檢驗,卡方檢驗是一種非參數檢驗方法。相對來說,非參數檢驗對數據分布的要求比較寬松,並且也不要求太大數據量。卡方檢驗是一種對計數資料的假設檢驗方法,主要是比較理論頻數和實際頻數的吻合程度。常用於特徵選擇,比如,檢驗男人和女人在是否患有高血壓上有無區別,如果有區別,則說明性別與是否患有高血壓有關,在後續分析時就需要把性別這個分類變數放入模型訓練。
基本數據有R行C列, 故通稱RC列聯表(contingency table), 簡稱RC表,它是觀測數據按兩個或更多屬性(定性變數)分類時所列出的頻數表。
(2) 示例
(3) 結果分析
卡方檢驗函數的參數是列聯表中的頻數,返回結果第一個值為統計量值,第二個結果為p-value值,p-value=0.54543425102570975,比指定的顯著水平(一般5%)大,不能拒絕原假設,即相關性不顯著。第三個結果是自由度,第四個結果的數組是列聯表的期望值分布。
14. 單變數統計分析
(1) 用途
單變數統計描述是數據分析中最簡單的形式,其中被分析的數據只包含一個變數,不處理原因或關系。單變數分析的主要目的是通過對數據的統計描述了解當前數據的基本情況,並找出數據的分布模型。
單變數數據統計描述從集中趨勢上看,指標有:均值,中位數,分位數,眾數;從離散程度上看,指標有:極差、四分位數、方差、標准差、協方差、變異系數,從分布上看,有偏度,峰度等。需要考慮的還有極大值,極小值(數值型變數)和頻數,構成比(分類或等級變數)。
此外,還可以用統計圖直觀展示數據分布特徵,如:柱狀圖、正方圖、箱式圖、頻率多邊形和餅狀圖。
15. 多元線性回歸
(1) 用途
多元線性回歸模型(multivariable linear regression model ),因變數Y(計量資料)往往受到多個變數X的影響,多元線性回歸模型用於計算各個自變數對因變數的影響程度,可以認為是對多維空間中的點做線性擬合。
(2) 示例
(3) 結果分析
直接通過返回結果中各變數的P值與0.05比較,來判定對應的解釋變數的顯著性,P<0.05則認為自變數具有統計學意義,從上例中可以看到收入INCOME最有顯著性。
16. 邏輯回歸
(1) 用途
當因變數Y為2分類變數(或多分類變數時)可以用相應的logistic回歸分析各個自變數對因變數的影響程度。
(2) 示例
(3) 結果分析
直接通過返回結果中各變數的P值與0.05比較,來判定對應的解釋變數的顯著性,P<0.05則認為自變數具有統計學意義。
⑤ python演算法有哪些
演算法(Algorithm)是指解題方案的准確而完整的描述,是一系列解決問題的清晰指令,演算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。
一個演算法應該具有以下七個重要的特徵:
①有窮性(Finiteness):演算法的有窮性是指演算法必須能在執行有限個步驟之後終止;
②確切性(Definiteness):演算法的每一步驟必須有確切的定義;
③輸入項(Input):一個演算法有0個或多個輸入,以刻畫運算對象的初始情況,所謂0個輸 入是指演算法本身定出了初始條件;
④輸出項(Output):一個演算法有一個或多個輸出,以反映對輸入數據加工後的結果。沒 有輸出的演算法是毫無意義的;
⑤可行性(Effectiveness):演算法中執行的任何計算步驟都是可以被分解為基本的可執行 的操作步,即每個計算步都可以在有限時間內完成(也稱之為有效性);
⑥高效性(High efficiency):執行速度快,佔用資源少;
⑦健壯性(Robustness):對數據響應正確。
相關推薦:《Python基礎教程》
五種常見的Python演算法:
1、選擇排序
2、快速排序
3、二分查找
4、廣度優先搜索
5、貪婪演算法
⑥ 基於python的prosper借貸平台之數據分析
項目介紹:
p2p 借貸業務具有門檻低,渠道成本低的特性,風險防控對於出借企業來說非常重要。本項目需要
從大量借貸者的數據集中分析出容易違約和不容易違約的人群畫像特徵,以給業務做貸前決策使
用。同時使用機器學習演算法,實現自動識別風險人群(精準率為 89.86%),加快人工審查效率。
項目具體內容:
1、使用 python pandas 工具進行數據清洗、缺失值、異常值處理以及特徵指標篩選。
2、使用 python matplotlib 可視化工具進行探索式數據分析,展示用戶關鍵特徵如月收入、信用卡
透支情況對於違約率的影響情況。
3、使用機器學習隨機森林進行建模分析,使用學習曲線、網格搜索、交叉驗證,最終得到了一個評
分為 84.9%、精準率為 89.86%、召回率為 80.70%、auc 面積為 0.9337 數據預測模型。
本次數據訓練使用的模型是隨機森林分類演算法,通過對預處理過的數據集進行訓練,使用學習曲線、網格搜索、交叉驗證。最終得到了一個評分為84.9%、精準率為89.86%、召回率為80.70%、 auc面積為0.9337 數據預測模型。
數據預處理的基本流程與思路:
1、首先要明確有多少特徵,哪些是連續的,哪些是類別的。
2、檢查有沒有缺失值,對確實的特徵選擇恰當方式進行彌補,使數據完整。
3、對連續的數值型特徵進行標准化,使得均值為0,方差為1。
4、對類別型的特徵進行one-hot編碼。
5、將需要轉換成類別型數據的連續型數據進行二值化。
6、為防止過擬合或者其他原因,選擇是否要將數據進行正則化。
7、在對數據進行初探之後發現效果不佳,可以嘗試使用多項式方法,尋找非線性的關系。
8、根據實際問題分析是否需要對特徵進行相應的函數轉換。
導入數據集,並查看數據基本情況。可以看到prosper原始數據量比較龐大,一個有113937個樣本,80個特徵列,1個標簽列。
1.1、特徵較多,先共刪減一部分無用的特徵。
1.2 查看數據缺失情況,可以看到有40個特徵是存在數據缺失的,缺失率從0.000219-0.882909不等。下面處理缺失數據。
1.2.1 刪除缺失值比較多的特徵
下面兩個特徵缺失率太高,且與我們要分析的相關性不大,直接刪除掉。
1.2.2 獲取數據類型是分類變數的所有特徵,並使用unknown進行填充
1.2.3 特殊變數使用計算公式進行填充
1.2.4 去掉意義重復列
1.2.5 刪除缺失率比較少的特徵的缺失數據行
處理完缺失數據後,樣本量為106290,特徵量為55
1.3 數據過濾
1.3.1 從2009年7月開始,Prosper調整了對客戶的評估方式,此次我們只對2009-07-01後的貸款進行分析。
過濾完數據後,樣本量變為82931,特徵量為54
2.1單變數分析
0為未違約人數,1位違約人數,可以看到2009.07以後,違約率為22.90%
2.1.1不同地區貸款數量分布
從圖中可以看到加利福尼亞州貸款數量遠比其他州的數量高。由於prosper總部就位於加利福尼亞州,這與實際情況一致。其他排名靠前的分別是得克薩斯、紐約、佛羅里達、伊利諾伊,貸款數據均超過了5000條。根據2015年美國各州的GDP排名,這5個州剛好排名前五,而且順序也是一致的。說明Prosper平台的用戶主要分布在美國經濟發達的地區。
2.1.2 貸款人收入情況分布
年薪在25000美金以上在美國屬於技術性白領或者有一定學歷的職員,50000美金已經是近金領階層,比如:大學教授,醫生等。從圖中可以看出Prosper平台用戶的收入水平都相對較高,有利於用戶還款,利於平台和投資者的風險控制。
2.1.3貸款人職業分布
從圖中可以看出,除了不願意透露具體職業的人,大部分用戶是教授、程序員、企業高管等具有一定社會地位的人,這部分人受過高等教育,信用有一定保障。另外,這與之前看到的收入情況相符。
2.1.4貸款人債務收入比分布
大部分用戶的債務收入比在0.2左右,超過0.5的占很少部分。說明Prosper平台用戶的還款能力還是比較樂觀的
2.1.5 貸款者信用卡使用情況
BankcardUtilization代表的是信用卡使用金額和信用卡額度的比值,可以體現用戶的資金需求。Prosper用戶多是0.5~1之間,說明用戶每個月還有信用卡要還,降低了其還款能力。
2.2 相關的關鍵因素對貸款違約率的影響
2.2.1借貸人收入IncomeRange對違約率的影響
從圖中可以看出:
1.一般來說收入越高違約率越低
2.貸款的人員主要集中在中等收入群體
2.2.2 債務收入比DebtToIncomeRatio對違約率的影響
從上圖可以看出:
1.債務收入比小於0.6時,違約數明顯小於未違約數,
2.當債務收入比大於0.6時,兩者的差距不是很明顯甚至違約數大於未違約數,說明了債務收入比越大的人越容易違約
2.2.3 借款人BankcardUtilization對違約率的影響
1.總的來說,隨著信用卡的透支比例越來越高,違約率也越來越高
2.SuperUse的違約率到了37.5%,這部分人群需要嚴格了監控,No Use人群也有31%的違約率,當初將信用卡透支比例為0和NA的數據都歸類為No Use,顯然沒有這么簡單,應該是大部分人群的NA值是為了隱藏自己的高透支比例而填寫的
2.2.4 消費信用分CreditScoreRange對違約率的影響
從上圖可以看出:
1.隨著信用分數CreditScore的上升,它的違約率在下降
2.大部分貸款者的信用分為650-800,違約率在0.06-0.02
2.2.5 過去7年借款人違約次數DelinquenciesLast7Years對違約率的影響
過去七年違約次數(DelinquenciesLast7Years)能夠衡量一個人在過去七年中徵信情況,違約一次或以上的人在借款時違約概率更大。
從上圖可以看出:
1.總體來說過去7年違約次數越多,違約率越高
2.過去7年未違約的人數相對來說比其他違約的人數高很多,具體看下面的分析
3.1 數據轉化
3.1.1類變數進行啞變數化
樣本量變為82931,特徵量為127
3.1.2 標簽變數進行二分類
已完成貸款的樣本量變為26365,特徵量為127
未違約率為:0.7709084012895885;違約率為0.22909159871041151
3.2 至此,數據預處理的工作就告一段落,保存預處理好的數據。
導入經過預處理的prosper借貸數據集
4.1 手工挑選特徵查看一下建模效果
准確率為0.7695
4.2 使用模型自己選取特徵
准確率為0.7780
4.3 使用學習曲線選取最優n_estimators
在0-200/20內學習,得到最優n_estimators=161,score = 0.8508
在151-171/20內學習,得到最優n_estimators=163,score = 0.8511
4.4 使用網格搜索調其他參數
在0-60/5內學習,得到最優max_depth=41
在0-60/5內學習,得到最優max_features=16
這里由於比較耗時,沒有進一步細化選擇更高的參數
4.4 最終模型效果
最終准確率 0.8490528905289052
混淆矩陣 :
[[5552 554]
[1175 4914]]
精準率 : [0.82533076 0.89868325]
召回率 : [0.90926957 0.80702907]
roc和auc面積為0.9337
4.5 查看各特徵的重要性
4.6 數據預測
預測的違約率0.0427
⑦ Python 數據可視化:分類特徵統計圖
上一課已經體驗到了 Seaborn 相對 Matplotlib 的優勢,本課將要介紹的是 Seaborn 對分類數據的統計,也是它的長項。
針對分類數據的統計圖,可以使用 sns.catplot 繪制,其完整參數如下:
本課使用演繹的方式來學習,首先理解這個函數的基本使用方法,重點是常用參數的含義。
其他的參數,根據名稱也能基本理解。
下面就依據 kind 參數的不同取值,分門別類地介紹各種不同類型的分類統計圖。
讀入數據集:
然後用這個數據集制圖,看看效果:
輸出結果:
毫無疑問,這里繪制的是散點圖。但是,該散點圖的橫坐標是分類特徵 time 中的三個值,並且用 hue='kind' 又將分類特徵插入到圖像中,即用不同顏色的的點代表又一個分類特徵 kind 的值,最終得到這些類別組合下每個記錄中的 pulse 特徵值,並以上述圖示表示出來。也可以理解為,x='time', hue='kind' 引入了圖中的兩個特徵維度。
語句 ① 中,就沒有特別聲明參數 kind 的值,此時是使用默認值 'strip'。
與 ① 等效的還有另外一個對應函數 sns.stripplot。
輸出結果:
② 與 ① 的效果一樣。
不過,在 sns.catplot 中的兩個參數 row、col,在類似 sns.stripplot 這樣的專有函數中是沒有的。因此,下面的圖,只有用 sns.catplot 才能簡潔直觀。
輸出結果:
不過,如果換一個叫角度來說,類似 sns.stripplot 這樣的專有函數,表達簡單,參數與 sns.catplot 相比,有所精簡,使用起來更方便。
仔細比較,sns.catplot 和 sns.stripplot 兩者還是稍有區別的,雖然在一般情況下兩者是通用的。
因此,不要追求某一個是萬能的,各有各的用途,存在即合理。
不過,下面的聲明請注意: 如果沒有非常的必要,比如繪制分區圖,在本課中後續都演示如何使用專有名稱的函數。
前面已經初步解釋了這個函數,為了格式完整,這里再重復一下,即 sns.catplot 中參數 kind='strip'。
如果非要將此函數翻譯為漢語,可以稱之為「條狀散點圖」。以分類特徵為一坐標軸,在另外一個坐標軸上,根據分類特徵,將該分類特徵數據所在記錄中的連續值沿坐標軸描點。
從語句 ② 的結果圖中可以看到,這些點雖然縱軸的數值有相同的,但是沒有將它們重疊。因此,我們看到的好像是「一束」散點,實際上,所有點的橫坐標都應該是相應特徵分類數據,也不要把分類特徵的值理解為一個范圍,分散開僅僅是為了圖示的視覺需要。
輸出結果:
④ 相對 ② 的圖示,在於此時同一縱軸值的都重合了——本來它們的橫軸值都是一樣的。實現此效果的參數是 jitter=0,它可以表示點的「振動」,如果默認或者 jitter=True,意味著允許描點在某個范圍振動——語句 ② 的效果;還可設置為某個 0 到 1 的浮點,表示許可振動的幅度。請對比下面的操作。
輸出結果:
語句 ② 中使用 hue='kind' 參數向圖中提供了另外一個分類特徵,但是,如果感覺圖有點亂,還可以這樣做:
輸出結果:
dodge=True 的作用就在於將 hue='kind' 所引入的特徵數據分開,相對 ② 的效果有很大差異。
並且,在 ⑤ 中還使用了 paletter='Set2' 設置了色彩方案。
sns.stripplot 函數中的其他有關參數,請讀者使用幫助文檔了解。
此函數即 sns.catplot 的參數 kind='swarm'。
輸出結果:
再繪制一張簡單的圖,一遍研究這種圖示的本質。
輸出結果:
此圖只使用了一個特徵的數據,簡化表象,才能探究 sns.swarmplot 的本質。它同樣是將該特徵中的數據,依據其他特徵的連續值在圖中描點,並且所有點在默認情況下不彼此重疊——這方面與 sns.stripplot 一樣。但是,與之不同的是,這些點不是隨機分布的,它們經過調整之後,均勻對稱分布在分類特徵數值所在直線的兩側,這樣能很好地表示數據的分布特點。但是,這種方式不適合「大數據」。
sns.swarmplot 的參數似乎也沒有什麼太特殊的。下面使用幾個,熟悉一番基本操作。
在分類維度上還可以再引入一個維度,用不同顏色的點表示另外一種類別,即使用 hue 參數來實現。
輸出結果:
這里用 hue = 'smoker' 參數又引入了一個分類特徵,在圖中用不同顏色來區分。
如果覺得會 smoker 特徵的值都混在一起有點亂,還可以使用下面方式把他們分開——老調重彈。
輸出結果:
生成此效果的參數就是 dodge=True,它的作用就是當 hue 參數設置了特徵之後,將 hue 的特徵數據進行分類。
sns.catplot 函數的參數 kind 可以有三個值,都是用於繪制分類的分布圖:
下面依次對這三個專有函數進行闡述。
⑧ python數據分析與應用-Python數據分析與應用 pdf 內部全資料版
給大家帶來的一篇關於Python數據相關的電子書資源,介紹了關於Python方面的內容,本書是由人民郵電出版社出版,格式為PDF,資源大小281 MB,黃紅梅 張良均編寫,目前豆瓣、亞馬遜、當當、京東等電子書綜合評分為:7.8。
內容介紹
目錄
第1章Python數據分析概述1
任務1.1認識數據分析1
1.1.1掌握數據分析的概念2
1.1.2掌握數據分析的流程2
1.1.3了解數據分析應用場景4
任務1.2熟悉Python數據分析的工具5
1.2.1了解數據分析常用工具6
1.2.2了解Python數據分析的優勢7
1.2.3了解Python數據分析常用類庫7
任務1.3安裝Python的Anaconda發行版9
1.3.1了解Python的Anaconda發行版9
1.3.2在Windows系統中安裝Anaconda9
1.3.3在Linux系統中安裝Anaconda12
任務1.4掌握Jupyter Notebook常用功能14
1.4.1掌握Jupyter Notebook的基本功能14
1.4.2掌握Jupyter Notebook的高 級功能16
小結19
課後習題19
第2章NumPy數值計算基礎21
任務2.1掌握NumPy數組對象ndarray21
2.1.1創建數組對象21
2.1.2生成隨機數27
2.1.3通過索引訪問數組29
2.1.4變換數組的形態31
任務2.2掌握NumPy矩陣與通用函數34
2.2.1創建NumPy矩陣34
2.2.2掌握ufunc函數37
任務2.3利用NumPy進行統計分析41
2.3.1讀/寫文件41
2.3.2使用函數進行簡單的統計分析44
2.3.3任務實現48
小結50
實訓50
實訓1創建數組並進行運算50
實訓2創建一個國際象棋的棋盤50
課後習題51
第3章Matplotlib數據可視化基礎52
任務3.1掌握繪圖基礎語法與常用參數52
3.1.1掌握pyplot基礎語法53
3.1.2設置pyplot的動態rc參數56
任務3.2分析特徵間的關系59
3.2.1繪制散點圖59
3.2.2繪制折線圖62
3.2.3任務實現65
任務3.3分析特徵內部數據分布與分散狀況68
3.3.1繪制直方圖68
3.3.2繪制餅圖70
3.3.3繪制箱線圖71
3.3.4任務實現73
小結77
實訓78
實訓1分析1996 2015年人口數據特徵間的關系78
實訓2分析1996 2015年人口數據各個特徵的分布與分散狀況78
課後習題79
第4章pandas統計分析基礎80
任務4.1讀/寫不同數據源的數據80
4.1.1讀/寫資料庫數據80
4.1.2讀/寫文本文件83
4.1.3讀/寫Excel文件87
4.1.4任務實現88
任務4.2掌握DataFrame的常用操作89
4.2.1查看DataFrame的常用屬性89
4.2.2查改增刪DataFrame數據91
4.2.3描述分析DataFrame數據101
4.2.4任務實現104
任務4.3轉換與處理時間序列數據107
4.3.1轉換字元串時間為標准時間107
4.3.2提取時間序列數據信息109
4.3.3加減時間數據110
4.3.4任務實現111
任務4.4使用分組聚合進行組內計算113
4.4.1使用groupby方法拆分數據114
4.4.2使用agg方法聚合數據116
4.4.3使用apply方法聚合數據119
4.4.4使用transform方法聚合數據121
4.4.5任務實現121
任務4.5創建透視表與交叉表123
4.5.1使用pivot_table函數創建透視表123
4.5.2使用crosstab函數創建交叉表127
4.5.3任務實現128
小結130
實訓130
實訓1讀取並查看P2P網路貸款數據主表的基本信息130
實訓2提取用戶信息更新表和登錄信息表的時間信息130
實訓3使用分組聚合方法進一步分析用戶信息更新表和登錄信息表131
實訓4對用戶信息更新表和登錄信息表進行長寬表轉換131
課後習題131
第5章使用pandas進行數據預處理133
任務5.1合並數據133
5.1.1堆疊合並數據133
5.1.2主鍵合並數據136
5.1.3重疊合並數據139
5.1.4任務實現140
任務5.2清洗數據141
5.2.1檢測與處理重復值141
5.2.2檢測與處理缺失值146
5.2.3檢測與處理異常值149
5.2.4任務實現152
任務5.3標准化數據154
5.3.1離差標准化數據154
5.3.2標准差標准化數據155
5.3.3小數定標標准化數據156
5.3.4任務實現157
任務5.4轉換數據158
5.4.1啞變數處理類別型數據158
5.4.2離散化連續型數據160
5.4.3任務實現162
小結163
實訓164
實訓1插補用戶用電量數據缺失值164
實訓2合並線損、用電量趨勢與線路告警數據164
實訓3標准化建模專家樣本數據164
課後習題165
第6章使用scikit-learn構建模型167
任務6.1使用sklearn轉換器處理數據167
6.1.1載入datasets模塊中的數據集167
6.1.2將數據集劃分為訓練集和測試集170
6.1.3使用sklearn轉換器進行數據預處理與降維172
6.1.4任務實現174
任務6.2構建並評價聚類模型176
6.2.1使用sklearn估計器構建聚類模型176
6.2.2評價聚類模型179
6.2.3任務實現182
任務6.3構建並評價分類模型183
6.3.1使用sklearn估計器構建分類模型183
6.3.2評價分類模型186
6.3.3任務實現188
任務6.4構建並評價回歸模型190
6.4.1使用sklearn估計器構建線性回歸模型190
6.4.2評價回歸模型193
6.4.3任務實現194
小結196
實訓196
實訓1使用sklearn處理wine和wine_quality數據集196
實訓2構建基於wine數據集的K-Means聚類模型196
實訓3構建基於wine數據集的SVM分類模型197
實訓4構建基於wine_quality數據集的回歸模型197
課後習題198
第7章航空公司客戶價值分析199
任務7.1了解航空公司現狀與客戶價值分析199
7.1.1了解航空公司現狀200
7.1.2認識客戶價值分析201
7.1.3熟悉航空客戶價值分析的步驟與流程201
任務7.2預處理航空客戶數據202
7.2.1處理數據缺失值與異常值202
7.2.2構建航空客戶價值分析關鍵特徵202
7.2.3標准化LRFMC模型的5個特徵206
7.2.4任務實現207
任務7.3使用K-Means演算法進行客戶分群209
7.3.1了解K-Means聚類演算法209
7.3.2分析聚類結果210
7.3.3模型應用213
7.3.4任務實現214
小結215
實訓215
實訓1處理信用卡數據異常值215
實訓2構造信用卡客戶風險評價關鍵特徵217
實訓3構建K-Means聚類模型218
課後習題218
第8章財政收入預測分析220
任務8.1了解財政收入預測的背景與方法220
8.1.1分析財政收入預測背景220
8.1.2了解財政收入預測的方法222
8.1.3熟悉財政收入預測的步驟與流程223
任務8.2分析財政收入數據特徵的相關性223
8.2.1了解相關性分析223
8.2.2分析計算結果224
8.2.3任務實現225
任務8.3使用Lasso回歸選取財政收入預測的關鍵特徵225
8.3.1了解Lasso回歸方法226
8.3.2分析Lasso回歸結果227
8.3.3任務實現227
任務8.4使用灰色預測和SVR構建財政收入預測模型228
8.4.1了解灰色預測演算法228
8.4.2了解SVR演算法229
8.4.3分析預測結果232
8.4.4任務實現234
小結236
實訓236
實訓1求取企業所得稅各特徵間的相關系數236
實訓2選取企業所得稅預測關鍵特徵237
實訓3構建企業所得稅預測模型237
課後習題237
第9章家用熱水器用戶行為分析與事件識別239
任務9.1了解家用熱水器用戶行為分析的背景與步驟239
9.1.1分析家用熱水器行業現狀240
9.1.2了解熱水器採集數據基本情況240
9.1.3熟悉家用熱水器用戶行為分析的步驟與流程241
任務9.2預處理熱水器用戶用水數據242
9.2.1刪除冗餘特徵242
9.2.2劃分用水事件243
9.2.3確定單次用水事件時長閾值244
9.2.4任務實現246
任務9.3構建用水行為特徵並篩選用水事件247
9.3.1構建用水時長與頻率特徵248
9.3.2構建用水量與波動特徵249
9.3.3篩選候選洗浴事件250
9.3.4任務實現251
任務9.4構建行為事件分析的BP神經網路模型255
9.4.1了解BP神經網路演算法原理255
9.4.2構建模型259
9.4.3評估模型260
9.4.4任務實現260
小結263
實訓263
實訓1清洗運營商客戶數據263
實訓2篩選客戶運營商數據264
實訓3構建神經網路預測模型265
課後習題265
附錄A267
附錄B270
參考文獻295
學習筆記
Jupyter Notebook(此前被稱為 IPython notebook)是一個互動式筆記本,支持運行 40 多種編程語言。 Jupyter Notebook 的本質是一個 Web 應用程序,便於創建和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。 用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等 。 定義 (推薦學習:Python視頻教程) 用戶可以通過電子郵件,Dropbox,GitHub 和 Jupyter Notebook Viewer,將 Jupyter Notebook 分享給其他人。 在Jupyter Notebook 中,代碼可以實時的生成圖像,視頻,LaTeX和JavaScript。 使用 數據挖掘領域中最熱門的比賽 Kaggle 里的資料都是Jupyter 格式 。 架構 Jupyter組件 Jupyter包含以下組件: Jupyter Notebook 和 ……
本文實例講述了Python實現的微信好友數據分析功能。分享給大家供大家參考,具體如下: 這里主要利用python對個人微信好友進行分析並把結果輸出到一個html文檔當中,主要用到的python包為 itchat , pandas , pyecharts 等 1、安裝itchat 微信的python sdk,用來獲取個人好友關系。獲取的代碼 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict["NickName"] = User["NickName"] if User["NickName"] else "NaN" User_dict["City"] = User["City"] if User["City"] else "NaN" User_dict["Sex"] = User["Sex"] if User["Sex"] else 0 User_dict["Signature"] = User["Signature"] if User["Signature"] else "NaN" ……
基於微信開放的個人號介面python庫itchat,實現對微信好友的獲取,並對省份、性別、微信簽名做數據分析。 效果: 直接上代碼,建三個空文本文件stopwords.txt,newdit.txt、unionWords.txt,下載字體simhei.ttf或刪除字體要求的代碼,就可以直接運行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#繪圖時可以顯示中文plt.rcParams['axes.unicode_minus']=False#繪圖時可以顯示中文import jiemport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解決編碼問題non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #獲取好友信息def getFriends():……
Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果示例
本文實例講述了Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果。分享給大家供大家參考,具體如下: 前面講述了關於雙色球的各種演算法,這里將進行下期雙色球號碼的預測,想想有些小激動啊。 代碼中使用了線性回歸演算法,這個場景使用這個演算法,預測效果一般,各位可以考慮使用其他演算法嘗試結果。 發現之前有很多代碼都是重復的工作,為了讓代碼看的更優雅,定義了函數,去調用,頓時高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#導入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#讀取文件d……
以上就是本次介紹的Python數據電子書的全部相關內容,希望我們整理的資源能夠幫助到大家,感謝大家對鬼鬼的支持。
注·獲取方式:私信(666)
⑨ python中的元類有什麼作用
元類是類的類。類定義類的實例(即對象)的行為,而元類定義類的行為。類是元類的實例。雖然在Python中你可以對元類使用任意可調用對象(例如Jerub演示),但是更好的方法是使其成為實際的類。type是Python中常見的元類。type它本身是一個類,並且是它自己的類型。你將無法type純粹使用Python 重新創建類似的東西,但是Python有點作弊。要在Python中創建自己的元類,你實際上只想將其子類化type。元類最常用作類工廠。class執行該語句時,Python首先將class語句的主體作為普通代碼塊執行。生成的名稱空間(字典)保留了將來類的屬性。通過查看待定類的基類(繼承了元類),待定類的__metaclass__屬性(如果有)或__metaclass__全局變數來確定元類。然後使用該類的名稱,基數和屬性調用該元類以實例化它。但是,元類實際上定義了類的類型,而不僅僅是它的工廠,因此你可以使用它們做更多的事情。例如,你可以在元類上定義常規方法。這些元類方法就像類方法,因為它們可以在沒有實例的情況下在類上調用,但是它們也不像類方法,因為它們不能在類的實例上被調用。type.__subclasses__()是type元類上方法的示例。你還可以定義正常的「魔力」的方法,如__add__,__iter__和__getattr__,執行或如何變化的類的行為。