A. 請問python中如何把SVM分類輸出轉化為後驗概率想試試SVM+sigmoid,求代碼
因為要用libsvm自帶的腳本grid.py和easy.py,需要去官網下載繪圖工具gnuplot,解壓到c盤.進入c:\libsvm\tools目錄下,用文本編輯器(記事本,edit都可以)修改grid.py和easy.py兩個文件,找到其中關於gnuplot路徑的那項,根據實際路徑進行修改,並保存
python與libsvm的連接(參考SVM學習筆記(2)LIBSVM在python下的使用)
1.打開IDLE(pythonGUI),輸入>>>importsys>>>sys.version
2.如果你的python是32位,將出現如下字元:
(default,Apr102012,23:31:26)[MSCv.150032bit(Intel)]』
這個時候LIBSVM的python介面設置將非常簡單。在libsvm-3.16文件夾下的windows文件夾中找到動態鏈接庫libsvm.dll,將其添加到系統目錄,如`C:\WINDOWS\system32\』,即可在python中使用libsvm
B. 如何用Python實現支持向量機
看這個文章
blog.csdn.net/zouxy09/article/details/17292011
機器學習演算法與Python實踐之(四)支持向量機(SVM)實現
C. svm支持向量機怎麼構建
摘要 支持向量機(support vector machines, SVM)是二分類演算法,所謂二分類即把具有多個特性(屬性)的數據分為兩類,目前主流機器學習演算法中,神經網路等其他機器學習模型已經能很好完成二分類、多分類,學習和研究SVM,理解SVM背後豐富演算法知識,對以後研究其他演算法大有裨益;在實現SVM過程中,會綜合利用之前介紹的一維搜索、KKT條件、懲罰函數等相關知識。本篇首先通過詳解SVM原理,後介紹如何利用python從零實現SVM演算法。
D. python svm 怎麼訓練模型
支持向量機SVM(Support Vector Machine)是有監督的分類預測模型,本篇文章使用機器學習庫scikit-learn中的手寫數字數據集介紹使用Python對SVM模型進行訓練並對手寫數字進行識別的過程。
准備工作
手寫數字識別的原理是將數字的圖片分割為8X8的灰度值矩陣,將這64個灰度值作為每個數字的訓練集對模型進行訓練。手寫數字所對應的真實數字作為分類結果。在機器學習sklearn庫中已經包含了不同數字的8X8灰度值矩陣,因此我們首先導入sklearn庫自帶的datasets數據集。然後是交叉驗證庫,SVM分類演算法庫,繪制圖表庫等。
12345678910#導入自帶數據集from sklearn import datasets#導入交叉驗證庫from sklearn import cross_validation#導入SVM分類演算法庫from sklearn import svm#導入圖表庫import matplotlib.pyplot as plt#生成預測結果准確率的混淆矩陣from sklearn import metrics讀取並查看數字矩陣
從sklearn庫自帶的datasets數據集中讀取數字的8X8矩陣信息並賦值給digits。
12#讀取自帶數據集並賦值給digitsdigits = datasets.load_digits()查看其中的數字9可以發現,手寫的數字9以64個灰度值保存。從下面的8×8矩陣中很難看出這是數字9。
12#查看數據集中數字9的矩陣digits.data[9]以灰度值的方式輸出手寫數字9的圖像,可以看出個大概輪廓。這就是經過切割並以灰度保存的手寫數字9。它所對應的64個灰度值就是模型的訓練集,而真實的數字9是目標分類。我們的模型所要做的就是在已知64個灰度值與每個數字對應關系的情況下,通過對模型進行訓練來對新的手寫數字對應的真實數字進行分類。
1234#繪制圖表查看數據集中數字9的圖像plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')plt.title('digits.target[9]')plt.show()
從混淆矩陣中可以看到,大部分的數字SVM的分類和預測都是正確的,但也有個別的數字分類錯誤,例如真實的數字2,SVM模型有一次錯誤的分類為1,還有一次錯誤分類為7。
E. python怎麼實現opencv3 svm訓練模型保存和載入
在做模型訓練的時候,尤其是在訓練集上做交叉驗證,通常想要將模型保存下來,然後放到獨立的測試集上測試,下面介紹的是python中訓練模型的保存和再使用。
scikit-learn已經有了模型持久化的操作,導入joblib即可
from sklearn.externals import joblib
模型保存
>>> os.chdir("workspace/model_save")>>> from sklearn import svm>>> X = [[0, 0], [1, 1]]>>> y = [0, 1]>>> clf = svm.SVC()>>> clf.fit(X, y) >>> clf.fit(train_X,train_y)>>> joblib.mp(clf, "train_model.m")
通過joblib的mp可以將模型保存到本地,clf是訓練的分類器
模型從本地調回
>>> clf = joblib.load("train_model.m")
通過joblib的load方法,載入保存的模型。
然後就可以在測試集上測試了
clf.predit(test_X,test_y)
F. 如何利用 Python 實現 SVM 模型
我先直觀地闡述我對SVM的理解,這其中不會涉及數學公式,然後給出Python代碼。
SVM是一種二分類模型,處理的數據可以分為三類:
線性可分,通過硬間隔最大化,學習線性分類器
近似線性可分,通過軟間隔最大化,學習線性分類器
線性不可分,通過核函數以及軟間隔最大化,學習非線性分類器
線性分類器,在平面上對應直線;非線性分類器,在平面上對應曲線。
硬間隔對應於線性可分數據集,可以將所有樣本正確分類,也正因為如此,受雜訊樣本影響很大,不推薦。
軟間隔對應於通常情況下的數據集(近似線性可分或線性不可分),允許一些超平面附近的樣本被錯誤分類,從而提升了泛化性能。
如下圖:
G. python的svm的核函數該怎麼選擇比較好呢
看具體的數據,如果特徵向量的維度跟訓練數據的數量差不多的話建議選線性的,否則的話試試高斯核吧
H. Python 在編程語言中是什麼地位為什麼很多大學不教 Python
作者看著網上各種數據分析的知識泛濫, 但是沒有什麼體系,初學者不知道學哪些, 不知道學多少, 不知道學多深, 單純一個python語言, 數據分析會用到那種程度, 不可能說像開發那樣去學, numpy如果不是做演算法工程師用到的知識並不多, pandas知識雜亂無章, 哪些才是最常用的功能等等, 作者不忍眾生皆苦, 決定寫一套python數據分析的全套教程, 目前已完成一部分課件的製作。需要說明的是, 作為一名數據分析師, 你應該先會一點Excel和SQL知識,相關的內容, 網上很多。但是, 即便你一點Excel和SQL都不會也不會影響這部分的學習 !目前作者整理的大綱如下:
第一章 python編程基礎
1.1 python語言概述 1.2 數據科學神器--Anaconda介紹與安裝 1.3 標准輸入輸出 1.4 變數定義與賦值 1.5 數據類型 1.6 流程式控制制語句 1.7 函數
1.8 面向對象編程 第二章 python數據清洗之numpy 2.1 核心ndarray對象的創建 2.2 ndarray對象常用的屬性和方法 2.3 ndarray對象的索引和切片 2.4 ndarray對象的分割與合並 2.5 ndarray對象的廣播(Broadcast) 2.6 numpy中的算術運算函數 2.7 numpy中的統計函數 2.8 numpy中的排序 搜索 計數 去重函數 2.9 numpy中的字元串函數 2.10 numpy中可能會用到的線性代數模塊(後期機器學習會用到一點)
第三章 數據清洗神器pandas
3.1 pandas核心對象之Series對象的創建 常用屬性和方法 3.2 pandas核心對象之DataFrame對象的創建 常用屬性和方法 3.3 DataFrame對象的列操作和行操作 3.4 DataFrame對象的索引和切片 3.5 DataFrame對象的布爾索引 3.6 數據的讀入與導出 3.7 groupby分組運算 3.8 數據合並與數據透視
第四章 數據可視化matplotlib seaborn pyecharts
4.1 包括常用圖形的繪制,略
第五章 實戰案列
5.1 拉勾網數據分析相關職位分析 5.2 boss直聘數據分析相關職位分析 5.3 珍愛網女性用戶數據分析
第六章 機器學習
機器學習部分, 簡單的演算法會講手寫, 難的就用scikit-learn實現, 可能有小夥伴說, 這是調包俠乾的, 小哥哥!小姐姐!哪有那麼多公司, 那麼多人自己干寫演算法的, 有幾個人敢說他寫的演算法比scikit-learn寫得好? 再說了, 你是數據分析師, 這些是你的工具, 解決問題的!不是一天到晚拉格朗日對偶性!先來個機器學習介紹, 然後如下:
6.1 K近鄰演算法 6.2 Kmeans演算法 6.3 決策樹 階段案列:決策樹案列(保險行業) 6.4 線性回歸 嶺回歸 Lasso回歸 6.5 邏輯回歸 6.6 樸素貝葉斯 階段案列:推薦系統(電商玩具) 6.7 隨機森林 6.8 Adaboost 6.9 梯度提升樹GBDT 6.10 極端梯度提升樹Xgboost 6.11 支持向量機SVM 6.12 神經網路 階段案例:Xgboost案例
------------------------------本節內容-----------------------------------------
python語言概述
在說python之前, 我們還是先來看看計算機軟硬體的發展歷史。
1 計算機硬體的發展歷史
第一代計算機-電子管計算機(1946-1957)
無論如何,一項技術的突破必然伴隨著其他行業的突破,簡而言之,電子計算機的出現,前提必須有電子技術的進步,否則一切都是空談!下面是我列舉出計算機硬體的發展過程中, 一些比較重要的事件。
1906年, 美國的Lee De Forest 發明了電子管。在這之前造出數字電子計算機是不可能的。這為電子計算機的發 展奠定了基礎。
1924年2月, 一個具有劃時代意義的公司成立,IBM。
1935年, IBM推出IBM 601機。 這是一台能在一秒鍾算出乘法的穿孔卡片計算機。這台機器無論在自然科學還是在商業意義上都具有重要的地位。大約造了1500台。
1937年, 英國劍橋大學的Alan M. Turing (1912-1954)出版了他的論文 ,並提出了被後人稱之為"圖靈機"的數學模型。
1937年, 美國貝爾試驗室的George Stibitz展示了用繼電器表示二進制的裝置。盡管僅僅是個展示品,但卻是世界上第一台二進制電子計算機。
1941年, Atanasoff和學生Berry完成了能解線性代數方程的計算機,取名叫"ABC"(Atanasoff-Berry Computer),用電容作存儲器,用穿孔卡片作輔助存儲器,那些孔實際上是"燒"上的。 時鍾頻率是60HZ,完成一次加法運算用時一秒。這就是ABC計算機。
1946年, 美國賓夕法尼亞大學,第一台通用電子計算機ENIAC (Electronic Numerical Integrator 和 Computer)誕生, 總工程師埃克特在當時年僅25歲。
這時的計算機的基本線路是採用電子管結構,程序從人工手編的 機器指令程序(0 1),過渡到符號語言(匯編),電子管計算機是計算工具革命性發展的開始,它所採用的進位制與程序存貯等基本技術思想,奠定了現代電子計算機技術基礎。以馮·諾依曼為代表。
第二代計算機——晶體管計算機(時間1957~1964)
電子管時代的計算機盡管已經步入了現代計算機的范疇,但其體積之大、能耗之高、故障之多、價格之貴大大制約了它的普及應用。直到晶體管被發明出來,電子計算機才找到了騰飛的起點,一發而不可收……
20世紀50年代中期,晶體管的出現使計算機生產技術得到了根本性的發展,由晶體管代替電子管作為計算機的基礎器件,用 磁芯或磁鼓作存儲器,在整體性能上,比第一代計算機有了很大的提高。
第三代計算機——中小規模集成電路計算機(時間1964~1971)
20世紀60年代中期, 計算機發展歷程隨著半導體工藝的發展,成功製造了集成電路。中小規模集成電路成為計算機的主要部件,主存儲器也漸漸過渡到 半導體存儲器,使計算機的體積更小,大大降低了計算機計算時的功耗,由於減少了 焊點和 接插件,進一步提高了計算機的可靠性。
第四代計算機——大規模和超大規模集成電路計算機(時間1971~至今)
隨著大規模集成電路的成功製作並用於計算機硬體生產過程,計算機的體積進一步縮小,性能進一步提高。集成更高的大容量半導體存儲器作為內存儲器,發展了並行技術和多機系統,出現了 精簡指令集計算機(RISC),軟體系統工程化、理論化,程序設計自動化。微型計算機在社會上的應用范圍進一步擴大,幾乎所有領域都能看到計算機的「身影」。
第五代計算機——泛指具有人工智慧的計算機(至今~未來)
目前還沒有明確地定義
2 簡述計算機軟體的發展歷史
編程語言的發展
計算機軟體系統的發展,也伴隨著編程語言的發展。計算機程序設計語言的發展,經歷了從機器語言、匯編語言到高級語言的歷程。
機器語言:簡單點說,機器本身也只認識0和1,電路無非就只有通和斷兩種狀態,對應的二進制就是二進制的1和1。
匯編語言:匯編語言只是把一些特殊的二進制用特殊的符號表示,例如,機器要傳送一個數據,假設「傳送」這個指令對應的機器碼是000101,則人們把000101用一個特殊符號,比如mov來表示,當人們要用這個指令時用mov就行,但是mov的本質還是000101,沒有脫離硬體的范圍,有可能這個指令不能在其他機器上用。
高級語言:高級語言完全脫離了硬體范疇,所有的語法更貼近人類的自然語言,人們只需要清楚高級語言的語法,寫出程序就行了,剩下的交給編譯器或者解釋器去編譯或者解釋成機器語言就行了,看,這樣就完全脫離了硬體的范疇,大大提高了程序的開發效率。接下來我們就來看看高級語言的發展,高級語言非常多,我們主要看看比較經典的幾個。
高級語言的發展
B語言與Unix
20世紀60年代,貝爾實驗室的研究員Ken Thompson(肯·湯普森)發明了B語言,並使用B編了個游戲 - Space Travel,他想玩自己這個游戲,所以他背著老闆找到了台空閑的機器 - PDP-7,但是這台機器沒有操作系統,於是Thompson著手為PDP-7開發操作系統,後來這個OS被命名為 - UNIX。
C語言
1971年,Ken Thompson(肯·湯普森)的同事D.M.Ritchie(DM里奇),也很想玩Space Travel,所以加入了Ken Thompson,合作開發UNIX,他的主要工作是改進Thompson的B語言。最終,在1972年這個新語言被稱為C,取BCPL的第二個字母,也是B的下一個字母。
C語言和Unix
1973年,C主體完成。Ken Thompson和D.M.Ritchie迫不及待的開始用C語言完全重寫了UNIX。此時編程的樂趣已經使他們完全忘記了那個「Space Travel」,一門心思的投入到了UNIX和C語言的開發中。自此,C語言和UNIX相輔相成的發展至今。
類C語言起源、歷史
C++(C plus plus Programming Language) - 1983
還是貝爾實驗室的人,Bjarne Stroustrup(本賈尼·斯特勞斯特盧普) 在C語言的基礎上推出了C++,它擴充和完善了C語言,特別是在面向對象編程方面。一定程度上克服了C語言編寫大型程序時的不足。
Python (Python Programming Language)--1991
1989年聖誕節期間,Guido van Rossum 在阿姆斯特丹,Guido van Rossum為了打發聖誕節的無趣,決心開發一個新的腳本解釋程序,做為ABC語言的一種繼承。之所以選中Python(大蟒蛇的意思)作為該編程語言的名字,是因為他是一個叫Monty Python的喜劇團體的愛好者。第一個Python的版本發布於1991年。
Java(Java Programming Language) - 1995
Sun公司的Patrick Naughton的工作小組研發了Java語言,主要成員是James Gosling(詹姆斯·高斯林)
C(C Sharp Programming Language) - 2000
Microsoft公司的Anders Hejlsberg(安德斯·海爾斯伯格)發明了C,他也是Delphi語言之父。
當然現在還有一些新語言,比如2009年Google的go語言,以及麻省理工的julia等。
3 為什麼是Python
Python有哪些優點
1 語法簡單 漂亮:我們可以說Python是簡約的語言,非常易於讀寫。在遇到問題時,我們可以把更多的注意力放在問題本身上,而不用花費太多精力在程序語言、語法上。
2 豐富而免費的庫:Python社區創造了各種各樣的Python庫。在他們的幫助下,你可以管理文檔,執行單元測試、資料庫、web瀏覽器、電子郵件、密碼學、圖形用戶界面和更多的東西。所有東西包括在標准庫,然而,除了它,還有很多其他的庫。
3 開源:Python是免費開源的。這意味著我們不用花錢,就可以共享、復制和交換它,這也幫助Python形成了豐富的社區資源,使其更加完善,技術發展更快。
4 Python既支持面向過程,也支持面向對象編程。在面向過程編程中,程序員復用代碼,在面向對象編程中,使用基於數據和函數的對象。盡管面向對象的程序語言通常十分復雜,Python卻設法保持簡潔。
5 Python兼容眾多平台,所以開發者不會遇到使用其他語言時常會遇到的困擾。
Python有哪些作用
Python是什麼都能做,但是我們學的是數據分析,我們看看在數據分析領域Python能做什麼。
數據採集:以Scrapy 為代表的各類方式的爬蟲
數據鏈接:Python有大量各類資料庫的第三方包,方便快速的實現增刪改查
數據清洗:Numpy、Pandas,結構化和非結構化的數據清洗及數據規整化的利器
數據分析:Scikit-Learn、Scipy,統計分析,科學計算、建模等
數據可視化:Matplotlib、Seaborn等等大量各類可視化的庫
所以說總結, 為什麼數據科學選的是python, 最重要就是兩個原因:
1 語法簡單漂亮
2 大量豐富免費的第三方庫