pythonsvm演算法_機器學習有哪些演算法

1. 怎樣用python實現SVM分類器，用於情感分析的二分類

這句話應該不是說你feature太多了，而是說for循環中，使用了兩個變數去unpack featuresets太多了。所以應該是你的數據結構有問題，featuresets可能不是適合兩個變數來解包的數據結構，或者中文編碼有問題。

2. python下使用libsvm能處理數據格式為復數（complex）的數據嗎

毋庸置疑，LibSVM是台灣牛人為世界機器學習的卓越貢獻之一。一般都是基於Matlab的，其實LibSVM也可以用Python跑。
第一步，確定本機Python的版本：

32位的最易配置，哈哈，我的機器就是這么的古董。64位的童鞋請Google。

第二步，到官網http://www.csie.ntu.e.tw/~cjlin/libsvm/，來下載LibSVM軟體包，我選擇的是zip包。

第三步，將zip包解壓到一個特定位置，我放到了C：盤根目錄，當然也可以放到program files中。

第四步，就可以測試一下LibSVM是否可用了，打開Python IDE，輸入以下代碼：

能夠看到輸出，84%的分類准確性。

第五步，使用我的個人數據
libsvm的數據格式如下：

第一列代表標簽，第二列是第一個特徵值，第三列是第二個特徵值。所以，先要把數據按規定格式整理好。然後開始訓練。
import os
import sys

os.chdir('C:\libsvm-3.17\python')
from svmutil import *

y, x = svm_read_problem('../lkagain.txt')
m = svm_train(y[:275], x[:275], '-c 5')

y, x = svm_read_problem('../lk2.txt')
p_label, p_acc, p_val = svm_predict(y[0:], x[0:], m)
print p_label
print p_acc
print p_val

第六步，Python介面
在libsvm-3.16的python文件夾下主要包括了兩個文件svm.py和svmutil.py。
svmutil.py介面主要包括了high-level的函數，這些函數的使用和LIBSVM的MATLAB介面大體類似
svmutil中主要包含了以下幾個函數：
svm_train() : train an SVM model
svm_predict() : predict testing data
svm_read_problem() : read the data from a LIBSVM-format file.
svm_load_model() : load a LIBSVM model.
svm_save_model() : save model to a file.
evaluations() : evaluate prediction results.

3. 可以使用python多進程實現smote演算法嗎

import numpy as np
import csv
#import svm
import pandas as pd
import matplotlib.pyplot as plt
dataset=pd.read_csv(r'xxx.csv')
array=np.array(dataset)
y= np.array(array[:,0], dtype=np.int64)
x = np.array(array[:,1: array.shape[1]], dtype=np.double)
from sklearn.cross_validation import train_test_split
from imblearn.over_sampling import SMOTE
from imblearn.combine import SMOTEENN
def data_prepration(x):
x_features= x.ix[:,x.columns != "y_label_name"]
x_labels=x.ix[:,x.columns=="y_label_name"]
x_features_train,x_features_test,x_labels_train,x_labels_test = train_test_split(x_features,x_labels,test_size=0.3,random_state = 0)
print("length of training data")
print(len(x_features_train))
print("length of test data")
print(len(x_features_test))
return(x_features_train,x_features_test,x_labels_train,x_labels_test)
data_train_x,data_test_x,data_train_y,data_test_y=data_prepration(dataset)
os= SMOTE(random_state=0)
os_data_x,os_data_y=os.fit_sample(data_train_x.values,data_train_y.values.ravel())
columns = data_train_x.columns
os_data_x = pd.DataFrame(data=os_data_x,columns=columns )
print (len(os_data_x))
os_data_y= pd.DataFrame(data=os_data_y,columns=["credit_status"])
# 現在檢查下抽樣後的數據
print("length of oversampled data is ",len(os_data_x))
print("Number of normal transcation",len(os_data_y[os_data_y["credit_status"]==1]))
print("Number of fraud transcation",len(os_data_y[os_data_y["credit_status"]==0]))
print("Proportion of Normal data in oversampled data is ",len(os_data_y[os_data_y["credit_status"]==0])/len(os_data_x))
print("Proportion of fraud data in oversampled data is ",len(os_data_y[os_data_y["credit_status"]==1])/len(os_data_x))
newtraindata=pd.concat([os_data_x,os_data_y],axis=1)
newtestdata=pd.concat([data_test_x,data_test_y],axis=1)
#train_csv_file= open(r'D:\Data\MijiaOldCustomer\train.csv','wb')
#writer = csv.writer(train_csv_file)
#writer.writerows(newtraindata)
newtraindata.to_csv(r'train.csv',sep=',')
newtestdata.to_csv(r'test.csv
',sep=',')

4. 機器學習有哪些演算法

1. 線性回歸
在統計學和機器學習領域，線性回歸可能是最廣為人知也最易理解的演算法之一。
2. Logistic 回歸
Logistic 回歸是機器學習從統計學領域借鑒過來的另一種技術。它是二分類問題的首選方法。
3. 線性判別分析
Logistic 回歸是一種傳統的分類演算法，它的使用場景僅限於二分類問題。如果你有兩個以上的類，那麼線性判別分析演算法（LDA）是首選的線性分類技術。
4.分類和回歸樹
決策樹是一類重要的機器學習預測建模演算法。
5. 樸素貝葉斯
樸素貝葉斯是一種簡單而強大的預測建模演算法。
6. K 最近鄰演算法
K 最近鄰（KNN）演算法是非常簡單而有效的。KNN 的模型表示就是整個訓練數據集。
7. 學習向量量化
KNN 演算法的一個缺點是，你需要處理整個訓練數據集。
8. 支持向量機
支持向量機（SVM）可能是目前最流行、被討論地最多的機器學習演算法之一。
9. 袋裝法和隨機森林
隨機森林是最流行也最強大的機器學習演算法之一，它是一種集成機器學習演算法。

想要學習了解更多機器學習的知識，推薦CDA數據分析師課程。CDA（Certified Data Analyst），即「CDA 數據分析師」，是在數字經濟大背景和人工智慧時代趨勢下，面向全行業的專業權威國際資格認證，旨在提升全民數字技能，助力企業數字化轉型，推動行業數字化發展。點擊預約免費試聽課。

5. 如何利用python使用libsvm

把包解壓在C盤之中，如：C:\libsvm-3.182.
因為要用libsvm自帶的腳本grid.py和easy.py,需要去官網下載繪圖工具gnuplot,解壓到c盤.進入c:\libsvm\tools目錄下，用文本編輯器（記事本，edit都可以）修改grid.py和easy.py兩個文件，找到其中關於gnuplot路徑的那項，根據實際路徑進行修改，並保存
python與libsvm的連接（參考SVM學習筆記（2）LIBSVM在python下的使用）

1.打開IDLE(pythonGUI)，輸入>>>importsys>>>sys.version
2.如果你的python是32位，將出現如下字元：
(default,Apr102012,23:31:26)[MSCv.150032bit(Intel)]』
這個時候LIBSVM的python介面設置將非常簡單。在libsvm-3.16文件夾下的windows文件夾中找到動態鏈接庫libsvm.dll，將其添加到系統目錄，如`C:\WINDOWS\system32\』，即可在python中使用libsvm
wk_ad_begin({pid : 21});wk_ad_after(21, function(){$('.ad-hidden').hide();}, function(){$('.ad-hidden').show();});
3.執行一個小例子

importos
os.chdir('C:\libsvm-3.18\python')#請根據實際路徑修改
fromsvmutilimport*
y,x=svm_read_problem('../heart_scale')#讀取自帶數據
m=svm_train(y[:200],x[:200],'-c4')
p_label,p_acc,p_val=svm_predict(y[200:],x[200:],m)
##出現如下結果，應該是正確安裝了optimizationfinished,#iter=257nu=0.351161
obj=-225.628984,rho=0.636110nSV=91,nBSV=49
TotalnSV=91

Accuracy=84.2857%(59/70)(classification)

6. python svm 怎麼訓練模型

支持向量機SVM(Support Vector Machine)是有監督的分類預測模型，本篇文章使用機器學習庫scikit-learn中的手寫數字數據集介紹使用Python對SVM模型進行訓練並對手寫數字進行識別的過程。

准備工作

手寫數字識別的原理是將數字的圖片分割為8X8的灰度值矩陣，將這64個灰度值作為每個數字的訓練集對模型進行訓練。手寫數字所對應的真實數字作為分類結果。在機器學習sklearn庫中已經包含了不同數字的8X8灰度值矩陣，因此我們首先導入sklearn庫自帶的datasets數據集。然後是交叉驗證庫，SVM分類演算法庫，繪制圖表庫等。

12345678910#導入自帶數據集from sklearn import datasets#導入交叉驗證庫from sklearn import cross_validation#導入SVM分類演算法庫from sklearn import svm#導入圖表庫import matplotlib.pyplot as plt#生成預測結果准確率的混淆矩陣from sklearn import metrics

讀取並查看數字矩陣

從sklearn庫自帶的datasets數據集中讀取數字的8X8矩陣信息並賦值給digits。

12#讀取自帶數據集並賦值給digitsdigits = datasets.load_digits()

查看其中的數字9可以發現，手寫的數字9以64個灰度值保存。從下面的8×8矩陣中很難看出這是數字9。

12#查看數據集中數字9的矩陣digits.data[9]

以灰度值的方式輸出手寫數字9的圖像，可以看出個大概輪廓。這就是經過切割並以灰度保存的手寫數字9。它所對應的64個灰度值就是模型的訓練集，而真實的數字9是目標分類。我們的模型所要做的就是在已知64個灰度值與每個數字對應關系的情況下，通過對模型進行訓練來對新的手寫數字對應的真實數字進行分類。

1234#繪制圖表查看數據集中數字9的圖像plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')plt.title('digits.target[9]')plt.show()

從混淆矩陣中可以看到，大部分的數字SVM的分類和預測都是正確的，但也有個別的數字分類錯誤，例如真實的數字2，SVM模型有一次錯誤的分類為1，還有一次錯誤分類為7。

7. python分類演算法有哪些

常見的分類演算法有：

K近鄰演算法
決策樹
樸素貝葉斯
SVM
Logistic Regression

8. 2020-05-22 第十三章支持向量機模型(python)

SVM 是 Support Vector Machine 的簡稱，它的中文名為支持向量機，屬於一種有監督的機器學習演算法，可用於離散因變數的分類和連續因變數的預測。通常情況下，該演算法相對於其他單一的分類演算法（如 Logistic 回歸、決策樹、樸素貝葉斯、 KNN 等）會有更好的預測准確率，主要是因為它可以將低維線性不可分的空間轉換為高維的線性可分空間。

「分割帶」代表了模型劃分樣本點的能力或可信度，「分割帶」越寬，說明模型能夠將樣本點劃分得越清晰，進而保證模型泛化能力越強，分類的可信度越高；反之，「分割帶」越窄，說明模型的准確率越容易受到異常點的影響，進而理解為模型的預測能力越弱，分類的可信度越低。

線性可分的所對應的函數間隔滿足的條件，故就等於。所以，可以將目標函數等價為如下的表達式：

假設存在一個需要最小化的目標函數，並且該目標函數同時受到的約束。如需得到最優化的解，則需要利用拉格朗日對偶性將原始的最優化問題轉換為對偶問題，即：

分割面的求解

分割面的表達式

對於非線性SVM模型而言，需要經過兩個步驟，一個是將原始空間中的樣本點映射到高維的新空間中，另一個是在新空間中尋找一個用於識別各類別樣本點線性「超平面」。
假設原始空間中的樣本點為，將樣本通過某種轉換映射到高維空間中，則非線性SVM模型的目標函數可以表示為：

其中，內積可以利用核函數替換，即。對於上式而言，同樣需要計算最優的拉格朗日乘積，進而可以得到線性「超平面」與的值：

假設原始空間中的兩個樣本點為，在其擴展到高維空間後，它們的內積如果等於樣本點在原始空間中某個函數的輸出，那麼該函數就稱為核函數。
線性核函數的表達式為，故對應的分割「超平面」為：

多項式核函數的表達式為，故對應的分割「超平面」為：

高斯核函數的表達式為，故對應的分割「超平面」為：

Sigmoid 核函數的表達式為，故對應的分割「超平面」為：

在實際應用中， SVM 模型對核函數的選擇是非常敏感的，所以需要通過先驗的領域知識或者交叉驗證的方法選出合理的核函數。大多數情況下，選擇高斯核函數是一種相對偷懶而有效的方法，因為高斯核是一種指數函數，它的泰勒展開式可以是無窮維的，即相當於把原始樣本點映射到高維空間中。

output_13_0.png

9. auc 論文里的怎麼計算 python svm

利用Python畫ROC曲線，以及AUC值的計算\
前言
ROC（Receiver Operating Characteristic）曲線和AUC常被用來評價一個二值分類器（binary classifier）的優劣。這篇文章將先簡單的介紹ROC和AUC，而後用實例演示如何python作出ROC曲線圖以及計算AUC。
AUC介紹
AUC(Area Under Curve)是機器學習二分類模型中非常常用的評估指標，相比於F1-Score對項目的不平衡有更大的容忍性，目前常見的機器學習庫中(比如scikit-learn)一般也都是集成該指標的計算，但是有時候模型是單獨的或者自己編寫的，此時想要評估訓練模型的好壞就得自己搞一個AUC計算模塊，本文在查詢資料時發現libsvm-tools有一個非常通俗易懂的auc計算，因此摳出來用作日後之用。
AUC計算
AUC的計算分為下面三個步驟：
1、計算數據的准備，如果模型訓練時只有訓練集的話一般使用交叉驗證的方式來計算，如果有評估集(evaluate)一般就可以直接計算了，數據的格式一般就是需要預測得分以及其目標類別（注意是目標類別，不是預測得到的類別）
2、根據閾值劃分得到橫（X:False Positive Rate）以及縱（Y:True Positive Rate）點
3、將坐標點連成曲線之後計算其曲線下面積,就是AUC的值
直接上python代碼
#! -*- coding=utf-8 -*-
import pylab as pl
from math import log,exp,sqrt
evaluate_result="you file path"
db = [] #[score,nonclk,clk]
pos, neg = 0, 0
with open(evaluate_result,'r') as fs:
for line in fs:
nonclk,clk,score = line.strip().split('\t')
nonclk = int(nonclk)
clk = int(clk)
score = float(score)
db.append([score,nonclk,clk])
pos += clk
neg += nonclk
db = sorted(db, key=lambda x:x[0], reverse=True)
#計算ROC坐標點
xy_arr = []
tp, fp = 0., 0.
for i in range(len(db)):
tp += db[i][2]
fp += db[i][1]
xy_arr.append([fp/neg,tp/pos])
#計算曲線下面積
auc = 0.
prev_x = 0
for x,y in xy_arr:
if x != prev_x:
auc += (x - prev_x) * y
prev_x = x
print "the auc is %s."%auc
x = [_v[0] for _v in xy_arr]
y = [_v[1] for _v in xy_arr]
pl.title("ROC curve of %s (AUC = %.4f)" % ('svm',auc))
pl.xlabel("False Positive Rate")
pl.ylabel("True Positive Rate")
pl.plot(x, y)# use pylab to plot x and y
pl.show()# show the plot on the screen
輸入的數據集可以參考svm預測結果
其格式為:
nonclk \t clk \t score
其中：
1、nonclick:未點擊的數據，可以看做負樣本的數量
2、clk:點擊的數量，可以看做正樣本的數量
3、score:預測的分數，以該分數為group進行正負樣本的預統計可以減少AUC的計算量
運行的結果為:
如果本機沒安裝pylab可以直接注釋依賴以及畫圖部分
注意
上面貼的代碼:
1、只能計算二分類的結果（至於二分類的標簽隨便處理）
2、上面代碼中每個score都做了一次閾值，其實這樣效率是相當低的，可以對樣本進行采樣或者在計算橫軸坐標時進行等分計算

10. 如何利用Python做簡單的驗證碼識別

1摘要

驗證碼是目前互聯網上非常常見也是非常重要的一個事物，充當著很多系統的防火牆功能，但是隨時OCR技術的發展，驗證碼暴露出來的安全問題也越來越嚴峻。本文介紹了一套字元驗證碼識別的完整流程，對於驗證碼安全和OCR識別技術都有一定的借鑒意義。

然後經過了一年的時間，筆者又研究和get到了一種更強大的基於CNN卷積神經網路的直接端到端的驗證識別技術（文章不是我的，然後我把源碼整理了下，介紹和源碼在這裡面）：

基於python語言的tensorflow的『端到端』的字元型驗證碼識別源碼整理(github源碼分享)

2關鍵詞

關鍵詞：安全,字元圖片,驗證碼識別,OCR,Python,SVM,PIL

3免責聲明

本文研究所用素材來自於某舊Web框架的網站完全對外公開的公共圖片資源。

本文只做了該網站對外公開的公共圖片資源進行了爬取，並未越權做任何多餘操作。

本文在書寫相關報告的時候已經隱去漏洞網站的身份信息。

本文作者已經通知網站相關人員此系統漏洞，並積極向新系統轉移。

本報告的主要目的也僅是用於OCR交流學習和引起大家對驗證安全的警覺。

4引言

關於驗證碼的非技術部分的介紹，可以參考以前寫的一篇科普類的文章：

互聯網安全防火牆（1）--網路驗證碼的科普

裡面對驗證碼的種類，使用場景，作用，主要的識別技術等等進行了講解，然而並沒有涉及到任何技術內容。本章內容則作為它的技術補充來給出相應的識別的解決方案，讓讀者對驗證碼的功能及安全性問題有更深刻的認識。

5基本工具

要達到本文的目的，只需要簡單的編程知識即可，因為現在的機器學習領域的蓬勃發展，已經有很多封裝好的開源解決方案來進行機器學習。普通程序員已經不需要了解復雜的數學原理，即可以實現對這些工具的應用了。

主要開發環境：

python3.5
python SDK版本
PIL
圖片處理庫
libsvm
開源的svm機器學習庫

關於環境的安裝，不是本文的重點，故略去。

6基本流程

一般情況下，對於字元型驗證碼的識別流程如下：

准備原始圖片素材
圖片預處理
圖片字元切割
圖片尺寸歸一化
圖片字元標記
字元圖片特徵提取
生成特徵和標記對應的訓練數據集
訓練特徵標記數據生成識別模型
使用識別模型預測新的未知圖片集
達到根據「圖片」就能返回識別正確的字元集的目標

7素材准備

7.1素材選擇

由於本文是以初級的學習研究目的為主，要求「有代表性，但又不會太難」，所以就直接在網上找個比較有代表性的簡單的字元型驗證碼（感覺像在找漏洞一樣）。

最後在一個比較舊的網站（估計是幾十年前的網站框架）找到了這個驗證碼圖片。

原始圖：

def get_feature(img): """

獲取指定圖片的特徵值,

1. 按照每排的像素點,高度為10,則有10個維度,然後為6列,總共16個維度

:param img_path:

:return:一個維度為10（高度）的列表 """

width, height = img.size

pixel_cnt_list = []

height = 10 for y in range(height):

pix_cnt_x = 0 for x in range(width): if img.getpixel((x, y)) == 0: # 黑色點

pix_cnt_x += 1

pixel_cnt_list.append(pix_cnt_x) for x in range(width):

pix_cnt_y = 0 for y in range(height): if img.getpixel((x, y)) == 0: # 黑色點

pix_cnt_y += 1

pixel_cnt_list.append(pix_cnt_y) return pixel_cnt_list

然後就將圖片素材特徵化，按照libSVM指定的格式生成一組帶特徵值和標記值的向量文

導航:首頁 > 源碼編譯 > pythonsvm演算法

pythonsvm演算法

與pythonsvm演算法相關的資料