python如何識別驗證碼_python驗證碼識別

㈠怎樣識別驗證碼，用python怎樣實現

要安裝pytesseract庫，必須先安裝其依賴的PIL及tesseract-ocr，其中PIL為圖像處理庫，而後面的tesseract-ocr則為google的ocr識別引擎。pytesseract安裝直接使用pipinstallpytesseract安裝即可，或者使用easy_installpytesseractPython驗證

㈡如何利用Python做簡單的驗證碼識別

最簡單的是這個：

#!/usr/bin/python3.4
#-*-coding:utf-8-*-

#1、pip3installpyocr
#2、pip3installpilloworeasy_installPillow
#3、安裝tesseract-ocr：http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe，安裝在C:ProgramFiles下
#4、要求python默認安裝在C盤
#http://www.cnblogs.com/TTyb/p/5996847.html
#代碼:
#!/usr/bin/python3.4
#-*-coding:utf-8-*-

importpytesseract
fromPILimportImage

image=Image.open('../jpg/code.png')
code=pytesseract.ima

㈢ python抓取網頁時是如何處理驗證碼的

python抓取網頁時是如何處理驗證碼的？下面給大家介紹幾種方法：

1、輸入式驗證碼

這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。如下圖：

解決思路：這種是最簡單的一種，只要識別出裡面的內容，然後填入到輸入框中即可。這種識別技術叫OCR，這里我們推薦使用Python的第三方庫，tesserocr。對於沒有什麼背影影響的驗證碼如圖2，直接通過這個庫來識別就可以。但是對於有嘈雜的背景的驗證碼這種，直接識別識別率會很低，遇到這種我們就得需要先處理一下圖片，先對圖片進行灰度化，然後再進行二值化，再去識別，這樣識別率會大大提高。

相關推薦：《Python入門教程》

2、滑動式驗證碼

這種是將備選碎片直線滑動到正確的位置，如下圖：

解決思路：對於這種驗證碼就比較復雜一點，但也是有相應的辦法。我們直接想到的就是模擬人去拖動驗證碼的行為，點擊按鈕，然後看到了缺口的位置，最後把拼圖拖到缺口位置處完成驗證。

第一步：點擊按鈕。然後我們發現，在你沒有點擊按鈕的時候那個缺口和拼圖是沒有出現的，點擊後才出現，這為我們找到缺口的位置提供了靈感。

第二步：拖到缺口位置。

我們知道拼圖應該拖到缺口處，但是這個距離如果用數值來表示？

通過我們第一步觀察到的現象，我們可以找到缺口的位置。這里我們可以比較兩張圖的像素，設置一個基準值，如果某個位置的差值超過了基準值，那我們就找到了這兩張圖片不一樣的位置，當然我們是從那塊拼圖的右側開始並且從左到右，找到第一個不一樣的位置時就結束，這是的位置應該是缺口的left，所以我們使用selenium拖到這個位置即可。

這里還有個疑問就是如何能自動的保存這兩張圖？

這里我們可以先找到這個標簽，然後獲取它的location和size，然後 top，bottom，left，right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然後截圖，最後摳圖填入這四個位置就行。

具體的使用可以查看selenium文檔，點擊按鈕前摳張圖，點擊後再摳張圖。最後拖動的時候要需要模擬人的行為，先加速然後減速。因為這種驗證碼有行為特徵檢測，人是不可能做到一直勻速的，否則它就判定為是機器在拖動，這樣就無法通過驗證了。

3、點擊式的圖文驗證和圖標選擇

圖文驗證：通過文字提醒用戶點擊圖中相同字的位置進行驗證。

圖標選擇：給出一組圖片，按要求點擊其中一張或者多張。借用萬物識別的難度阻擋機器。

這兩種原理相似，只不過是一個是給出文字，點擊圖片中的文字，一個是給出圖片，點出內容相同的圖片。

這兩種沒有特別好的方法，只能藉助第三方識別介面來識別出相同的內容，推薦一個超級鷹，把驗證碼發過去，會返回相應的點擊坐標。

然後再使用selenium模擬點擊即可。具體怎麼獲取圖片和上面方法一樣。

4、宮格驗證碼

這種就很棘手，每一次出現的都不一樣，但是也會出現一樣的。而且拖動順序都不一樣。

但是我們發現不一樣的驗證碼個數是有限的，這里採用模版匹配的方法。我覺得就好像暴力枚舉，把所有出現的驗證碼保存下來，然後挑出不一樣的驗證碼，按照拖動順序命名，我們從左到右上下到下，設為1，2，3，4。上圖的滑動順序為4，3，2，1，所以我們命名4_3_2_1.png，這里得手動搞。當驗證碼出現的時候，用我們保存的圖片一一枚舉，與出現這種比較像素，方法見上面。如果匹配上了，拖動順序就為4，3，2，1。然後使用selenium模擬即可。

㈣如何使用python識別驗證碼

第一種，將驗證碼保存本地，然後手動輸入。
第二種，外包給驗證碼識別公司
第三種，學習演算法識別

㈤如何利用Python做簡單的驗證碼識別

先是獲取驗證碼樣本。。。我存了大概500個。
用dia測了測每個字之間的間距，直接用PIL開始切。
from PIL import Image
for j in range(0,500):
f=Image.open("../test{}.jpg".format(j))
for i in range(0,4):
f.crop((20+20*i,0,40+20*i,40)).save("test{0}-{1}.jpg".format(j,i+1))

上面一段腳本的意思是把jpg切成四個小塊然後保存
之後就是二值化啦。
def TotallyShit(im):
x,y=im.size
mmltilist=list()
for i in range(x):
for j in range(y):
if im.getpixel((i,j))<200:
mmltilist.append(1)
else:
mmltilist.append(0)
return mmltilist

咳咳，不要在意函數的名字。上面的一段代碼的意思是遍歷圖片的每個像素點，顏色數值小於200的用1表示，其他的用0表示。
其中的im代表的是Image.open()類型。
切好的圖片長這樣的。
只能說這樣切的圖片還是很粗糙，很僵硬。
下面就是分類啦。
把0-9，「+」，」-「的圖片挑好並放在不同的文件夾裡面，這里就是純體力活了。
再之後就是模型建立了。
這里我試了自己寫的還有sklearn svm和sklearn neural_network。發現最後一個的識別正確率高的多。不知道是不是我樣本問題QAQ。
下面是模型建立的代碼
from sklearn.neural_network import MLPClassifier
import numpy as np
def clf():
clf=MLPClassifier()
mmltilist=list()
X=list()
for i in range(0,12):
for j in os.listdir("douplings/douplings-{}".format(i)):
mmltilist.append(TotallyShit(Image.open("douplings/douplings-{0}/{1}".format(i,j)).convert("L")))
X.append(i)
clf.fit(mmltilist,X)
return clf

大概的意思是從圖片源中讀取圖片和label然後放到模型中去跑吧。
之後便是圖像匹配啦。
def get_captcha(self):
with open("test.jpg","wb") as f:
f.write(self.session.get(self.live_captcha_url).content)
gim=Image.open("test.jpg").convert("L")
recognize_list=list()
for i in range(0,4):
part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))
np_part_array=np.array(part).reshape(1,-1)
predict_num=int(self.clf.predict(np_part_array)[0])
if predict_num==11:
recognize_list.append("+")
elif predict_num==10:
recognize_list.append("-")
else:
recognize_list.append(str(predict_num))
return ''.join(recognize_list)

最後eval一下識別出來的字元串就得出結果了。。
順便提一句現在的bilibili登陸改成rsa加密了，麻蛋，以前的腳本全部作廢，心好痛。
登陸的代碼。
import time
import requests
import rsa
r=requests.session()
data=r.get("act=getkey&_="+str(int(time.time()*1000))).json()
pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data['key'])
payload = {
'keep': 1,
'captcha': '',
'userid': "youruserid",
'pwd': b64encode(rsa.encrypt((data['hash'] +"yourpassword").encode(), pub_key)).decode(),
}
r.post("",data=payload)

㈥如何利用Python做簡單的驗證碼識別

最近在折騰驗證碼識別。最終的腳本的識別率在92%左右，9000張驗證碼大概能識別出八千三四百張左右。好吧，其實是驗證碼太簡單。下面就是要識別的驗證碼。

接下來對圖片進行分割。遍歷圖片中所有像素點，計算每一列像素為0的點的個數（jd）。對於相鄰兩列，若其中一列jd=0,而另一列jd!=0,則可以認為這一列是驗證碼中字元邊界，由此對驗證碼進行分割。這樣分割能達到比較好的效果，分割後得到的字元圖片幾乎能與模板完全相同。

(Width,Height) = img2.size
pix2 = img2.load()
x0 = []
y0 = []for x in range(1,Width):
jd = 0
# print x
for y in range(1,Height): # print y
if pix2[x,y] == 0:
jd+=1
y0.append(jd) if jd > 0:
x0.append(x)#分別對各個字元邊界進行判斷，這里只舉出一個 for a in range(1,Width): if (y0[a] != 0)&(y0[a+1] != 0):
sta1 = a+1

分割完成後，對於識別，目前有幾種方法。可以遍歷圖片的每一個像素點，獲取像素值，得到一個字元串，將該字元串與模板的字元串進行比較，計算漢明距離或者編輯距離（即兩個字元串的差異度），可用Python-Levenshtein庫來實現。

我採用的是比較特徵向量來進行識別的。首先設定了4個豎直特徵向量，分別計算第0、2、4、6列每一列像素值為0的點的個數，與模板進行比較，若小於閾值則認為該字元與模板相同。為了提高識別率，如果通過豎直特徵向量未能識別成功，引入水平特徵向量繼續識別，原理與豎直特徵向量相同。

另外，還可以通過局部特徵進行識別。這對於加入了旋轉干擾的驗證碼有很好效果。由於我寫的腳本識別率已經達到了要求，所以並沒有用到這個。

最後的結果是這樣的：

最終在模板庫只有25條的情況下，識別率在92%左右（總共測試了一萬六千張驗證碼）。好吧，只能說驗證碼太簡單。。

以上。

㈦ python驗證碼識別模塊

只需要簡單幾步操作即可擁有兩大通用識別模塊，讓你在工作中暢通無阻。

測試圖片 test1.png

測試圖片 test2.jpg

以上參數兩者選其一即可，默認 model_type 為 ModelType.OCR, 若指定 conf_path 參數則優先使用自定義模型。

注意: 因模塊過新，阿里/清華等第三方源可能尚未更新鏡像，因此手動指定使用境外源，為了提高依賴的安裝速度，可預先自行安裝依賴：tensorflow/numpy/opencv-python/pillow/pyyaml

輸出結果:

OCR和驗證碼識別的速度基本都在10ms左右，低配CPU可能需要15-20ms。本模塊僅支持單行識別，如有多行識別需求請自行採用目標檢測預裁圖片。

㈧ python驗證碼識別

orc文字識別，現在比較流行的是通過人工智慧訓練CNN神經網路來識別。

大體流程

准備訓練數據。訓練數據可以自己寫個程序生成驗證碼，和標准答案。
構建CNN模型。這個比較簡單，使用keras框架，5分鍾的事情。
訓練。不停地把數據feed給程序，直到准確率達到你的期望，推薦使用GPU加速
預測。載入模型，把驗證碼圖片feed給模型，得出結果

希望對你有幫助。

㈨ python簡單驗證碼識別的實現過程

demo :
import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))
=================================================
=================================================中文識別
import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

有時候文本識別率並不高，建議圖像識別前，先對圖像進行灰度化和二值化

效果如下（有時候第一次可能識別失敗，可以寫個循環邏輯讓它多識別幾次，一般程序運行1-3次基本會識別成功）：

㈩如何利用Python 做驗證碼識別

用python加「驗證碼」為關鍵詞在里搜一下，可以找到很多關於驗證碼識別的文章。我大體看了一下，主要方法有幾類：一類是通過對圖片進行處理，然後利用字型檔特徵匹配的方法，一類是圖片處理後建立字元對應字典，還有一類是直接利用ocr模塊進行識別。不管是用什麼方法，都需要首先對圖片進行處理，於是試著對下面的驗證碼進行分析。
一、圖片處理
這個驗證碼中主要的影響因素是中間的曲線，首先考慮去掉圖片中的曲線。考慮了兩種演算法：
第一種是首先取到曲線頭的位置，即x=0時，黑點的位置。然後向後移動x的取值，觀察每個x下黑點的位置，判斷前後兩個相鄰黑點之間的距離，如果距離在一定范圍內，可以基本判斷該點是曲線上的點，最後將曲線上的點全部繪成白色。試了一下這種方法，結果得到的圖片效果很一般，曲線不能完全去除，而且容量將字元的線條去除。
第二種考慮用單位面積內點的密度來進行計算。於是首先計算單位面積內點的個數，將單位面積內點個數少於某一指定數的面積去除，剩餘的部分基本上就是驗證碼字元的部分。本例中，為了便於操作，取了5*5做為單位范圍，並調整單位面積內點的標准密度為11。處理後的效果：
二、字元驗證
這里我使用的方法是利用pytesser進行ocr識別，但由於這類驗證碼字元的不規則性，使得驗證結果的准確性並不是很高。具體哪位大牛，有什麼好的辦法，希望能給指點一下。
三、准備工作與代碼實例
1、PIL、pytesser、tesseract
(1)安裝PIL：下載地址：http:// www. pythonware. com/procts/pil/(2)pytesser:下載地址：http :/ /code. google. com/p/pytesser/,下載解壓後直接放在代碼相同的文件夾下，即可使用。
(3)Tesseract OCR engine下載：http: / / code.google. com/p/tesseract-ocr/，下載後解壓，找到tessdata文件夾，用其替換掉pytesser解壓後的tessdata文件夾即可。
2、具體代碼
復制代碼
#encoding=utf-8
###利用點的密度計算
import Image,ImageEnhance,ImageFilter,ImageDrawimport sys
from pytesser import *
#計算范圍內點的個數
def numpoint(im):
w,h = im.size
data = list( im.getdata() )
mumpoint=0
for x in range(w):
for y in range(h):
if data[ y*w + x ] !=255:#255是白色
mumpoint+=1
return mumpoint
#計算5*5范圍內點的密度
def pointmi(im):
w,h = im.size
p=[]
for y in range(0,h,5):
for x in range(0,w,5):
box = (x,y, x+5,y+5)
im1=im.crop(box)
a=numpoint(im1)
if a<11:##如果5*5范圍內小於11個點，那麼將該部分全部換為白色。
for i in range(x,x+5):
for j in range(y,y+5):
im.putpixel((i,j), 255)
im.save(r'img.jpg')
def ocrend():##識別
image_name = "img.jpg"
im = Image.open(image_name)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save("1.tif")
print image_file_to_string('1.tif')
if __name__=='__main__':
image_name = "1.png"
im = Image.open(image_name)
im = im.filter(ImageFilter.DETAIL)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
##a=remove_point(im)
pointmi(im)
ocrend()

導航:首頁 > 編程語言 > python如何識別驗證碼

python如何識別驗證碼

與python如何識別驗證碼相關的資料