導航:首頁 > 編程語言 > python簡訊驗證碼封裝

python簡訊驗證碼封裝

發布時間:2022-08-28 14:38:37

python如何識別驗證碼

我們首先識別最簡單的一種驗證碼,即圖形驗證碼。這種驗證碼最早出現,現在也很常見,一般由4位字母或者數字組成。例如,中國知網的注冊頁面有類似的驗證碼,頁面如下所示:

表單中最後一項就是圖形驗證碼,我們必須完全正確輸入圖中的字元才可以完成注冊。

更多有關驗證碼的知識,可以參考這些文章:

Python3爬蟲進階:識別圖形驗證碼

Python3爬蟲進階:識別極驗滑動驗證碼

Python3爬蟲進階:識別點觸點選驗證碼

Python3爬蟲進階:識別微博宮格驗證碼

·本節目標以知網的驗證碼為例,講解利用OCR技術識別圖形驗證碼的方法。

·准備工作識別圖形驗證碼需要庫tesserocr,以mac安裝為例:在mac下,我們首先使用Homebrew安裝ImageMagick和tesseract庫: brew install imagemagickbrew install tesseract 接下來再安裝tesserocr即可:pip3 install tesserocr pillow這樣我們就完成了 tesserocr的安裝。

·獲取驗證碼為了便於實驗,我們先將驗證碼的圖片保存到本地。打開開發者工具,找到驗證碼元素。驗證碼元素是一張圖片,它的ser屬 性是CheckCode.aspk。所以我們直接打開如下鏈接就可以看到一個驗證碼,右鍵保存即可,將其命名為code.jpg:

這樣我們就得到一張驗證碼圖片,以供測試識別使用。

相關推薦:《Python教程》

識別測試

接下來新建一個項目,將驗證碼圖片放到項目根目錄下,用tesserocr庫識別該驗證碼,代碼如下所示:

這里我們新建了一個Image對戲那個,調用了tesserocr的image_to_text( )方法。傳入該Image對象即可完成識別,實現過程非常簡單,結果如下:

我們可以看到,識別的結果和實際結果有偏差,這是因為驗證碼內的多餘線條干擾了圖片的識別。

另外,tesserocr還有一個更加簡單的方法,這個方法可以直接將圖片文件轉為字元串,代碼如下:

不過這種方法的識別效果不如上一種的好。

驗證碼處理

對於上面的圖片,我們可以看到其實並沒有完全識別正確,所以我們需要對圖像作進一步的處理,如灰度轉換、二值化等操作。

我們可以利用Image對象的convert( )方法參數傳入L,即可將圖片轉化為灰度圖像,代碼如下:

傳入1即可將圖片進行二值化處理,如下所示:

我們還可以指定二值化的閾值。上面的方法採用的是默認閾值127。不過我們不能直接轉化原圖,要將原圖先轉化為灰度圖像,然後再指定二值化閾值,代碼如下:

在這里,變數threshold代表二值化閾值,閾值設置為160,之後我們來看看我們的結果:

我們可以看到現在的二維碼就比較方便我們進行識別了;那麼對於一些有干擾的圖片,我們做一些灰度和二值化處理,這會提高圖片識別的正確率。

❷ 如何利用Python 做驗證碼識別

#!/usr/bin/python3.4
#-*-coding:utf-8-*-

#1、pip3installpyocr
#2、pip3installpilloworeasy_installPillow
#3、安裝tesseract-ocr:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe,安裝在C:ProgramFiles下
#4、要求python默認安裝在C盤
#http://www.cnblogs.com/TTyb/p/5996847.html
#代碼:
#!/usr/bin/python3.4
#-*-coding:utf-8-*-

importpytesseract
fromPILimportImage

image=Image.open('../jpg/code.png')
code=pytesseract.image_to_string(image)
print(code)

❸ 用python正則表達式怎麼從簡訊中提取驗證碼

a=re.findall(":\d+",str)
for i in a:
i=i[1:]
print i

❹ python selenium 獲取簡訊驗證碼是字元和數字怎麼讀取數字

讀取簡訊需要在相應的手機上讀取呀
由於工作需要,登錄網站需要用到驗證碼。最初是研究過驗證碼識別的,但是總是不能獲取到我需要的那個驗證碼。直到這周五,才想起這事來,昨天順利的解決了。
下面正題:
Python版本:3.4.3
所需要的代碼庫:PIL,selenium,tesseract
先上代碼:
#coding:utf-8
import subprocess
from PIL import Image
from PIL import ImageOps
from selenium import webdriver
import time,os,sys

def cleanImage(imagePath):
image = Image.open(imagePath) #打開圖片
image = image.point(lambda x: 0 if x<143 else 255) #處理圖片上的每個像素點,使圖片上每個點「非黑即白」
borderImage = ImageOps.expand(image,border=20,fill='white')
borderImage.save(imagePath)

def getAuthCode(driver, url="http://localhost/"):
captchaUrl = url + "common/random"
driver.get(captchaUrl)
time.sleep(0.5)
driver.save_screenshot("captcha.jpg") #截屏,並保存圖片
#urlretrieve(captchaUrl, "captcha.jpg")
time.sleep(0.5)
cleanImage("captcha.jpg")
p = subprocess.Popen(["tesseract", "captcha.jpg", "captcha"], stdout=\
subprocess.PIPE,stderr=subprocess.PIPE)
p.wait()
f = open("captcha.txt", "r")

#Clean any whitespace characters
captchaResponse = f.read().replace(" ", "").replace("\n", "")

print("Captcha solution attempt: " + captchaResponse)
if len(captchaResponse) == 4:
return captchaResponse
else:
return False

def withoutCookieLogin(url=""):
driver = webdriver.Chrome()
driver.maximize_window()
driver.get(url)
while True:
authCode = getAuthCode(driver, url)
if authCode:
driver.back()
driver.find_element_by_xpath("//input[@id='orgCode' and @name='orgCode']").clear()
driver.find_element_by_xpath("//input[@id='orgCode' and @name='orgCode']").send_keys("orgCode")
driver.find_element_by_xpath("//input[@id='account' and @name='username']").clear()
driver.find_element_by_xpath("//input[@id='account' and @name='username']").send_keys("username")
driver.find_element_by_xpath("//input[@type='password' and @name='password']").clear()
driver.find_element_by_xpath("//input[@type='password' and @name='password']").send_keys("password")
driver.find_element_by_xpath("//input[@type='text' and @name='authCode']").send_keys(authCode)
driver.find_element_by_xpath("//button[@type='submit']").click()
try:
time.sleep(3)
driver.find_element_by_xpath("//*[@id='side-menu']/li[2]/ul/li/a").click()
return driver
except:
print("authCode Error:", authCode)
driver.refresh()
return driver

driver = withoutCookieLogin("http://localhost/")
driver.get("http://localhost/enterprise/add/")

怎麼獲取我們需要的驗證碼
在這獲取驗證碼的道路上,我掉了太多的坑,看過太多的文章,很多都是教你驗證碼的識別方法,但是沒有說明,怎麼獲取你當前需要的驗證碼圖片。
我的處理方法是:
1.先用selenium打開你需要的登錄的頁面地址url1

2.通過審核元素獲取驗證碼的地址url2(其實最簡單的是右鍵打開新頁面)

3:在url1頁面,輸入地址url2進入url2頁面,然後截屏保存驗證碼頁面

4:處理驗證碼得到驗證碼字元串。然後點擊瀏覽器後退按鈕,返回url1登錄頁面
5:輸入登錄需要的信息和驗證碼

6:點擊登錄
7:驗證登錄後的頁面,判斷是否成功,若不成功則需要重新1-7的操作。
為了保護公司的信息,這個頁面是我本地搭的服務,我在伯樂在線注冊頁面進行測試過這個驗證碼獲得方法,可以通過。(這個驗證碼的處理方法,僅限驗證碼背景是像素點,若驗證碼有橫線需額外處理。)
第一篇博文,不喜勿噴。
驗證碼處理方法參考文獻:
Web Scraping with python.pdf

❺ 如何用python搞定驗證碼中的噪點

看上去不怎麼難,沒有干擾線沒有粘連沒有扭曲.但我還是沒能用pytesser直接將它識別出來,因為當中有噪點和其他背景雜訊的存在.我的工作就是去掉這些討厭的東西
先介紹一下,我們的工具:
1.Pytesser它是基於一個c語言實現名為tesser的識別工具的python封裝.可惜比較笨,只能做最簡單的識別而且不認識漢字
2.Requests它是我們喜歡寫爬蟲的孩子的最愛,提供人性化的介面,代價是失去了一點效率(寫python就別考慮效率啦)
3.BeautifulSoup它和Requests是一對好機油,讓提取文檔中所需的內容變成一件簡單的事情
4.PIL它是今天的主角,PIL是專門用作圖像處理的庫,很好很強大.熟練的人甚至可以用它來P圖
如何寫爬蟲去實現模擬登錄此處不細說,下面說說怎麼解決驗證碼識別
解決思路如下:
1.先用PIL對圖像做一次圖像增強,因為原圖中數字的邊緣和背景中的雜訊並不是太分明,做了增強之後能將兩者分離.如果不分離,可能會在去噪點的時候導致數字中有部分會缺失
im = Image.open("randomimage/randomImage11.jpg")
im = ImageEnhance.Sharpness(im).enhance(3)參數為3是經過實驗之後感覺比較理想的值,太強不好,太弱也不好
2.做完預處理之後,就是去背景雜訊了.背景雜訊指的是背景中各種明暗變換的色塊,肉眼也許不會注意到這個.但是它的存在會給識別帶來影響.我最初的做法是將圖像轉換為只有黑白兩色,這樣自然就將雜訊轉換成了噪點.
效果如圖
但我希望能去掉噪點,成為這樣

最先想到的是種子染色法 ,什麼是種子染色法請參看這個鏈接
為了防止壞鏈,此處做部分轉載
種子染色法英文叫做Flood Fill ,實際上Flood Fill這個名稱更貼切一點,因為這個方法作用在一個圖的結點上時恰似洪水一樣「淹沒」與之相連的其他結點並以相同的方式蔓延出去,這個方法通常用於計算一個圖的極大連通子圖(這里的「圖」是圖論的概念)。設想一個無向圖,我們從這個圖中一個未標號(「標號」可以理解為「染色」)的結點開始,將此結點和從這個結點出發可達的所有結點都賦予相同的標號(染上相同的顏色),那麼我們就得到了這些被標號的結點所組成的一個極大連通子圖,搜索下一個未標號的結點並重復上述過程我們便可以找到所有的極大連通子圖。「染色」的過程可以用DFS或者BFS實現,如果結點數為V,邊數為E,因為我們在Flood Fill過程中「造訪」每個結點兩次,「造訪」每條邊兩次,所以得到所有極大連通子圖的時間復雜度為o(V+E) 。
來自Wikipedia的一個示例:

想像每個白色方塊為圖中的結點,相鄰的方塊(上下左右)有邊相連,那麼這個圖就有三個極大連通子圖,這演示了Flood Fill查找其中一個極大連通子圖的過程。
在這是借要用種子染色法計算每塊的面積,然後把小體積的塊當作噪點去除.
代碼在這

def check(j,i):
try:
if pix[j,i] == 0 and matrix[j][i] != -1:
return True
else:
return False
except:
return False

def juli(r,s):
return abs(r[0]-s[0])+abs(r[1]-s[1])+abs(r[2]-s[2])

for i in range(w):
for j in range(h):
r = [0,0,0]
s = [0,0,0]
if pix[j,i] == 0:
if check(j-1,i):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i))
print r
print s
print "-"*55
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i]
maps[str(matrix[j][i])]+=1
elif check(j-1,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i-1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i-1]
maps[str(matrix[j][i])]+=1
elif check(j,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i))
if juli(r,s) <=l:
matrix[j][i] = matrix[j][i-1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i+1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i+1]
maps[str(matrix[j][i])]+=1
elif check(j,i+1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j][i+1]
maps[str(matrix[j][i])]+=1
elif check(j-1,i+1):
pr[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i+1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i-1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i-1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i]
maps[str(matrix[j][i])]+=1
else:
n+=1
maps[str(n)]=1
matrix[j][i] = n
for i in range(w):
for j in range(h):
if matrix[j][i]!=-1 and maps[str(matrix[j][i])]<=2:
im.putpixel((j,i),255)View Code

結果呢,不是很理想因為這個體積參數設小了,噪點沒去干凈,設大了數字部分可能也去了一小塊.最重要的是這里噪點的大小不是很規律,很難找到一個不錯的面積參數.
失敗只是暫時的,經過觀察發現背景雜訊顏色明顯比數字要淺的多.這也意味著它的RGB值要比數字小的多,通過分析RGB值能去掉大部分雜訊,剩下來的噪點可以再通過種子染色法處理.也就是說,分別在兩張圖片(分別是黑白和彩色)上獲取信息,在一張圖片上做處理最後做識別
核心代碼在這
r[0],r[1],r[2] = im2.getpixel((j,i))
if r[0]+r[1]+r[2]>=400 or r[0]>=250 or r[1]>=250 or r[2]>=250 :
im2.putpixel((j,i),(255,255,255)) 至此,本次識別的問題就搞定啦,成功率在50%以上基本滿足介面的需求

❻ python如何在簡訊中提取 驗證碼

如果格式統一的話,那就檢測數據就行了,用個正則表達式,把簡訊裡面的數據內容都提取出來

❼ 使用python來寫腳本,如何來處理驗證碼的問題,每次登錄時驗證碼都不同,求高人幫忙,謝謝

如果是想讓代碼識別的話,要看驗證碼的復雜程度了,如果比較簡單,使用圖像處理說不定可以解決(我不會,不過網上應該有資料,就算沒有python的,其他語言的也有),但是如果是復雜的,建議你把驗證碼下載下來,如果有圖形界面,就在界面中顯示,如果沒有,就下到一個目錄里,自己取找,然後人工識別吧。

❽ python怎麼處理獲取到的驗證碼

最近每天都用python寫一個小的腳本,練習使用python語法。 驗證碼的生成: 這里使用了python的圖像處理庫PIL,安裝PIL的過程中出了一個小麻煩,就使用Pillow-win32的一個文件,具體的我也忘了,可以網路下。

閱讀全文

與python簡訊驗證碼封裝相關的資料

熱點內容
脈脈app干什麼用的 瀏覽:357
拽姐是哪個app 瀏覽:858
雲伺服器刪除了還有嗎 瀏覽:232
macbook可以用單片機嘛 瀏覽:307
南陽php招聘 瀏覽:814
去哪裡找按摩師很漂亮的app 瀏覽:818
86x99用簡便演算法計算 瀏覽:830
php截圖flash 瀏覽:273
卸載聯想app哪個好 瀏覽:719
php文字轉圖片 瀏覽:330
豆客後台怎麼加密碼 瀏覽:574
jpg轉換pdf破解版 瀏覽:978
php基礎書籍推薦 瀏覽:777
伺服器與外網不通如何驗證 瀏覽:351
電子版是不是就是文件夾 瀏覽:51
游戲屬性文件加密 瀏覽:464
如何讓安卓手機桌面圖標下移 瀏覽:530
ubuntuphp5環境搭建 瀏覽:101
賭癮解壓視頻 瀏覽:919
晉城移動dns伺服器地址 瀏覽:296