python短信验证码封装_python如何识别验证码

❶ python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

相关推荐：《Python教程》

识别测试

接下来新建一个项目，将验证码图片放到项目根目录下，用tesserocr库识别该验证码，代码如下所示：

这里我们新建了一个Image对戏那个，调用了tesserocr的image_to_text( )方法。传入该Image对象即可完成识别，实现过程非常简单，结果如下：

我们可以看到，识别的结果和实际结果有偏差，这是因为验证码内的多余线条干扰了图片的识别。

另外，tesserocr还有一个更加简单的方法，这个方法可以直接将图片文件转为字符串，代码如下：

不过这种方法的识别效果不如上一种的好。

验证码处理

对于上面的图片，我们可以看到其实并没有完全识别正确，所以我们需要对图像作进一步的处理，如灰度转换、二值化等操作。

我们可以利用Image对象的convert( )方法参数传入L，即可将图片转化为灰度图像，代码如下：

传入1即可将图片进行二值化处理，如下所示：

我们还可以指定二值化的阈值。上面的方法采用的是默认阈值127。不过我们不能直接转化原图，要将原图先转化为灰度图像，然后再指定二值化阈值，代码如下：

在这里，变量threshold代表二值化阈值，阈值设置为160，之后我们来看看我们的结果：

我们可以看到现在的二维码就比较方便我们进行识别了；那么对于一些有干扰的图片，我们做一些灰度和二值化处理，这会提高图片识别的正确率。

❷ 如何利用Python 做验证码识别

#!/usr/bin/python3.4
#-*-coding:utf-8-*-

#1、pip3installpyocr
#2、pip3installpilloworeasy_installPillow
#3、安装tesseract-ocr：http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe，安装在C:ProgramFiles下
#4、要求python默认安装在C盘
#http://www.cnblogs.com/TTyb/p/5996847.html
#代码:
#!/usr/bin/python3.4
#-*-coding:utf-8-*-

importpytesseract
fromPILimportImage

image=Image.open('../jpg/code.png')
code=pytesseract.image_to_string(image)
print(code)

❸ 用python正则表达式怎么从短信中提取验证码

a=re.findall(":\d+",str)
for i in a:
i=i[1:]
print i

❹ python selenium 获取短信验证码是字符和数字怎么读取数字

读取短信需要在相应的手机上读取呀
由于工作需要，登录网站需要用到验证码。最初是研究过验证码识别的，但是总是不能获取到我需要的那个验证码。直到这周五，才想起这事来，昨天顺利的解决了。
下面正题：
Python版本：3.4.3
所需要的代码库：PIL，selenium，tesseract
先上代码：
#coding:utf-8
import subprocess
from PIL import Image
from PIL import ImageOps
from selenium import webdriver
import time,os,sys

def cleanImage(imagePath):
image = Image.open(imagePath) #打开图片
image = image.point(lambda x: 0 if x<143 else 255) #处理图片上的每个像素点，使图片上每个点“非黑即白”
borderImage = ImageOps.expand(image,border=20,fill='white')
borderImage.save(imagePath)

def getAuthCode(driver, url="http://localhost/"):
captchaUrl = url + "common/random"
driver.get(captchaUrl)
time.sleep(0.5)
driver.save_screenshot("captcha.jpg") #截屏，并保存图片
#urlretrieve(captchaUrl, "captcha.jpg")
time.sleep(0.5)
cleanImage("captcha.jpg")
p = subprocess.Popen(["tesseract", "captcha.jpg", "captcha"], stdout=\
subprocess.PIPE,stderr=subprocess.PIPE)
p.wait()
f = open("captcha.txt", "r")

#Clean any whitespace characters
captchaResponse = f.read().replace(" ", "").replace("\n", "")

print("Captcha solution attempt: " + captchaResponse)
if len(captchaResponse) == 4:
return captchaResponse
else:
return False

def withoutCookieLogin(url=""):
driver = webdriver.Chrome()
driver.maximize_window()
driver.get(url)
while True:
authCode = getAuthCode(driver, url)
if authCode:
driver.back()
driver.find_element_by_xpath("//input[@id='orgCode' and @name='orgCode']").clear()
driver.find_element_by_xpath("//input[@id='orgCode' and @name='orgCode']").send_keys("orgCode")
driver.find_element_by_xpath("//input[@id='account' and @name='username']").clear()
driver.find_element_by_xpath("//input[@id='account' and @name='username']").send_keys("username")
driver.find_element_by_xpath("//input[@type='password' and @name='password']").clear()
driver.find_element_by_xpath("//input[@type='password' and @name='password']").send_keys("password")
driver.find_element_by_xpath("//input[@type='text' and @name='authCode']").send_keys(authCode)
driver.find_element_by_xpath("//button[@type='submit']").click()
try:
time.sleep(3)
driver.find_element_by_xpath("//*[@id='side-menu']/li[2]/ul/li/a").click()
return driver
except:
print("authCode Error:", authCode)
driver.refresh()
return driver

driver = withoutCookieLogin("http://localhost/")
driver.get("http://localhost/enterprise/add/")

怎么获取我们需要的验证码
在这获取验证码的道路上，我掉了太多的坑，看过太多的文章，很多都是教你验证码的识别方法，但是没有说明，怎么获取你当前需要的验证码图片。
我的处理方法是：
1.先用selenium打开你需要的登录的页面地址url1

2.通过审核元素获取验证码的地址url2（其实最简单的是右键打开新页面）

3：在url1页面，输入地址url2进入url2页面，然后截屏保存验证码页面

4：处理验证码得到验证码字符串。然后点击浏览器后退按钮，返回url1登录页面
5：输入登录需要的信息和验证码

6：点击登录
7：验证登录后的页面，判断是否成功，若不成功则需要重新1-7的操作。
为了保护公司的信息，这个页面是我本地搭的服务，我在伯乐在线注册页面进行测试过这个验证码获得方法，可以通过。（这个验证码的处理方法，仅限验证码背景是像素点，若验证码有横线需额外处理。）
第一篇博文，不喜勿喷。
验证码处理方法参考文献：
Web Scraping with python.pdf

❺ 如何用python搞定验证码中的噪点

看上去不怎么难,没有干扰线没有粘连没有扭曲.但我还是没能用pytesser直接将它识别出来,因为当中有噪点和其他背景噪声的存在.我的工作就是去掉这些讨厌的东西
先介绍一下,我们的工具:
1.Pytesser它是基于一个c语言实现名为tesser的识别工具的python封装.可惜比较笨,只能做最简单的识别而且不认识汉字
2.Requests它是我们喜欢写爬虫的孩子的最爱,提供人性化的接口,代价是失去了一点效率(写python就别考虑效率啦)
3.BeautifulSoup它和Requests是一对好机油,让提取文档中所需的内容变成一件简单的事情
4.PIL它是今天的主角,PIL是专门用作图像处理的库,很好很强大.熟练的人甚至可以用它来P图
如何写爬虫去实现模拟登录此处不细说,下面说说怎么解决验证码识别
解决思路如下:
1.先用PIL对图像做一次图像增强,因为原图中数字的边缘和背景中的噪声并不是太分明,做了增强之后能将两者分离.如果不分离,可能会在去噪点的时候导致数字中有部分会缺失
im = Image.open("randomimage/randomImage11.jpg")
im = ImageEnhance.Sharpness(im).enhance(3)参数为3是经过实验之后感觉比较理想的值,太强不好,太弱也不好
2.做完预处理之后,就是去背景噪声了.背景噪声指的是背景中各种明暗变换的色块,肉眼也许不会注意到这个.但是它的存在会给识别带来影响.我最初的做法是将图像转换为只有黑白两色,这样自然就将噪声转换成了噪点.
效果如图
但我希望能去掉噪点,成为这样

最先想到的是种子染色法 ,什么是种子染色法请参看这个链接
为了防止坏链,此处做部分转载
种子染色法英文叫做Flood Fill ，实际上Flood Fill这个名称更贴切一点，因为这个方法作用在一个图的结点上时恰似洪水一样“淹没”与之相连的其他结点并以相同的方式蔓延出去，这个方法通常用于计算一个图的极大连通子图（这里的“图”是图论的概念）。设想一个无向图，我们从这个图中一个未标号（“标号”可以理解为“染色”）的结点开始，将此结点和从这个结点出发可达的所有结点都赋予相同的标号（染上相同的颜色），那么我们就得到了这些被标号的结点所组成的一个极大连通子图，搜索下一个未标号的结点并重复上述过程我们便可以找到所有的极大连通子图。“染色”的过程可以用DFS或者BFS实现，如果结点数为V，边数为E，因为我们在Flood Fill过程中“造访”每个结点两次，“造访”每条边两次，所以得到所有极大连通子图的时间复杂度为o(V+E) 。
来自Wikipedia的一个示例：

想象每个白色方块为图中的结点，相邻的方块（上下左右）有边相连，那么这个图就有三个极大连通子图，这演示了Flood Fill查找其中一个极大连通子图的过程。
在这是借要用种子染色法计算每块的面积,然后把小体积的块当作噪点去除.
代码在这

def check(j,i):
try:
if pix[j,i] == 0 and matrix[j][i] != -1:
return True
else:
return False
except:
return False

def juli(r,s):
return abs(r[0]-s[0])+abs(r[1]-s[1])+abs(r[2]-s[2])

for i in range(w):
for j in range(h):
r = [0,0,0]
s = [0,0,0]
if pix[j,i] == 0:
if check(j-1,i):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i))
print r
print s
print "-"*55
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i]
maps[str(matrix[j][i])]+=1
elif check(j-1,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i-1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i-1]
maps[str(matrix[j][i])]+=1
elif check(j,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i))
if juli(r,s) <=l:
matrix[j][i] = matrix[j][i-1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i+1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i+1]
maps[str(matrix[j][i])]+=1
elif check(j,i+1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j][i+1]
maps[str(matrix[j][i])]+=1
elif check(j-1,i+1):
pr[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j-1,i+1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j-1][i+1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i-1):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i-1))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i-1]
maps[str(matrix[j][i])]+=1
elif check(j+1,i):
r[0],r[1],r[2] = im2.getpixel((j,i))
s[0],s[1],s[2] = im2.getpixel((j+1,i))
if juli(r,s) <=l:
matrix[j][i] = matrix[j+1][i]
maps[str(matrix[j][i])]+=1
else:
n+=1
maps[str(n)]=1
matrix[j][i] = n
for i in range(w):
for j in range(h):
if matrix[j][i]!=-1 and maps[str(matrix[j][i])]<=2:
im.putpixel((j,i),255)View Code

结果呢,不是很理想因为这个体积参数设小了,噪点没去干净,设大了数字部分可能也去了一小块.最重要的是这里噪点的大小不是很规律,很难找到一个不错的面积参数.
失败只是暂时的,经过观察发现背景噪声颜色明显比数字要浅的多.这也意味着它的RGB值要比数字小的多,通过分析RGB值能去掉大部分噪声,剩下来的噪点可以再通过种子染色法处理.也就是说,分别在两张图片(分别是黑白和彩色)上获取信息,在一张图片上做处理最后做识别
核心代码在这
r[0],r[1],r[2] = im2.getpixel((j,i))
if r[0]+r[1]+r[2]>=400 or r[0]>=250 or r[1]>=250 or r[2]>=250 :
im2.putpixel((j,i),(255,255,255)) 至此,本次识别的问题就搞定啦,成功率在50%以上基本满足接口的需求

❻ python如何在短信中提取验证码

如果格式统一的话，那就检测数据就行了，用个正则表达式，把短信里面的数据内容都提取出来

❼ 使用python来写脚本，如何来处理验证码的问题，每次登录时验证码都不同，求高人帮忙，谢谢

如果是想让代码识别的话，要看验证码的复杂程度了，如果比较简单，使用图像处理说不定可以解决（我不会，不过网上应该有资料，就算没有python的，其他语言的也有），但是如果是复杂的，建议你把验证码下载下来，如果有图形界面，就在界面中显示，如果没有，就下到一个目录里，自己取找，然后人工识别吧。

❽ python怎么处理获取到的验证码

最近每天都用python写一个小的脚本，练习使用python语法。验证码的生成：这里使用了python的图像处理库PIL，安装PIL的过程中出了一个小麻烦，就使用Pillow-win32的一个文件，具体的我也忘了，可以网络下。

导航:首页 > 编程语言 > python短信验证码封装

python短信验证码封装

与python短信验证码封装相关的资料