python验证码_python怎样识别验证码

‘壹’ python验证码识别

orc文字识别，现在比较流行的是通过人工智能训练CNN神经网络来识别。

大体流程

准备训练数据。训练数据可以自己写个程序生成验证码，和标准答案。
构建CNN模型。这个比较简单，使用keras框架，5分钟的事情。
训练。不停地把数据feed给程序，直到准确率达到你的期望，推荐使用GPU加速
预测。加载模型，把验证码图片feed给模型，得出结果

希望对你有帮助。

‘贰’ python+selenium中验证码怎么定位

验证码的问题是测试中常见的。基本上有三种方法：

和研发协商去掉验证码，或者提供万用验证码。这是比较符合实际且实用的。
如果可以从数据库中获取相应的验证码，那就读取数据库。
验证码识别方法，通过某些中间件去识别验证码，但是成功率不高，这和工作的本质思想相违背，不建议使用。

建议实用1和2.

‘叁’ 怎么通过python获取验证码图片

因为验证码图片是禁止缓存的，当然无法用缓存函数获取了。解决方法有很多。可以用同样的会话再次请求得到图片。

‘肆’ python怎么模拟登陆含有验证码的网站

爬取网站时经常会遇到需要登录的问题，这是就需要用到模拟登录的相关方法。Python提供了强大的url库，想做到这个并不难。这里以登录学校教务系统为例，做一个简单的例子。
首先得明白cookie的作用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们需要用Cookielib模块来保持网站的cookie。
这个是要登陆的地址 http://202.115.80.153/ 和验证码地址 http://202.115.80.153/CheckCode.aspx
可以发现这个验证码是动态更新的每次打开都不一样，一般这种验证码和cookie是同步的。其次想识别验证码肯定是吃力不讨好的事，因此我们的思路是首先访问验证码页面，保存验证码、获取cookie用于登录，然后再直接向登录地址post数据。

‘伍’ 如何利用Python 做验证码识别

用python加“验证码”为关键词在里搜一下，可以找到很多关于验证码识别的文章。我大体看了一下，主要方法有几类：一类是通过对图片进行处理，然后利用字库特征匹配的方法，一类是图片处理后建立字符对应字典，还有一类是直接利用ocr模块进行识别。不管是用什么方法，都需要首先对图片进行处理，于是试着对下面的验证码进行分析。
一、图片处理
这个验证码中主要的影响因素是中间的曲线，首先考虑去掉图片中的曲线。考虑了两种算法：
第一种是首先取到曲线头的位置，即x=0时，黑点的位置。然后向后移动x的取值，观察每个x下黑点的位置，判断前后两个相邻黑点之间的距离，如果距离在一定范围内，可以基本判断该点是曲线上的点，最后将曲线上的点全部绘成白色。试了一下这种方法，结果得到的图片效果很一般，曲线不能完全去除，而且容量将字符的线条去除。
第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数，将单位面积内点个数少于某一指定数的面积去除，剩余的部分基本上就是验证码字符的部分。本例中，为了便于操作，取了5*5做为单位范围，并调整单位面积内点的标准密度为11。处理后的效果：
二、字符验证
这里我使用的方法是利用pytesser进行ocr识别，但由于这类验证码字符的不规则性，使得验证结果的准确性并不是很高。具体哪位大牛，有什么好的办法，希望能给指点一下。
三、准备工作与代码实例
1、PIL、pytesser、tesseract
(1)安装PIL：下载地址：http:// www. pythonware. com/procts/pil/(2)pytesser:下载地址：http :/ /code. google. com/p/pytesser/,下载解压后直接放在代码相同的文件夹下，即可使用。
(3)Tesseract OCR engine下载：http: / / code.google. com/p/tesseract-ocr/，下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。
2、具体代码
复制代码
#encoding=utf-8
###利用点的密度计算
import Image,ImageEnhance,ImageFilter,ImageDrawimport sys
from pytesser import *
#计算范围内点的个数
def numpoint(im):
w,h = im.size
data = list( im.getdata() )
mumpoint=0
for x in range(w):
for y in range(h):
if data[ y*w + x ] !=255:#255是白色
mumpoint+=1
return mumpoint
#计算5*5范围内点的密度
def pointmi(im):
w,h = im.size
p=[]
for y in range(0,h,5):
for x in range(0,w,5):
box = (x,y, x+5,y+5)
im1=im.crop(box)
a=numpoint(im1)
if a<11:##如果5*5范围内小于11个点，那么将该部分全部换为白色。
for i in range(x,x+5):
for j in range(y,y+5):
im.putpixel((i,j), 255)
im.save(r'img.jpg')
def ocrend():##识别
image_name = "img.jpg"
im = Image.open(image_name)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save("1.tif")
print image_file_to_string('1.tif')
if __name__=='__main__':
image_name = "1.png"
im = Image.open(image_name)
im = im.filter(ImageFilter.DETAIL)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
##a=remove_point(im)
pointmi(im)
ocrend()

‘陆’ python如何生成网页验证码

我这里找了一个python生成验证码的代码，操作十分方便简单，Python生成随机验证码

‘柒’ 如何利用Python做简单的验证码识别

最近在折腾验证码识别。最终的脚本的识别率在92%左右，9000张验证码大概能识别出八千三四百张左右。好吧，其实是验证码太简单。下面就是要识别的验证码。

接下来对图片进行分割。遍历图片中所有像素点，计算每一列像素为0的点的个数（jd）。对于相邻两列，若其中一列jd=0,而另一列jd!=0,则可以认为这一列是验证码中字符边界，由此对验证码进行分割。这样分割能达到比较好的效果，分割后得到的字符图片几乎能与模板完全相同。

(Width,Height) = img2.size
pix2 = img2.load()
x0 = []
y0 = []for x in range(1,Width):
jd = 0
# print x
for y in range(1,Height): # print y
if pix2[x,y] == 0:
jd+=1
y0.append(jd) if jd > 0:
x0.append(x)#分别对各个字符边界进行判断，这里只举出一个 for a in range(1,Width): if (y0[a] != 0)&(y0[a+1] != 0):
sta1 = a+1

分割完成后，对于识别，目前有几种方法。可以遍历图片的每一个像素点，获取像素值，得到一个字符串，将该字符串与模板的字符串进行比较，计算汉明距离或者编辑距离（即两个字符串的差异度），可用Python-Levenshtein库来实现。

我采用的是比较特征向量来进行识别的。首先设定了4个竖直特征向量，分别计算第0、2、4、6列每一列像素值为0的点的个数，与模板进行比较，若小于阈值则认为该字符与模板相同。为了提高识别率，如果通过竖直特征向量未能识别成功，引入水平特征向量继续识别，原理与竖直特征向量相同。

另外，还可以通过局部特征进行识别。这对于加入了旋转干扰的验证码有很好效果。由于我写的脚本识别率已经达到了要求，所以并没有用到这个。

最后的结果是这样的：

最终在模板库只有25条的情况下，识别率在92%左右（总共测试了一万六千张验证码）。好吧，只能说验证码太简单。。

以上。

‘捌’ python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

相关推荐：《Python教程》

识别测试

接下来新建一个项目，将验证码图片放到项目根目录下，用tesserocr库识别该验证码，代码如下所示：

这里我们新建了一个Image对戏那个，调用了tesserocr的image_to_text( )方法。传入该Image对象即可完成识别，实现过程非常简单，结果如下：

我们可以看到，识别的结果和实际结果有偏差，这是因为验证码内的多余线条干扰了图片的识别。

另外，tesserocr还有一个更加简单的方法，这个方法可以直接将图片文件转为字符串，代码如下：

不过这种方法的识别效果不如上一种的好。

验证码处理

对于上面的图片，我们可以看到其实并没有完全识别正确，所以我们需要对图像作进一步的处理，如灰度转换、二值化等操作。

我们可以利用Image对象的convert( )方法参数传入L，即可将图片转化为灰度图像，代码如下：

传入1即可将图片进行二值化处理，如下所示：

我们还可以指定二值化的阈值。上面的方法采用的是默认阈值127。不过我们不能直接转化原图，要将原图先转化为灰度图像，然后再指定二值化阈值，代码如下：

在这里，变量threshold代表二值化阈值，阈值设置为160，之后我们来看看我们的结果：

我们可以看到现在的二维码就比较方便我们进行识别了；那么对于一些有干扰的图片，我们做一些灰度和二值化处理，这会提高图片识别的正确率。

‘玖’ python怎么生成随机图形验证码

1.安装pillow模块
pip install pillow
2.pillow模块的基本使用
1.创建图片
from PIL import Image
#定义使用Image类实例化一个长为400px,宽为400px,基于RGB的(255,255,255)颜色的图片
img1=Image.new(mode="RGB",size=(400,400),color=(255,255,255))
#把生成的图片保存为"pic.png"格式
with open("pic.png","wb") as f:
img1.save(f,format="png")
#显示图片
img1.show()
运行程序,程序会在py文件的同级下生成一个名为"pic.png"的小图片,图片长为400px,宽为400px,颜色为白色.
2.创建画笔
#创建画笔,用于在图片上生成内容
draw1=ImageDraw.Draw(img1,mode="RGB")
3.在图片上生成点
#在(100,100)坐标上生成一个红点,指定的坐标不能超过图片的尺寸
draw1.point([100,100],pill="red")
#在(80,80)坐标上生成一个黑点,指定的坐标不能超过图片的尺寸
draw1.point([80,80],fill=(0,0,0))
4.在图片上画线
#第一个括号里面的参数是坐标,前两个数为开始坐标,后两个数为结束坐标
#括号里的第二个参数指定颜色,可以直接指定,也可以用RGB来表示颜色
draw1.line((100,100,100,300),fill="red")
draw1.line((100,200,200,100),fill="blue")
运行程序,画笔会在(100,100)到(100,300)坐标之间画一条红色的竖线,在(100,200)到(200,100)坐标之间画一根蓝色的斜线
5.在图片在画圆
#括号里的第一个参数是坐标,前两个数为起始坐标,后两个为结束坐标
#用这两个坐标之间的正方形区域生成一个圆,大括号里的第二个参数为圆的开始角度
#第三个参数为圆的结束角度,0到360表示所画的是一个完整的圆形,
#也可以指定的数字来生成一段为圆弧,最后一个参数表示颜色,也可以用RGB来表示想要的颜色
draw1.arc((100,100,300,300),0,360,fill="red")
draw1.arc((0,0,300,300),0,90,fill="blue")
6.在图片在写文本
#使用画笔的text方法在图片上生成文本
#第一个参数为坐标,第二个参数为所有生成的文本的内容
#第三个参数为文本的颜色
draw1.text([0,0],"python","blue")
7.在图片在生成指定字体的文本
#先实例化一个字体对象,第一个参数表示字体的路径,第二个参数表示字体大小
font1=ImageFont.truetype("One Chance.ttf",28)
#在图片上生成字体
#第一个括号里的参数表示坐标,第二个参数表示写入的内容
#第三个参数表示颜色,第四个参数表示使用的字体对象
draw1.text([200,200],"linux","red",font=font1)
图片验证码的实例
#导入random模块
import random
#导入Image,ImageDraw,ImageFont模块
from PIL import Image,ImageDraw,ImageFont
#定义使用Image类实例化一个长为120px,宽为30px,基于RGB的(255,255,255)颜色的图片
img1=Image.new(mode="RGB",size=(120,30),color=(255,255,255))
#实例化一支画笔
draw1=ImageDraw.Draw(img1,mode="RGB")
#定义要使用的字体
font1=ImageFont.truetype("One Chance.ttf",28)
for i in range(5):
#每循环一次,从a到z中随机生成一个字母或数字
#65到90为字母的ASCII码,使用chr把生成的ASCII码转换成字符
#str把生成的数字转换成字符串
char1=random.choice([chr(random.randint(65,90)),str(random.randint(0,9))])
#每循环一次重新生成随机颜色
color1=(random.randint(0,255),random.randint(0,255),random.randint(0,255))
#把生成的字母或数字添加到图片上
#图片长度为120px,要生成5个数字或字母则每添加一个,其位置就要向后移动24px
draw1.text([i*24,0],char1,color1,font=font1)
#把生成的图片保存为"pic.png"格式
with open("pic.png","wb") as f:
img1.save(f,format="png")

‘拾’ python怎样识别验证码

1. 如果重点在算法，我觉得OCR不见得能识别好验证码，比较那玩意设计的就是用来防止机器识别的。
2. 如果只是想为了OCR而OCR：Linux和Mac的核心是一样的，应该可以通用。请贴出更多的技术细节：比如是否已经验证在Linux上好使，而同样的代码在Mac上遇到何种问题。

导航:首页 > 编程语言 > python验证码

python验证码

与python验证码相关的资料