python如何识别验证码_python验证码识别

㈠怎样识别验证码，用python怎样实现

要安装pytesseract库，必须先安装其依赖的PIL及tesseract-ocr，其中PIL为图像处理库，而后面的tesseract-ocr则为google的ocr识别引擎。pytesseract安装直接使用pipinstallpytesseract安装即可，或者使用easy_installpytesseractPython验证

㈡如何利用Python做简单的验证码识别

最简单的是这个：

#!/usr/bin/python3.4
#-*-coding:utf-8-*-

#1、pip3installpyocr
#2、pip3installpilloworeasy_installPillow
#3、安装tesseract-ocr：http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe，安装在C:ProgramFiles下
#4、要求python默认安装在C盘
#http://www.cnblogs.com/TTyb/p/5996847.html
#代码:
#!/usr/bin/python3.4
#-*-coding:utf-8-*-

importpytesseract
fromPILimportImage

image=Image.open('../jpg/code.png')
code=pytesseract.ima

㈢ python抓取网页时是如何处理验证码的

python抓取网页时是如何处理验证码的？下面给大家介绍几种方法：

1、输入式验证码

这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图：

解决思路：这种是最简单的一种，只要识别出里面的内容，然后填入到输入框中即可。这种识别技术叫OCR，这里我们推荐使用Python的第三方库，tesserocr。对于没有什么背影影响的验证码如图2，直接通过这个库来识别就可以。但是对于有嘈杂的背景的验证码这种，直接识别识别率会很低，遇到这种我们就得需要先处理一下图片，先对图片进行灰度化，然后再进行二值化，再去识别，这样识别率会大大提高。

相关推荐：《Python入门教程》

2、滑动式验证码

这种是将备选碎片直线滑动到正确的位置，如下图：

解决思路：对于这种验证码就比较复杂一点，但也是有相应的办法。我们直接想到的就是模拟人去拖动验证码的行为，点击按钮，然后看到了缺口的位置，最后把拼图拖到缺口位置处完成验证。

第一步：点击按钮。然后我们发现，在你没有点击按钮的时候那个缺口和拼图是没有出现的，点击后才出现，这为我们找到缺口的位置提供了灵感。

第二步：拖到缺口位置。

我们知道拼图应该拖到缺口处，但是这个距离如果用数值来表示？

通过我们第一步观察到的现象，我们可以找到缺口的位置。这里我们可以比较两张图的像素，设置一个基准值，如果某个位置的差值超过了基准值，那我们就找到了这两张图片不一样的位置，当然我们是从那块拼图的右侧开始并且从左到右，找到第一个不一样的位置时就结束，这是的位置应该是缺口的left，所以我们使用selenium拖到这个位置即可。

这里还有个疑问就是如何能自动的保存这两张图？

这里我们可以先找到这个标签，然后获取它的location和size，然后 top，bottom，left，right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然后截图，最后抠图填入这四个位置就行。

具体的使用可以查看selenium文档，点击按钮前抠张图，点击后再抠张图。最后拖动的时候要需要模拟人的行为，先加速然后减速。因为这种验证码有行为特征检测，人是不可能做到一直匀速的，否则它就判定为是机器在拖动，这样就无法通过验证了。

3、点击式的图文验证和图标选择

图文验证：通过文字提醒用户点击图中相同字的位置进行验证。

图标选择：给出一组图片，按要求点击其中一张或者多张。借用万物识别的难度阻挡机器。

这两种原理相似，只不过是一个是给出文字，点击图片中的文字，一个是给出图片，点出内容相同的图片。

这两种没有特别好的方法，只能借助第三方识别接口来识别出相同的内容，推荐一个超级鹰，把验证码发过去，会返回相应的点击坐标。

然后再使用selenium模拟点击即可。具体怎么获取图片和上面方法一样。

4、宫格验证码

这种就很棘手，每一次出现的都不一样，但是也会出现一样的。而且拖动顺序都不一样。

但是我们发现不一样的验证码个数是有限的，这里采用模版匹配的方法。我觉得就好像暴力枚举，把所有出现的验证码保存下来，然后挑出不一样的验证码，按照拖动顺序命名，我们从左到右上下到下，设为1，2，3，4。上图的滑动顺序为4，3，2，1，所以我们命名4_3_2_1.png，这里得手动搞。当验证码出现的时候，用我们保存的图片一一枚举，与出现这种比较像素，方法见上面。如果匹配上了，拖动顺序就为4，3，2，1。然后使用selenium模拟即可。

㈣如何使用python识别验证码

第一种，将验证码保存本地，然后手动输入。
第二种，外包给验证码识别公司
第三种，学习算法识别

㈤如何利用Python做简单的验证码识别

先是获取验证码样本。。。我存了大概500个。
用dia测了测每个字之间的间距，直接用PIL开始切。
from PIL import Image
for j in range(0,500):
f=Image.open("../test{}.jpg".format(j))
for i in range(0,4):
f.crop((20+20*i,0,40+20*i,40)).save("test{0}-{1}.jpg".format(j,i+1))

上面一段脚本的意思是把jpg切成四个小块然后保存
之后就是二值化啦。
def TotallyShit(im):
x,y=im.size
mmltilist=list()
for i in range(x):
for j in range(y):
if im.getpixel((i,j))<200:
mmltilist.append(1)
else:
mmltilist.append(0)
return mmltilist

咳咳，不要在意函数的名字。上面的一段代码的意思是遍历图片的每个像素点，颜色数值小于200的用1表示，其他的用0表示。
其中的im代表的是Image.open()类型。
切好的图片长这样的。
只能说这样切的图片还是很粗糙，很僵硬。
下面就是分类啦。
把0-9，“+”，”-“的图片挑好并放在不同的文件夹里面，这里就是纯体力活了。
再之后就是模型建立了。
这里我试了自己写的还有sklearn svm和sklearn neural_network。发现最后一个的识别正确率高的多。不知道是不是我样本问题QAQ。
下面是模型建立的代码
from sklearn.neural_network import MLPClassifier
import numpy as np
def clf():
clf=MLPClassifier()
mmltilist=list()
X=list()
for i in range(0,12):
for j in os.listdir("douplings/douplings-{}".format(i)):
mmltilist.append(TotallyShit(Image.open("douplings/douplings-{0}/{1}".format(i,j)).convert("L")))
X.append(i)
clf.fit(mmltilist,X)
return clf

大概的意思是从图片源中读取图片和label然后放到模型中去跑吧。
之后便是图像匹配啦。
def get_captcha(self):
with open("test.jpg","wb") as f:
f.write(self.session.get(self.live_captcha_url).content)
gim=Image.open("test.jpg").convert("L")
recognize_list=list()
for i in range(0,4):
part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))
np_part_array=np.array(part).reshape(1,-1)
predict_num=int(self.clf.predict(np_part_array)[0])
if predict_num==11:
recognize_list.append("+")
elif predict_num==10:
recognize_list.append("-")
else:
recognize_list.append(str(predict_num))
return ''.join(recognize_list)

最后eval一下识别出来的字符串就得出结果了。。
顺便提一句现在的bilibili登陆改成rsa加密了，麻蛋，以前的脚本全部作废，心好痛。
登陆的代码。
import time
import requests
import rsa
r=requests.session()
data=r.get("act=getkey&_="+str(int(time.time()*1000))).json()
pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data['key'])
payload = {
'keep': 1,
'captcha': '',
'userid': "youruserid",
'pwd': b64encode(rsa.encrypt((data['hash'] +"yourpassword").encode(), pub_key)).decode(),
}
r.post("",data=payload)

㈥如何利用Python做简单的验证码识别

最近在折腾验证码识别。最终的脚本的识别率在92%左右，9000张验证码大概能识别出八千三四百张左右。好吧，其实是验证码太简单。下面就是要识别的验证码。

接下来对图片进行分割。遍历图片中所有像素点，计算每一列像素为0的点的个数（jd）。对于相邻两列，若其中一列jd=0,而另一列jd!=0,则可以认为这一列是验证码中字符边界，由此对验证码进行分割。这样分割能达到比较好的效果，分割后得到的字符图片几乎能与模板完全相同。

(Width,Height) = img2.size
pix2 = img2.load()
x0 = []
y0 = []for x in range(1,Width):
jd = 0
# print x
for y in range(1,Height): # print y
if pix2[x,y] == 0:
jd+=1
y0.append(jd) if jd > 0:
x0.append(x)#分别对各个字符边界进行判断，这里只举出一个 for a in range(1,Width): if (y0[a] != 0)&(y0[a+1] != 0):
sta1 = a+1

分割完成后，对于识别，目前有几种方法。可以遍历图片的每一个像素点，获取像素值，得到一个字符串，将该字符串与模板的字符串进行比较，计算汉明距离或者编辑距离（即两个字符串的差异度），可用Python-Levenshtein库来实现。

我采用的是比较特征向量来进行识别的。首先设定了4个竖直特征向量，分别计算第0、2、4、6列每一列像素值为0的点的个数，与模板进行比较，若小于阈值则认为该字符与模板相同。为了提高识别率，如果通过竖直特征向量未能识别成功，引入水平特征向量继续识别，原理与竖直特征向量相同。

另外，还可以通过局部特征进行识别。这对于加入了旋转干扰的验证码有很好效果。由于我写的脚本识别率已经达到了要求，所以并没有用到这个。

最后的结果是这样的：

最终在模板库只有25条的情况下，识别率在92%左右（总共测试了一万六千张验证码）。好吧，只能说验证码太简单。。

以上。

㈦ python验证码识别模块

只需要简单几步操作即可拥有两大通用识别模块，让你在工作中畅通无阻。

测试图片 test1.png

测试图片 test2.jpg

以上参数两者选其一即可，默认 model_type 为 ModelType.OCR, 若指定 conf_path 参数则优先使用自定义模型。

注意: 因模块过新，阿里/清华等第三方源可能尚未更新镜像，因此手动指定使用境外源，为了提高依赖的安装速度，可预先自行安装依赖：tensorflow/numpy/opencv-python/pillow/pyyaml

输出结果:

OCR和验证码识别的速度基本都在10ms左右，低配CPU可能需要15-20ms。本模块仅支持单行识别，如有多行识别需求请自行采用目标检测预裁图片。

㈧ python验证码识别

orc文字识别，现在比较流行的是通过人工智能训练CNN神经网络来识别。

大体流程

准备训练数据。训练数据可以自己写个程序生成验证码，和标准答案。
构建CNN模型。这个比较简单，使用keras框架，5分钟的事情。
训练。不停地把数据feed给程序，直到准确率达到你的期望，推荐使用GPU加速
预测。加载模型，把验证码图片feed给模型，得出结果

希望对你有帮助。

㈨ python简单验证码识别的实现过程

demo :
import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))
=================================================
=================================================中文识别
import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

有时候文本识别率并不高，建议图像识别前，先对图像进行灰度化和二值化

效果如下（有时候第一次可能识别失败，可以写个循环逻辑让它多识别几次，一般程序运行1-3次基本会识别成功）：

㈩如何利用Python 做验证码识别

用python加“验证码”为关键词在里搜一下，可以找到很多关于验证码识别的文章。我大体看了一下，主要方法有几类：一类是通过对图片进行处理，然后利用字库特征匹配的方法，一类是图片处理后建立字符对应字典，还有一类是直接利用ocr模块进行识别。不管是用什么方法，都需要首先对图片进行处理，于是试着对下面的验证码进行分析。
一、图片处理
这个验证码中主要的影响因素是中间的曲线，首先考虑去掉图片中的曲线。考虑了两种算法：
第一种是首先取到曲线头的位置，即x=0时，黑点的位置。然后向后移动x的取值，观察每个x下黑点的位置，判断前后两个相邻黑点之间的距离，如果距离在一定范围内，可以基本判断该点是曲线上的点，最后将曲线上的点全部绘成白色。试了一下这种方法，结果得到的图片效果很一般，曲线不能完全去除，而且容量将字符的线条去除。
第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数，将单位面积内点个数少于某一指定数的面积去除，剩余的部分基本上就是验证码字符的部分。本例中，为了便于操作，取了5*5做为单位范围，并调整单位面积内点的标准密度为11。处理后的效果：
二、字符验证
这里我使用的方法是利用pytesser进行ocr识别，但由于这类验证码字符的不规则性，使得验证结果的准确性并不是很高。具体哪位大牛，有什么好的办法，希望能给指点一下。
三、准备工作与代码实例
1、PIL、pytesser、tesseract
(1)安装PIL：下载地址：http:// www. pythonware. com/procts/pil/(2)pytesser:下载地址：http :/ /code. google. com/p/pytesser/,下载解压后直接放在代码相同的文件夹下，即可使用。
(3)Tesseract OCR engine下载：http: / / code.google. com/p/tesseract-ocr/，下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。
2、具体代码
复制代码
#encoding=utf-8
###利用点的密度计算
import Image,ImageEnhance,ImageFilter,ImageDrawimport sys
from pytesser import *
#计算范围内点的个数
def numpoint(im):
w,h = im.size
data = list( im.getdata() )
mumpoint=0
for x in range(w):
for y in range(h):
if data[ y*w + x ] !=255:#255是白色
mumpoint+=1
return mumpoint
#计算5*5范围内点的密度
def pointmi(im):
w,h = im.size
p=[]
for y in range(0,h,5):
for x in range(0,w,5):
box = (x,y, x+5,y+5)
im1=im.crop(box)
a=numpoint(im1)
if a<11:##如果5*5范围内小于11个点，那么将该部分全部换为白色。
for i in range(x,x+5):
for j in range(y,y+5):
im.putpixel((i,j), 255)
im.save(r'img.jpg')
def ocrend():##识别
image_name = "img.jpg"
im = Image.open(image_name)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save("1.tif")
print image_file_to_string('1.tif')
if __name__=='__main__':
image_name = "1.png"
im = Image.open(image_name)
im = im.filter(ImageFilter.DETAIL)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
##a=remove_point(im)
pointmi(im)
ocrend()

导航:首页 > 编程语言 > python如何识别验证码

python如何识别验证码

与python如何识别验证码相关的资料