字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)

Python爬虫与数据挖掘

共 2783字,需浏览 6分钟

 ·

2021-08-01 17:48

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

万战自称不提刃,生来双眼篾群容。

大家好,我是志斌~


我们写的爬虫它实际是一种让计算机自动运行的程序,它并不具备主观的意识,无法根据网站验证码的要求来执行相关操作,从而被限制爬取。


所以,志斌今天来跟大家分享一下如何解决验证码反爬虫中的字符验证码反爬虫。


01

原理


字符验证码的反爬虫原理很简单,它利用数字、字母、汉字和标点符号等字符做成一张图片,用人类和计算机对这张图片视觉上的差异作为区分用户身份的依据。


随着当前社会识别技术的发展,字符验证码也也在不断的改进,它通过添加干扰线、添加噪点以及增加字符的黏连程度和旋转角度来增加机器识别的难度。


02

破解


志斌以下面这张验证码为例给大家讲一下如何用用图像识别的方式破解字符验证码。它



它有在线和离线两种方式,我们下面来分别进行介绍。


01

 离线破解


我们离线破解验证码主要是使用的PIL库和Pytesseract库,在使用Pytesseract库时,需要先安装Tesseract-OCR。


验证码识别一共分为这四步:

1. 灰度化

2. 二值化

3. 识别


首先使用PIL库将彩色图像转化成灰色的图像,代码如下:

from PIL import Image
im= Image.open('5.jpg')
imgry = im.convert('L')
imgry.save('gray-'+'5.jpg')


灰度化图像:

紧跟着二值化处理,让字符颜色跟背景颜色反差更为明显,代码如下:

threshold = 200
Table = []
for j in range(256):
if j < threshold:
Table.append(0)
else:
Table.append(1)
out = imgry.point(Table,'1')
out.save('123'+'5.jpg')

二值化图像:

尝试识别一下,代码如下:

import pytesseract
pytesseract.image_to_string(out)



02

 在线识别


其实字符验证码就是一张图片,我们可以借助百度AI来进行在线识别,之前的这篇文章已经介绍很详细,有兴趣的读者可以读一下这篇文章20行代码教你如何批量提取图片中文字,这里就不过多介绍了,直接展示代码:

from aip import AipOcr
APP_ID = '你的APP_ID'
API_KEY = '你的API_KEY'
SECRET_KEY = '你的SECRET_KEY'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open('5.jpg','rb') as f:
a = f.read()
client.basicGeneral(a)


03

制作验证码


在来跟大家分享一下如何用Python制作一款字符验证码,这样可以使得我们更好的学习它,代码如下:

from PIL import Image,ImageDraw,ImageFont
import random
def getRandomColor():
r = random.randint(0, 255)
g = random.randint(0, 255)
b = random.randint(0, 255)
return (r,g,b)
def getRandomStr():
num_random = str(random.randint(1,9))
random_upper_alpha = chr(random.randint(65,90))
random_char = random.choice([num_random,random_upper_alpha])
return random_char
image = Image.new('RGB',(120,40),(255,255,255))
draw = ImageDraw.Draw(image)
font = ImageFont.truetype(r'K:\msyh.ttc',size=24)
for i in range(4):
draw.text((10+i*30,10),getRandomStr(),getRandomColor(),font=font)
width = 120
height = 40
for i in range(5):
x1 = random.randint(0,width)
x2 = random.randint(0,width)
y1 = random.randint(0,height)
y2 = random.randint(0,height)
draw.line((x1,x2,y1,y2),fill=getRandomColor())
for i in range(20):
draw.point([random.randint(0,width),random.randint(0,height)],fill=getRandomColor())
x = random.randint(0,width)
y = random.randint(0,height)
draw.arc((x,y,x+5,y+5),0,90,fill=getRandomColor())
image.save('5.jpg')


04

小结


1. 本文详细介绍了字符验证码反爬虫的原理和破解方法,并教大家如何做一款自己的字符验证码。

2. 字符型验证码是一种比较常规的验证码反爬虫,破解方法较为简单,喜欢爬虫的读者可以一定要学会哟~

3. 本文仅供学习参考,不做它用。

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

浏览 50
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报