编程 Python

利用Python破解验证码实例详解

Posted in Python onDecember 08, 2016

一、前言

本实验将通过一个简单的例子来讲解破解验证码的原理，将学习和实践以下知识点：

Python基本知识

PIL模块的使用

二、实例详解

安装 pillow（PIL）库：

$ sudo apt-get update

$ sudo apt-get install python-dev

$ sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev \
libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk

$ sudo pip install pillow

下载实验用的文件：

$ wget http://labfile.oss.aliyuncs.com/courses/364/python_captcha.zip
$ unzip python_captcha.zip
$ cd python_captcha

这是我们实验使用的验证码 captcha.gif

利用Python破解验证码实例详解

提取文本图片

在工作目录下新建 crack.py 文件，进行编辑。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
#(将图片转换为8位像素模式)
im = im.convert("P")

#打印颜色直方图
print im.histogram()

输出：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0 , 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 2, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 3, 1, 3, 3, 0, 0, 0, 0, 0, 0, 1, 0, 3, 2, 132, 1, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 15, 0 , 1, 0, 1, 0, 0, 8, 1, 0, 0, 0, 0, 1, 6, 0, 2, 0, 0, 0, 0, 18, 1, 1, 1, 1, 1, 2, 365, 115, 0, 1, 0, 0, 0, 135, 186, 0, 0, 1, 0, 0, 0, 116, 3, 0, 0, 0, 0, 0, 21, 1, 1, 0, 0, 0, 2, 10, 2, 0, 0, 0, 0, 2, 10, 0, 0, 0, 0, 1, 0, 625]

颜色直方图的每一位数字都代表了在图片中含有对应位的颜色的像素的数量。

每个像素点可表现256种颜色，你会发现白点是最多（白色序号255的位置，也就是最后一位，可以看到，有625个白色像素）。红像素在序号200左右，我们可以通过排序，得到有用的颜色。

his = im.histogram()
values = {}

for i in range(256):
 values[i] = his[i]

for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]:
 print j,k

输出：

我们得到了图片中最多的10种颜色，其中 220 与 227 才是我们需要的红色和灰色，可以通过这一讯息构造一种黑白二值图片。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
im = im.convert("P")
im2 = Image.new("P",im.size,255)


for x in range(im.size[1]):
 for y in range(im.size[0]):
  pix = im.getpixel((y,x))
  if pix == 220 or pix == 227: # these are the numbers to get
   im2.putpixel((y,x),0)

im2.show()

得到的结果：

利用Python破解验证码实例详解

提取单个字符图片

接下来的工作是要得到单个字符的像素集合，由于例子比较简单，我们对其进行纵向切割：

inletter = False
foundletter=False
start = 0
end = 0

letters = []

for y in range(im2.size[0]): 
 for x in range(im2.size[1]):
  pix = im2.getpixel((y,x))
  if pix != 255:
   inletter = True
 if foundletter == False and inletter == True:
  foundletter = True
  start = y

 if foundletter == True and inletter == False:
  foundletter = False
  end = y
  letters.append((start,end))

 inletter=False
print letters

输出：

[(6, 14), (15, 25), (27, 35), (37, 46), (48, 56), (57, 67)]

得到每个字符开始和结束的列序号。

import hashlib
import time

count = 0
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))
 m.update("%s%s"%(time.time(),count))
 im3.save("./%s.gif"%(m.hexdigest()))
 count += 1

(接上面的代码)

对图片进行切割，得到每个字符所在的那部分图片。

AI 与向量空间图像识别

在这里我们使用向量空间搜索引擎来做字符识别，它具有很多优点：

不需要大量的训练迭代
不会训练过度
你可以随时加入／移除错误的数据查看效果
很容易理解和编写成代码
提供分级结果，你可以查看最接近的多个匹配
对于无法识别的东西只要加入到搜索引擎中，马上就能识别了。

当然它也有缺点，例如分类的速度比神经网络慢很多，它不能找到自己的方法解决问题等等。

向量空间搜索引擎名字听上去很高大上其实原理很简单。拿文章里的例子来说：

你有 3 篇文档，我们要怎么计算它们之间的相似度呢？2 篇文档所使用的相同的单词越多，那这两篇文章就越相似！但是这单词太多怎么办，就由我们来选择几个关键单词，选择的单词又被称作特征，每一个特征就好比空间中的一个维度（x，y，z 等），一组特征就是一个矢量，每一个文档我们都能得到这么一个矢量，只要计算矢量之间的夹角就能得到文章的相似度了。

用 Python 类实现向量空间：

import math

class VectorCompare:
 #计算矢量大小
 def magnitude(self,concordance):
  total = 0
  for word,count in concordance.iteritems():
   total += count ** 2
  return math.sqrt(total)

 #计算矢量之间的 cos 值
 def relation(self,concordance1, concordance2):
  relevance = 0
  topvalue = 0
  for word, count in concordance1.iteritems():
   if concordance2.has_key(word):
    topvalue += count * concordance2[word]
  return topvalue / (self.magnitude(concordance1) * self.magnitude(concordance2))

它会比较两个 python 字典类型并输出它们的相似度（用 0～1 的数字表示）

将之前的内容放在一起

还有取大量验证码提取单个字符图片作为训练集合的工作，但只要是有好好读上文的同学就一定知道这些工作要怎么做，在这里就略去了。可以直接使用提供的训练集合来进行下面的操作。

iconset目录下放的是我们的训练集。

最后追加的内容：

#将图片转换为矢量
def buildvector(im):
 d1 = {}
 count = 0
 for i in im.getdata():
  d1[count] = i
  count += 1
 return d1

v = VectorCompare()

iconset = ['0','1','2','3','4','5','6','7','8','9','0','a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']

#加载训练集
imageset = []
for letter in iconset:
 for img in os.listdir('./iconset/%s/'%(letter)):
  temp = []
  if img != "Thumbs.db" and img != ".DS_Store":
   temp.append(buildvector(Image.open("./iconset/%s/%s"%(letter,img))))
  imageset.append({letter:temp})


count = 0
#对验证码图片进行切割
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))

 guess = []

 #将切割得到的验证码小片段与每个训练片段进行比较
 for image in imageset:
  for x,y in image.iteritems():
   if len(y) != 0:
    guess.append( ( v.relation(y[0],buildvector(im3)),x) )

 guess.sort(reverse=True)
 print "",guess[0]
 count += 1

得到结果

一切准备就绪，运行我们的代码试试：

python crack.py

输出

(0.96376811594202894, '7')
(0.96234028545977002, 's')
(0.9286884286888929, '9')
(0.98350370609844473, 't')
(0.96751165072506273, '9')
(0.96989711688772628, 'j')

是正解，干得漂亮。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

利用Python破解验证码实例详解

- Author -

程序员实验室

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用python分割TXT文件成4K的TXT文件

May 23 Python

Python中列表(list)操作方法汇总

Aug 18 Python

浅析Python中的多进程与多线程的使用

Apr 07 Python

python3 对list中每个元素进行处理的方法

Jun 29 Python

python 字典按key值大小倒序取值的实例

Jul 06 Python

78行Python代码实现现微信撤回消息功能

Jul 26 Python

python mac下安装虚拟环境的图文教程

Apr 12 Python

使用python进行广告点击率的预测的实现

Jul 04 Python

PyCharm使用之配置SSH Interpreter的方法步骤

Dec 26 Python

Python实现封装打包自己写的代码,被python import

Jul 12 Python

pycharm使用技巧之自动调整代码格式总结

Nov 04 Python

解决pycharm 格式报错tabs和space不一致问题

Feb 26 Python

详解使用python crontab设置linux定时任务

Dec 08 #Python

Python 正则表达式入门（中级篇）

Dec 07 #Python

Python 正则表达式入门（初级篇）

Dec 07 #Python

Python标准库06之子进程 (subprocess包) 详解

Dec 07 #Python

利用 Monkey 命令操作屏幕快速滑动

Dec 07 #Python

Python深入06——python的内存管理详解

Dec 07 #Python

Python制作钉钉加密/解密工具

Dec 07 #Python

You might like

怎么样可以把 phpinfo()屏蔽掉?

2006/11/24 PHP

php小型企业库存管理系统的设计与实现代码

2011/05/16 PHP

php函数连续调用实例分析

2015/07/30 PHP

PHP程序员必须知道的两种日志实例分析

2020/05/14 PHP

Javascript 不能释放内存.

2006/09/07 Javascript

用js怎么把&字符换成"&amp:"

2006/10/19 Javascript

Jquery 实现Tab效果思路是js思路

2010/03/02 Javascript

jquery的选择器的使用技巧之如何选择input框

2013/09/22 Javascript

ext combobox动态加载数据库数据(附前后台)

2014/06/17 Javascript

jQuery实现简单的图片查看器

2020/09/11 Javascript

JavaScript中transform实现数字翻页效果

2017/03/08 Javascript

简单介绍react redux的中间件的使用

2018/04/06 Javascript

详解js模板引擎art template数组渲染的方法

2018/10/09 Javascript

js实现通过开始结束控制的计时器

2019/02/25 Javascript

用VueJS写一个Chrome浏览器插件的实现方法

2019/02/27 Javascript

微信小程序自定义弹窗滚动与页面滚动冲突的解决方法

2019/07/16 Javascript

js 获取扫码枪输入数据的方法

2020/06/10 Javascript

python 数据加密代码

2008/12/24 Python

python单线程实现多个定时器示例

2014/03/30 Python

python网络编程之TCP通信实例和socketserver框架使用例子

2014/04/25 Python

python文件和目录操作函数小结

2014/07/11 Python

Python模拟用户登录验证

2017/09/11 Python

Python 2.7中文显示与处理方法

2018/07/16 Python

python使用flask与js进行前后台交互的例子

2019/07/19 Python

python Gunicorn服务器使用方法详解

2019/07/22 Python

Python使用PyQt5/PySide2编写一个极简的音乐播放器功能

2020/02/07 Python

使用python-cv2实现视频的分解与合成的示例代码

2020/10/26 Python

最新的大学生找工作自我评价

2013/09/29 职场文书

应聘护士自荐信

2013/10/21 职场文书

生物科学专业个人求职信范文

2013/12/05 职场文书

英语一分钟演讲稿

2014/04/29 职场文书

2015年安全教育月活动总结

2015/03/26 职场文书

单位收入证明范本

2015/06/18 职场文书

springboot中一些比较常用的注解总结

2021/06/11 Java/Android

Redis 哨兵机制及配置实现

2022/03/25 Redis

5个pandas调用函数的方法让数据处理更加灵活自如

2022/04/24 Python