python实现识别相似图片小结


Posted in Python onFebruary 22, 2016

文章简介

在网上看到python做图像识别的相关文章后,真心感觉python的功能实在太强大,因此将这些文章总结一下,建立一下自己的知识体系。
当然了,图像识别这个话题作为计算机科学的一个分支,不可能就在本文简单几句就说清,所以本文只作基本算法的科普向。

如有错误,请多包涵和多多指教。

参考的文章和图片来源会在底部一一列出。

以及本篇文章所用的代码都会在底下给出github地址。

安装相关库

python用作图像处理的相关库主要有openCV(C++编写,提供了python语言的接口),PIL,但由于PIL很早就停了,所以不支持python3.x,所以建议使用基于PIL的pillow,本文也是在python3.4和pillow的环境下进行实验。

pillow下载地址
PIL的下载地址
openCV的官网

至于opencv,在做人脸识别的时候会用到,但本文不会涉及到,在本专栏的后续中会谈及openCV的人脸识别和基于此的python图片爬虫,有兴趣的朋友可以关注本专栏。

相关背景

要识别两张相似图像,我们从感性上来谈是怎么样的一个过程?首先我们会区分这两张相片的类型,例如是风景照,还是人物照。风景照中,是沙漠还是海洋,人物照中,两个人是不是都是国字脸,还是瓜子脸(还是倒瓜子脸……哈哈……)。

那么从机器的角度来说也是这样的,先识别图像的特征,然后再相比。

很显然,在没有经过训练的计算机(即建立模型),那么计算机很难区分什么是海洋,什么是沙漠。但是计算机很容易识别到图像的像素值。

因此,在图像识别中,颜色特征是最为常用的。(其余常用的特征还有纹理特征、形状特征和空间关系特征等)

其中又分为

  1. 直方图
  2. 颜色集
  3. 颜色矩
  4. 聚合向量
  5. 相关图

直方图计算法

这里先用直方图进行简单讲述。

先借用一下恋花蝶的图片,

python实现识别相似图片小结
python实现识别相似图片小结

从肉眼来看,这两张图片大概也有八成是相似的了。

在python中可以依靠Image对象的histogram()方法获取其直方图数据,但这个方法返回的结果是一个列表,如果想得到下图可视化数据,需要另外使用 matplotlib,这里因为主要介绍算法思路,matplotlib的使用这里不做介绍。

python实现识别相似图片小结

是的,我们可以明显的发现,两张图片的直方图是近似重合的。所以利用直方图判断两张图片的是否相似的方法就是,计算其直方图的重合程度即可。

计算方法如下:

python实现识别相似图片小结

其中gi和si是分别指两条曲线的第i个点。

最后计算得出的结果就是就是其相似程度。

不过,这种方法有一个明显的弱点,就是他是按照颜色的全局分布来看的,无法描述颜色的局部分布和色彩所处的位置。

也就是假如一张图片以蓝色为主,内容是一片蓝天,而另外一张图片也是蓝色为主,但是内容却是妹子穿了蓝色裙子,那么这个算法也很可能认为这两张图片的相似的。

缓解这个弱点有一个方法就是利用Image的crop方法把图片等分,然后再分别计算其相似度,最后综合考虑。

图像指纹与汉明距离

在介绍下面其他判别相似度的方法前,先补充一些概念。第一个就是图像指纹

图像指纹和人的指纹一样,是身份的象征,而图像指纹简单点来讲,就是将图像按照一定的哈希算法,经过运算后得出的一组二进制数字。

说到这里,就可以顺带引出汉明距离的概念了。

假如一组二进制数据为101,另外一组为111,那么显然把第一组的第二位数据0改成1就可以变成第二组数据111,所以两组数据的汉明距离就为1

简单点说,汉明距离就是一组二进制数据变成另一组数据所需的步骤数,显然,这个数值可以衡量两张图片的差异,汉明距离越小,则代表相似度越高。汉明距离为0,即代表两张图片完全一样。

如何计算得到汉明距离,情况下面三种哈希算法

平均哈希法(aHash)

此算法是基于比较灰度图每个像素与平均值来实现的

一般步骤

1.缩放图片,可利用Image对象的resize(size)改变,一般大小为8*8,64个像素值。
2.转化为灰度图
转灰度图的算法。
1.浮点算法:Gray=Rx0.3+Gx0.59+Bx0.11
2.整数方法:Gray=(Rx30+Gx59+Bx11)/100
3.移位方法:Gray =(Rx76+Gx151+Bx28)>>8;
4.平均值法:Gray=(R+G+B)/3;
5.仅取绿色:Gray=G;

在python中,可用Image的对象的方法convert('L')直接转换为灰度图

3.计算平均值:计算进行灰度处理后图片的所有像素点的平均值。
4.比较像素灰度值:遍历灰度图片每一个像素,如果大于平均值记录为1,否则为0.
5.得到信息指纹:组合64个bit位,顺序随意保持一致性。
最后比对两张图片的指纹,获得汉明距离即可。

感知哈希算法(pHash)

平均哈希算法过于严格,不够精确,更适合搜索缩略图,为了获得更精确的结果可以选择感知哈希算法,它采用的是DCT(离散余弦变换)来降低频率的方法

一般步骤:

  1. 缩小图片:32 * 32是一个较好的大小,这样方便DCT计算
  2. 转化为灰度图:把缩放后的图片转化为256阶的灰度图。(具体算法见平均哈希算法步骤)
  3. 计算DCT:DCT把图片分离成分率的集合
  4. 缩小DCT:DCT是32 * 32,保留左上角的8 * 8,这些代表的图片的最低频率
  5. 计算平均值:计算缩小DCT后的所有像素点的平均值。
  6. 进一步减小DCT:大于平均值记录为1,反之记录为0.
  7. 得到信息指纹:组合64个信息位,顺序随意保持一致性。

最后比对两张图片的指纹,获得汉明距离即可。

这里给出别人的DCT的介绍和计算方法(离散余弦变换的方法)

相比pHash,dHash的速度要快的多,相比aHash,dHash在效率几乎相同的情况下的效果要更好,它是基于渐变实现的。

步骤:

  1. 缩小图片:收缩到9*8的大小,一遍它有72的像素点
  2. 转化为灰度图:把缩放后的图片转化为256阶的灰度图。(具体算法见平均哈希算法步骤)
  3. 计算差异值:dHash算法工作在相邻像素之间,这样每行9个像素之间产生了8个不同的差异,一共8行,则产生了64个差异值
  4. 获得指纹:如果左边的像素比右边的更亮,则记录为1,否则为0.

最后比对两张图片的指纹,获得汉明距离即可。

总结

这几种算法是识别相似图像的基础,显然,有时两图中的人相似比整体的颜色相似更重要,所以我们有时需要进行人脸识别,
然后在脸部区进行局部哈希,或者进行其他的预处理再进行哈希,这里涉及其他知识本文不作介绍。

下一次将讲述利用opencv和以训练好的模型来进行人脸识别。

本文算法的实现在下面,点一下下面的连接就好

github仓库

Python 相关文章推荐
在Python中使用HTMLParser解析HTML的教程
Apr 29 Python
python制作爬虫爬取京东商品评论教程
Dec 16 Python
基于Python3 逗号代码 和 字符图网格(详谈)
Jun 22 Python
对python sklearn one-hot编码详解
Jul 10 Python
Python并发之多进程的方法实例代码
Aug 15 Python
Python将8位的图片转为24位的图片实现方法
Oct 24 Python
对Python生成汉字字库文字,以及转换为文字图片的实例详解
Jan 29 Python
基于python3抓取pinpoint应用信息入库
Jan 08 Python
python GUI库图形界面开发之PyQt5窗口布局控件QStackedWidget详细使用方法
Feb 27 Python
python GUI库图形界面开发之PyQt5菜单栏控件QMenuBar的详细使用方法与实例
Feb 28 Python
python 读取二进制 显示图片案例
Apr 24 Python
Python爬虫获取op.gg英雄联盟英雄对位胜率的源码
Jan 29 Python
python脚本设置系统时间的两种方法
Feb 21 #Python
python脚本设置超时机制系统时间的方法
Feb 21 #Python
Go语言基于Socket编写服务器端与客户端通信的实例
Feb 19 #Python
使用C#配合ArcGIS Engine进行地理信息系统开发
Feb 19 #Python
Python中使用OpenCV库来进行简单的气象学遥感影像计算
Feb 19 #Python
Python实现以时间换空间的缓存替换算法
Feb 19 #Python
Python使用爬虫猜密码
Feb 19 #Python
You might like
与文件上传有关的php配置参数总结
2013/06/14 PHP
ThinkPHP中的关联模型注意点
2014/06/16 PHP
php使用Jpgraph绘制简单X-Y坐标图的方法
2015/06/10 PHP
php统计数组元素个数的方法
2015/07/02 PHP
如何利用http协议发布博客园博文评论
2015/08/03 PHP
Thinkphp框架 表单自动验证登录注册 ajax自动验证登录注册
2016/12/27 PHP
javascript document.compatMode兼容性
2010/02/23 Javascript
jquery ajax方式直接提交整个表单核心代码
2013/08/15 Javascript
Nodejs中自定义事件实例
2014/06/20 NodeJs
JS实现点击按钮自动增加一个单元格的方法
2015/03/09 Javascript
微信企业号开发之微信考勤Cookies的使用
2015/09/11 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
Bootstrap开发实战之第一次接触Bootstrap
2016/06/02 Javascript
初识NodeJS服务端开发入门(Express+MySQL)
2017/04/07 NodeJs
微信小程序实现点击返回顶层的方法
2017/07/12 Javascript
基于Vue实现后台系统权限控制的示例代码
2017/08/29 Javascript
利用jQuery实现简单的拖曳效果实例代码
2017/10/20 jQuery
js中DOM事件绑定分析
2018/03/18 Javascript
vuex + axios 做登录验证 并且保存登录状态的实例
2018/09/16 Javascript
Layer组件多个iframe弹出层打开与关闭及参数传递的方法
2019/09/25 Javascript
Pyramid Mako模板引入helper对象的步骤方法
2013/11/27 Python
收藏整理的一些Python常用方法和技巧
2015/05/18 Python
Python脚本实现自动发带图的微博
2016/04/27 Python
Python实现的爬取百度贴吧图片功能完整示例
2019/05/10 Python
Python中字符串String的基本内置函数与过滤字符模块函数的基本用法
2019/05/27 Python
中国专业的综合网上购物商城:京东
2016/08/02 全球购物
英国口碑最好的的维他命胶囊品牌:Myvitamins(有中文站)
2016/12/03 全球购物
美国最大的袜子制造商和零售商:Renfro Socks
2017/09/03 全球购物
英国天然抗衰老护肤品品牌:Nakin Skin Care
2019/04/16 全球购物
环境工程专业个人求职信
2013/12/05 职场文书
实习教师自我鉴定
2013/12/12 职场文书
《广玉兰》教学反思
2014/04/14 职场文书
大学学生会竞选演讲稿
2014/04/25 职场文书
公司庆典欢迎词
2015/01/26 职场文书
2015年暑期见闻
2015/07/14 职场文书
alibaba seata服务端具体实现
2022/02/24 Java/Android