Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中用于返回绝对值的abs()方法
May 14 Python
Python3写入文件常用方法实例分析
May 22 Python
八大排序算法的Python实现
Jan 28 Python
Python基于property实现类的特性操作示例
Jun 15 Python
解决Python中定时任务线程无法自动退出的问题
Feb 18 Python
Python实现FTP文件传输的实例
Jul 07 Python
python腾讯语音合成实现过程解析
Aug 01 Python
Python实现基于socket的udp传输与接收功能详解
Nov 15 Python
python多维数组分位数的求取方式
Mar 03 Python
python 操作mysql数据中fetchone()和fetchall()方式
May 15 Python
Python代码注释规范代码实例解析
Aug 14 Python
python中四舍五入的正确打开方式
Jan 18 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
php的curl实现get和post的代码
2008/08/23 PHP
解决phpmyadmin中缺少mysqli扩展问题的方法
2013/05/06 PHP
PHP之密码加密的几种方式
2015/07/29 PHP
php多线程实现方法及用法实例详解
2015/10/26 PHP
php curl上传、下载、https登陆实现代码
2017/07/23 PHP
常见的5个PHP编码小陋习以及优化实例讲解
2021/02/27 PHP
颜色选择器 Color Picker,IE,Firefox,Opera,Safar
2010/11/25 Javascript
js获取height和width的方法说明
2013/01/06 Javascript
js实现简单鼠标跟随效果的方法
2015/04/10 Javascript
JS实现自动切换文字的导航效果代码
2015/08/27 Javascript
jquery mobile 移动web(5)
2015/12/20 Javascript
js判断图片加载完成后获取图片实际宽高的方法
2016/02/25 Javascript
js自定义select下拉框美化特效
2016/05/12 Javascript
Nodejs进阶:核心模块net入门学习与实例讲解
2016/11/21 NodeJs
JS去掉字符串前后空格或去掉所有空格的用法
2017/03/25 Javascript
Express下采用bcryptjs进行密码加密的方法
2018/02/07 Javascript
ionic2中使用自动生成器的方法
2018/03/04 Javascript
node.js遍历目录的方法示例
2018/08/01 Javascript
js使用ajax传值给后台,后台返回字符串处理方法
2018/08/08 Javascript
JavaScript ES2019中的8个新特性详解
2019/02/20 Javascript
Vue-CLI与Vuex使用方法实例分析
2020/01/06 Javascript
[01:46]2020完美世界全国高校联赛秋季赛报名开启
2020/10/15 DOTA
python在不同层级目录import模块的方法
2016/01/31 Python
Python实现字典的遍历与排序功能示例
2017/12/23 Python
pandas进行时间数据的转换和计算时间差并提取年月日
2019/07/06 Python
Boston Proper官网:美国女装品牌
2017/10/30 全球购物
Notino罗马尼亚网站:购买香水和化妆品
2019/07/20 全球购物
Internal修饰符有什么含义
2013/07/10 面试题
家长对老师的感言
2014/03/11 职场文书
教师四风自我剖析材料
2014/09/30 职场文书
护士长2014年度工作总结
2014/11/11 职场文书
2016新教师培训心得体会范文
2016/01/08 职场文书
MySQL创建索引需要了解的
2021/04/08 MySQL
python利用pandas分析学生期末成绩实例代码
2021/07/09 Python
MySQL的存储过程和相关函数
2022/04/26 MySQL
IDEA中sout快捷键无效问题的解决方法
2022/07/23 Java/Android