Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python函数缺省值与引用学习笔记分享
Feb 10 Python
Python中的两个内置模块介绍
Apr 05 Python
通过Python 接口使用OpenCV的方法
Apr 02 Python
django的登录注册系统的示例代码
May 14 Python
Python小游戏之300行代码实现俄罗斯方块
Jan 04 Python
在django中实现页面倒数几秒后自动跳转的例子
Aug 16 Python
Pandas时间序列基础详解(转换,索引,切片)
Feb 26 Python
Tensorflow tf.nn.depthwise_conv2d如何实现深度卷积的
Apr 20 Python
用Python在Excel里画出蒙娜丽莎的方法示例
Apr 28 Python
Python实现一个简单的递归下降分析器
Aug 01 Python
Python爬虫基础讲解之请求
May 13 Python
Python使用OpenCV实现虚拟缩放效果
Feb 28 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
php实现基于微信公众平台开发SDK(demo)扩展的方法
2014/12/22 PHP
PHP实现事件机制实例分析
2015/06/26 PHP
js静态作用域的功能。
2006/12/25 Javascript
在一个form用一个SUBMIT(或button)分别提交到两个处理表单页面的代码
2007/02/15 Javascript
QQ邮箱的一个文本编辑器代码
2007/03/14 Javascript
jQuery 对象中的类数组操作
2009/04/27 Javascript
javascript 遍历验证所有文本框的值
2009/08/27 Javascript
到处都是jQuery选择器的年代 不了解它们的性能,行吗
2012/06/18 Javascript
禁止ajax缓存获取程序最新数据的方法
2013/11/19 Javascript
JavaScript定时显示广告代码分享
2015/03/02 Javascript
jquery trigger函数执行两次的解决方法
2016/02/29 Javascript
AngularJs学习第八篇 过滤器filter创建
2016/06/08 Javascript
JavaScript使用forEach()与jQuery使用each遍历数组时return false 的区别
2016/08/26 Javascript
angular+ionic 的app上拉加载更新数据实现方法
2017/01/16 Javascript
利用js判断手机是否安装某个app的多种方案
2017/02/13 Javascript
利用Plupload.js解决大文件上传问题, 带进度条和背景遮罩层
2017/03/15 Javascript
Angular CLI在Angular项目中如何使用scss详解
2018/04/10 Javascript
jQuery实现基本淡入淡出效果的方法详解
2018/09/05 jQuery
Nodejs实现的操作MongoDB数据库功能完整示例
2019/02/02 NodeJs
urllib2自定义opener详解
2014/02/07 Python
Python实现在线音乐播放器
2017/03/03 Python
Django 添加静态文件的两种实现方法(必看篇)
2017/07/14 Python
解决Python中定时任务线程无法自动退出的问题
2019/02/18 Python
Tensorflow 多线程与多进程数据加载实例
2020/02/05 Python
使用anaconda安装pytorch的实现步骤
2020/09/03 Python
python从ftp获取文件并下载到本地
2020/12/05 Python
详解移动端HTML5页面端去掉input输入框的白色背景和边框(兼容Android和ios)
2016/12/15 HTML / CSS
Dr. Martens马汀博士澳大利亚官网:马丁靴鼻祖
2019/07/02 全球购物
英国领先的在线高尔夫商店:Scottsdale Golf
2019/08/26 全球购物
编写一子程序,将一链表倒序,即使链表表尾变表头,表头变表尾
2016/02/10 面试题
住房公积金接收函
2014/01/09 职场文书
社区母亲节活动方案
2014/03/05 职场文书
一年级学生评语
2014/04/23 职场文书
群众路线查摆问题整改措施
2014/10/10 职场文书
《秋天的怀念》教学反思
2016/02/17 职场文书
导游词之徐州-云龙山
2019/09/29 职场文书