Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中apply函数的用法实例教程
Jul 31 Python
Python实现删除当前目录下除当前脚本以外的文件和文件夹实例
Jul 27 Python
python中requests库session对象的妙用详解
Oct 30 Python
Python学习笔记之视频人脸检测识别实例教程
Mar 06 Python
django框架实现一次性上传多个文件功能示例【批量上传】
Jun 19 Python
在Python中实现函数重载的示例代码
Dec 12 Python
快速解决Django关闭Debug模式无法加载media图片与static静态文件
Apr 07 Python
Python3 selenium 实现QQ群接龙自动化功能
Apr 17 Python
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
May 25 Python
Python是怎样处理json模块的
Jul 16 Python
python中append函数用法讲解
Dec 11 Python
pytorch 如何使用amp进行混合精度训练
May 24 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
php注销代码(session注销)
2012/05/31 PHP
php判断linux下程序问题实例
2015/07/09 PHP
PHP人民币金额转大写实例代码
2015/10/02 PHP
thinkphp中U方法按路由规则生成url的方法
2018/03/12 PHP
Thinkphp5.0框架视图view的循环标签用法示例
2019/10/12 PHP
PHP网页缓存技术优点及代码实例
2020/07/29 PHP
JavaScript中也使用$美元符号来代替document.getElementById
2010/06/19 Javascript
jquery序列化表单以及回调函数的使用示例
2014/07/02 Javascript
Jquery网页内滑动缓冲导航的实现代码
2015/04/05 Javascript
IE10中flexigrid无法显示数据的解决方法
2015/07/26 Javascript
jQuery的文档处理程序详解
2016/05/10 Javascript
js获取页面引用的css样式表中的属性值方法(推荐)
2016/08/19 Javascript
Angularjs使用指令做表单校验的方法
2017/03/31 Javascript
JavaScript函数中的this四种绑定形式
2017/08/15 Javascript
Vue实战之vue登录验证的实现代码
2017/10/31 Javascript
使用async、enterproxy控制并发数量的方法详解
2018/01/02 Javascript
AngularJS与BootStrap模仿百度分页的示例代码
2018/05/23 Javascript
js在HTML的三种引用方式详解
2020/08/29 Javascript
[54:02]2018DOTA2亚洲邀请赛 4.1 小组赛 B组 IG vs VGJ.T
2018/04/03 DOTA
[10:14]2018DOTA2国际邀请赛寻真——paiN Gaming不仅为自己而战
2018/08/14 DOTA
Python读写ini文件的方法
2015/05/28 Python
利用Python脚本实现ping百度和google的方法
2017/01/24 Python
Python 备份程序代码实现
2017/03/06 Python
Python之re操作方法(详解)
2017/06/14 Python
python3操作mysql数据库的方法
2017/06/23 Python
python如何通过twisted实现数据库异步插入
2018/03/20 Python
更改Python的pip install 默认安装依赖路径方法详解
2018/10/27 Python
Python使用Socket实现简单聊天程序
2020/02/28 Python
django 实现手动存储文件到model的FileField
2020/03/30 Python
Python3与fastdfs分布式文件系统如何实现交互
2020/06/23 Python
安装Anaconda3及使用Jupyter的方法
2020/10/27 Python
阿根廷票务网站:StubHub阿根廷
2018/04/13 全球购物
校园绿化美化方案
2014/06/08 职场文书
大学生心理活动总结
2014/07/04 职场文书
反邪教警示教育活动总结
2015/05/09 职场文书
JS监听Esc 键触发事键
2021/04/14 Javascript