Python大批量搜索引擎图像爬虫工具详解


Posted in Python onNovember 16, 2020

python图像爬虫包

最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了?,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:

pip install icrawler

下面附上我爬虫的代码:

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫,关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python创建列表并给列表赋初始值的方法
Jul 28 Python
Python的净值数据接口调用示例分享
Mar 15 Python
Django返回json数据用法示例
Sep 18 Python
Python socket网络编程TCP/IP服务器与客户端通信
Jan 05 Python
利用Python中的pandas库对cdn日志进行分析详解
Mar 07 Python
python调用xlsxwriter创建xlsx的方法
May 03 Python
Python多进程入门、分布式进程数据共享实例详解
Jun 03 Python
python实现图片九宫格分割
Mar 07 Python
python不到50行代码完成了多张excel合并的实现示例
May 28 Python
Python坐标轴操作及设置代码实例
Jun 04 Python
详解python 条件语句和while循环的实例代码
Dec 28 Python
基于PyTorch中view的用法说明
Mar 03 Python
详解Python中list[::-1]的几种用法
Nov 16 #Python
使用Pytorch搭建模型的步骤
Nov 16 #Python
Python图像读写方法对比
Nov 16 #Python
python3中编码获取网页的实例方法
Nov 16 #Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
You might like
让PHP开发者事半功倍的十大技巧小结
2010/04/20 PHP
PHP中如何定义和使用常量
2013/02/28 PHP
phpinfo()中Loaded Configuration File(none)的解决方法
2017/01/16 PHP
PDO::inTransaction讲解
2019/01/28 PHP
PHP PDOStatement::errorInfo讲解
2019/01/31 PHP
PHP读取目录树的实现方法分析
2019/03/22 PHP
ThinkPHP类似AOP思想的参数验证的实现方法
2019/12/18 PHP
Dojo 学习笔记入门篇 First Dojo Example
2009/11/15 Javascript
javascript 判断数组是否已包含了某个元素的函数
2010/05/30 Javascript
TinyMCE 新增本地图片上传功能
2010/11/05 Javascript
jQuery渐变发光导航菜单的实例代码
2013/03/27 Javascript
Javascript表格翻页效果实现思路及代码
2013/08/23 Javascript
jQuery中insertAfter()方法用法实例
2015/01/08 Javascript
js中对函数设置默认参数值的3种方法
2015/10/23 Javascript
JavaScript中对象的不同创建方法
2016/08/12 Javascript
详解vue2.0+axios+mock+axios-mock+adapter实现登陆
2018/07/19 Javascript
JS+CSS3实现的简易钟表效果示例
2019/04/13 Javascript
[47:08]OG vs INfamous 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/17 DOTA
[02:12]Dota 2 推出全新英雄—— 电炎绝手
2019/08/23 DOTA
python flask 多对多表查询功能
2017/06/25 Python
Python爬虫实现爬取京东手机页面的图片(实例代码)
2017/11/30 Python
Python多进程方式抓取基金网站内容的方法分析
2019/06/03 Python
Python 获取windows桌面路径的5种方法小结
2019/07/15 Python
Python中sorted()排序与字母大小写的问题
2020/01/14 Python
Python实现像awk一样分割字符串
2020/09/15 Python
css3圆角边框和边框阴影示例
2014/05/05 HTML / CSS
美国领先的户外服装与装备用品店:Moosejaw
2016/08/25 全球购物
英国鞋网:Rubber Sole
2020/03/03 全球购物
新闻专业应届生求职信
2013/10/31 职场文书
黄金搭档广告词
2014/03/21 职场文书
《春晓》教学反思
2014/04/20 职场文书
开工典礼策划方案
2014/05/23 职场文书
法人委托书
2014/07/31 职场文书
国企干部对照检查材料
2014/08/22 职场文书
个人总结怎么写
2015/02/26 职场文书
一文搞懂Python Sklearn库使用
2021/08/23 Python