Python打印scrapy蜘蛛抓取树结构的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
  urls = allurls[referer]
  for url in urls:
    print ' '*indent + referer
    if url in allurls:
      print_urls(allurls, url, indent+2)
def main():
  log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
  allurls = defaultdict(list)
  for l in fileinput.input():
    m = log_re.search(l)
    if m:
      url, ref = m.groups()
      allurls[ref] += [url]
  print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
centos下更新Python版本的步骤
Feb 12 Python
在Python中处理XML的教程
Apr 29 Python
python中的字典使用分享
Jul 31 Python
Python网络编程 Python套接字编程
Sep 13 Python
python使用Apriori算法进行关联性解析
Dec 21 Python
简单了解python 邮件模块的使用方法
Jul 24 Python
django rest framework 实现用户登录认证详解
Jul 29 Python
详细整理python 字符串(str)与列表(list)以及数组(array)之间的转换方法
Aug 30 Python
浅谈Pytorch torch.optim优化器个性化的使用
Feb 20 Python
python logging 重复写日志问题解决办法详解
Aug 04 Python
python 5个顶级异步框架推荐
Sep 09 Python
UI自动化定位常用实现方法代码示例
Oct 27 Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
Python中用format函数格式化字符串的用法
Apr 08 #Python
You might like
php知道与问问的采集插件代码
2010/10/12 PHP
PHP+Jquery与ajax相结合实现下拉淡出瀑布流效果【无需插件】
2016/05/06 PHP
php上传excel表格并获取数据
2017/04/27 PHP
Laravel框架源码解析之入口文件原理分析
2020/05/14 PHP
a标签的css样式四个状态
2021/03/09 HTML / CSS
使用jQuery UI的tooltip函数修饰title属性的气泡悬浮框
2013/06/24 Javascript
简单的jQuery banner图片轮播实例代码
2016/03/04 Javascript
JS实现动态增加和删除li标签行的实例代码
2016/10/16 Javascript
bootstrap组件之按钮式下拉菜单小结
2017/01/19 Javascript
js的三种继承方式详解
2017/01/21 Javascript
巧用weui.topTips验证数据的实例
2017/04/17 Javascript
手写简单的jQuery雪花飘落效果实例
2018/04/22 jQuery
AngularJS自定义过滤器用法经典实例总结
2018/05/17 Javascript
使用javascript做时间倒数读秒功能的实例
2019/01/23 Javascript
微信小程序的授权实现过程解析
2019/08/02 Javascript
layui前端时间戳转化实例
2019/11/15 Javascript
解决Element中el-date-picker组件不回填的情况
2020/11/07 Javascript
Python程序员鲜为人知但你应该知道的17个问题
2014/06/04 Python
初步探究Python程序的执行原理
2015/04/11 Python
利用Python自动监控网站并发送邮件告警的方法
2016/08/24 Python
解决pyqt中ui编译成窗体.py中文乱码的问题
2016/12/23 Python
11个Python Pandas小技巧让你的工作更高效(附代码实例)
2019/04/30 Python
Python程序包的构建和发布过程示例详解
2019/06/09 Python
基于Python实现粒子滤波效果
2020/12/01 Python
使用HTML5做个画图板的方法介绍
2013/05/03 HTML / CSS
前端实现弹幕效果的方法总结(包含css3和canvas的实现方式)
2018/07/12 HTML / CSS
亚马逊西班牙购物网站:amazon西班牙
2017/03/06 全球购物
Berghaus官网:户外服装和设备,防水服
2020/01/17 全球购物
创业计划书六个要素
2013/12/26 职场文书
生日主持词
2014/03/20 职场文书
政治学求职信
2014/06/03 职场文书
车间核算员岗位职责
2014/07/01 职场文书
仲裁协议书
2014/09/26 职场文书
逃课检讨书范文
2015/05/06 职场文书
那些美到让人窒息的诗句,值得你收藏!
2019/08/20 职场文书
python爬取企查查企业信息之selenium自动模拟登录企查查
2021/04/08 Python