python使用scrapy解析js示例


Posted in Python onJanuary 23, 2014
from selenium import selenium
class MySpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['https://3water.com']
    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    )
    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*firefox", "https://3water.com")
        self.selenium.start()
    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel = Selector(response)
        from webproxy.items import WebproxyItem
        sel = self.selenium
        sel.open(response.url)
        sel.wait_for_page_to_load("30000")
        import time
        time.sleep(2.5)
Python 相关文章推荐
基于python实现微信模板消息
Dec 21 Python
对python中return和print的一些理解
Aug 18 Python
python编写分类决策树的代码
Dec 21 Python
python清除函数占用的内存方法
Jun 25 Python
Python从Excel中读取日期一列的方法
Nov 28 Python
Python OpenCV中的resize()函数的使用
Jun 20 Python
Python利用神经网络解决非线性回归问题实例详解
Jul 19 Python
python找出因数与质因数的方法
Jul 25 Python
基于python全局设置id 自动化测试元素定位过程解析
Sep 04 Python
利用Pytorch实现简单的线性回归算法
Jan 15 Python
K最近邻算法(KNN)---sklearn+python实现方式
Feb 24 Python
python数字图像处理之对比度与亮度调整示例
Jun 28 Python
php使用递归与迭代实现快速排序示例
Jan 23 #Python
python实现批量转换文件编码(批转换编码示例)
Jan 23 #Python
python写的一个文本编辑器
Jan 23 #Python
python生成指定长度的随机数密码
Jan 23 #Python
python使用beautifulsoup从爱奇艺网抓取视频播放
Jan 23 #Python
python3使用urllib示例取googletranslate(谷歌翻译)
Jan 23 #Python
pyside写ui界面入门示例
Jan 22 #Python
You might like
PHP中的函数声明与使用详解
2017/05/27 PHP
thinkphp5.1 文件引入路径问题及注意事项
2018/06/13 PHP
javascript JSON操作入门实例
2010/04/16 Javascript
jquery maxlength使用说明
2011/09/09 Javascript
jquery 插件开发 extjs中的extend用法小结
2013/01/04 Javascript
JS打开新窗口的2种方式
2013/04/18 Javascript
JS将所有对象s的属性复制给对象r(原生js+jquery)
2014/01/25 Javascript
兼容主流浏览器的JS复制内容到剪贴板
2014/12/12 Javascript
AngularJS自动表单验证
2016/02/01 Javascript
将JSON字符串转换成Map对象的方法
2016/11/30 Javascript
Javascript同时声明一连串(多个)变量的方法
2017/01/23 Javascript
jQuery中Chosen三级联动功能实例代码
2017/03/07 Javascript
js实现倒计时关键代码
2017/05/05 Javascript
原生js FileReader对象实现图片上传本地预览效果
2020/03/27 Javascript
JS获取指定月份的天数两种实现方法
2018/06/22 Javascript
Node.js console控制台简单用法分析
2019/01/04 Javascript
[02:08]2014DOTA2国际邀请赛 430专访:力争取得小组前二
2014/07/11 DOTA
python中尾递归用法实例详解
2015/04/28 Python
Python中列表、字典、元组数据结构的简单学习笔记
2016/03/20 Python
关于python的bottle框架跨域请求报错问题的处理方法
2017/03/19 Python
利用python循环创建多个文件的方法
2018/10/25 Python
python自动化之Ansible的安装教程
2019/06/13 Python
基于python实现把json数据转换成Excel表格
2020/05/07 Python
python框架flask入门之环境搭建及开启调试
2020/06/07 Python
Python logging日志模块 配置文件方式
2020/07/12 Python
1688平价精选商城:阿里集团旗下,工厂出厂价格直销
2017/04/24 全球购物
JD Sports芬兰:英国领先的运动鞋和运动服饰零售商
2018/11/16 全球购物
西班牙在线光学:Visual-Click
2020/06/22 全球购物
大学生感恩父母演讲稿
2014/08/28 职场文书
2014年教务处工作总结
2014/12/03 职场文书
2014年法院个人工作总结
2014/12/17 职场文书
2015年社区科普工作总结
2015/05/13 职场文书
公司考勤管理制度
2015/08/04 职场文书
BCL经典机 SONY ICF-5900W电路分析
2022/04/24 无线电
spring 项目实现限流方法示例
2022/07/15 Java/Android
Python编写车票订购系统 Python实现快递收费系统
2022/08/14 Python