python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Python实现建立SSH连接的方法
Jun 03 Python
解决PyCharm同目录下导入模块会报错的问题
Oct 13 Python
python在html中插入简单的代码并加上时间戳的方法
Oct 16 Python
Python matplotlib画图与中文设置操作实例分析
Apr 23 Python
python如何以表格形式打印输出的方法示例
Jun 21 Python
Python列表切片常用操作实例解析
Dec 16 Python
python实现将json多行数据传入到mysql中使用
Dec 31 Python
有趣的Python图片制作之如何用QQ好友头像拼接出里昂
Apr 22 Python
Python实现打包成库供别的模块调用
Jul 13 Python
如何用Python绘制3D柱形图
Sep 16 Python
python中time包实例详解
Feb 02 Python
一文搞懂python异常处理、模块与包
Jun 26 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
php array_walk() 数组函数
2011/07/12 PHP
关于PHP模板Smarty的初级使用方法以及心得分享
2013/06/21 PHP
3个PHP多维数组转为一维数组的方法实例
2014/03/13 PHP
浅谈PHP中单引号和双引号到底有啥区别呢?
2015/03/04 PHP
Symfony实现行为和模板中取得request参数的方法
2016/03/17 PHP
php array_keys 返回数组的键名
2016/10/25 PHP
php获取ajax的headers方法与内容实例
2017/12/27 PHP
一个符号插入器 中用到的js代码
2007/09/04 Javascript
javascript instanceof,typeof的区别
2010/03/24 Javascript
js 编码转换 gb2312 和 utf8 互转的2种方法
2013/08/07 Javascript
JavaScript仿支付宝密码输入框
2015/12/29 Javascript
微信小程序 监听手势滑动切换页面实例详解
2017/06/15 Javascript
基于JavaScript实现带数据验证和复选框的表单提交
2017/08/23 Javascript
jQuery EasyUI结合zTree树形结构制作web页面
2017/09/01 jQuery
基于js中document.cookie全面解析
2017/09/14 Javascript
Vue自定义全局Toast和Loading的实例详解
2019/04/18 Javascript
vue权限问题的完美解决方案
2019/05/08 Javascript
echarts大屏字体自适应的方法步骤
2019/07/12 Javascript
JavaScript 中的无穷数(Infinity)详解
2020/02/13 Javascript
vue实现移动端input上传视频、音频
2020/08/18 Javascript
我所理解的JavaScript中的this指向
2020/09/04 Javascript
[14:50]2018DOTA2亚洲邀请赛开幕式
2018/04/03 DOTA
Python挑选文件夹里宽大于300图片的方法
2015/03/05 Python
Python切图九宫格的实现方法
2019/10/10 Python
python模块常用用法实例详解
2019/10/17 Python
Python decorator拦截器代码实例解析
2020/04/04 Python
Python 炫技操作之合并字典的七种方法
2020/04/10 Python
英国最大的海报商店:GB Posters
2018/03/20 全球购物
介绍一下Ruby中的对象,属性和方法
2012/07/11 面试题
党校培训自我鉴定范文
2014/04/10 职场文书
房产转让协议书
2014/04/11 职场文书
社区义诊活动总结
2014/04/30 职场文书
高中国旗下的演讲稿
2014/08/28 职场文书
报考公务员诚信承诺书
2014/08/29 职场文书
检讨书范文1000字
2015/01/28 职场文书
2015年小学总务工作总结
2015/07/21 职场文书