python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python执行外部程序的常用方法小结
Mar 21 Python
python如何爬取个性签名
Jun 19 Python
Python3标准库总结
Feb 19 Python
详解python-图像处理(映射变换)
Mar 22 Python
Python爬虫实现使用beautifulSoup4爬取名言网功能案例
Sep 15 Python
django 简单实现登录验证给你
Nov 06 Python
如何在python中执行另一个py文件
Apr 30 Python
Python使用Matlab命令过程解析
Jun 04 Python
python能自学吗
Jun 18 Python
python 利用zmail库发送邮件
Sep 11 Python
利用python+request通过接口实现人员通行记录上传功能
Jan 13 Python
python自动化办公操作PPT的实现
Feb 05 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
MySQL数据库转移,access,sql server 转 MySQL 的图文教程
2007/09/02 PHP
PHP微信分享开发详解
2017/01/14 PHP
PHP实现微信模拟登陆并给用户发送消息的方法【文字,图片,图文】
2017/06/29 PHP
javascript 动态table添加colspan\rowspan 参数的方法
2009/07/25 Javascript
JS 判断undefined的实现代码
2009/11/26 Javascript
JavaScript对象、属性、事件手册集合方便查询
2010/07/04 Javascript
CodeMirror2 IE7/IE8 下面未知运行时错误的解决方法
2012/03/29 Javascript
javascript中自定义对象的属性方法分享
2013/07/12 Javascript
JS对象转换为Jquery对象示例
2014/01/26 Javascript
zepto.js中tap事件阻止冒泡的实现方法
2015/02/12 Javascript
jQuery实现的五子棋游戏实例
2015/06/13 Javascript
javascript 四十条常用技巧大全
2016/09/09 Javascript
jQuery插件ContextMenu自定义图标
2017/03/15 Javascript
详解微信小程序 通过控制CSS实现view隐藏与显示
2017/05/24 Javascript
javascript获取指定区间范围随机数的方法
2017/09/08 Javascript
微信小程序之页面跳转和参数传递的实现
2017/09/29 Javascript
canvas+gif.js打造自己的数字雨头像的示例代码
2017/10/26 Javascript
vuex 的简单使用
2018/03/22 Javascript
js中apply()和call()的区别与用法实例分析
2018/08/14 Javascript
node.js 如何监视文件变化
2020/09/01 Javascript
如何解决django配置settings时遇到Could not import settings 'conf.local'
2014/11/18 Python
实例说明Python中比较运算符的使用
2015/05/13 Python
使用python判断jpeg图片的完整性实例
2019/06/10 Python
python实现对象列表根据某个属性排序的方法详解
2019/06/11 Python
sklearn-SVC实现与类参数详解
2019/12/10 Python
python 微信好友特征数据分析及可视化
2020/01/07 Python
tensorflow 报错unitialized value的解决方法
2020/02/06 Python
Python计算公交发车时间的完整代码
2020/02/12 Python
Django如何使用redis作为缓存
2020/05/21 Python
如何基于matlab相机标定导出xml文件
2020/11/02 Python
opencv python 对指针仪表读数识别的两种方式
2021/01/14 Python
Wallis官网:英国女装零售商
2020/01/21 全球购物
C++是不是类型安全的
2014/02/18 面试题
失业者真诚求职信范文
2013/12/25 职场文书
《春到梅花山》教学反思
2014/04/16 职场文书
一文搞懂redux在react中的初步用法
2021/06/09 Javascript