python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python实现通过pil模块对图片格式进行转换的方法
Mar 24 Python
设计模式中的原型模式在Python程序中的应用示例
Mar 02 Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 Python
python实现简单tftp(基于udp协议)
Jul 30 Python
Random 在 Python 中的使用方法
Aug 09 Python
python快速编写单行注释多行注释的方法
Jul 31 Python
记一次pyinstaller打包pygame项目为exe的过程(带图片)
Mar 02 Python
构建高效的python requests长连接池详解
May 02 Python
keras 两种训练模型方式详解fit和fit_generator(节省内存)
Jul 03 Python
Python模块常用四种安装方式
Oct 20 Python
手把手教你配置JupyterLab 环境的实现
Feb 02 Python
解决python 输出到csv 出现多空行的情况
Mar 24 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
使用PHP 5.0创建图形的巧妙方法
2010/10/12 PHP
PHP pathinfo()获得文件的路径、名称等信息说明
2011/09/13 PHP
关于ob_get_contents(),ob_end_clean(),ob_start(),的具体用法详解
2013/06/24 PHP
PHP判断手机是IOS还是Android
2015/12/09 PHP
如何直接访问php实例对象中的private属性详解
2017/10/12 PHP
在PHP中输出JS语句以及乱码问题的解决方案
2019/02/13 PHP
PHP implode()函数用法讲解
2019/03/08 PHP
php封装的page分页类完整实例代码
2020/02/01 PHP
深入理解JavaScript系列(9) 根本没有“JSON对象”这回事!
2012/01/15 Javascript
说说JSON和JSONP 也许你会豁然开朗
2012/09/02 Javascript
js获取url中指定参数值的示例代码
2013/12/14 Javascript
cookie中的path与domain属性详解
2013/12/18 Javascript
javascript框架设计之框架分类及主要功能
2015/06/23 Javascript
js格式化时间的方法
2015/12/18 Javascript
js学习阶段总结(必看篇)
2016/06/16 Javascript
js复制内容到剪贴板代码,js复制代码的简单实例
2016/10/27 Javascript
jQuery实现CheckBox全选、全不选功能
2017/01/11 Javascript
vue监听键盘事件的快捷方法【推荐】
2018/07/11 Javascript
H5+C3+JS实现双人对战五子棋游戏(UI篇)
2020/05/28 Javascript
vue中的ref和$refs的使用
2018/11/22 Javascript
Vue.js中的组件系统
2019/05/30 Javascript
JavaScript前端实现压缩图片功能
2020/03/06 Javascript
[02:50]【扭转乾坤,只此一招】DOTA2永雾林渊版本开启新篇章
2020/12/22 DOTA
python下如何让web元素的生成更简单的分析
2008/07/17 Python
Python编程之黑板上排列组合,你舍得解开吗
2017/10/30 Python
numpy.std() 计算矩阵标准差的方法
2018/07/11 Python
利用python画出折线图
2018/07/26 Python
Python partial函数原理及用法解析
2019/12/11 Python
基于python求两个列表的并集.交集.差集
2020/02/10 Python
PyQt5 控件字体样式等设置的实现
2020/05/13 Python
Python图像处理二值化方法实例汇总
2020/07/24 Python
Django实现随机图形验证码的示例
2020/10/15 Python
Python 无限级分类树状结构生成算法的实现
2021/01/21 Python
Conforama西班牙:您的家具、装饰和电器商店
2020/02/21 全球购物
2014年街道办事处工作总结
2014/12/11 职场文书
2016年公司中秋节致辞
2015/11/26 职场文书