编程 Python

三个python爬虫项目实例代码

Posted in Python onDecember 28, 2019

这篇文章主要介绍了三个python爬虫项目实例代码,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

爬取内涵段子：

#encoding=utf-8
import urllib2

import re


class neihanba():
  def spider(self):
    '''
    爬虫的主调度器
    '''
    isflow=True#判断是否进行下一页
    page=1
    while isflow:
      url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"
      html=self.load(url)
      self.deal(html,page)
      panduan=raw_input("是否继续(y/n)!")
      if panduan=="y":
        isflow=True
        page+=1
      else:
        isflow=False
  def load(self,url):
    '''
    针对url地址进行全部爬去
    :param url: url地址
    :return: 返回爬去的内容
    '''
    header = {
      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
    }
    request = urllib2.Request(url, headers=header)
    response = urllib2.urlopen(request)
    html = response.read()
    return html
  def deal(self,html,page):
    '''
    对之前爬去的内容进行正则匹配，匹配出标题和正文内容
    :param html:之前爬去的内容
    :param page: 正在爬去的页码
    '''
    parrten=re.compile('<li class="piclist\d+">(.*?)</li>',re.S)
    titleList=parrten.findall(html)
    for title in titleList:
      parrten1=re.compile('<a href="/article/\d+.html" rel="external nofollow" >(.*)</a>')
      ti1=parrten1.findall(title)
      parrten2=re.compile('<div class="f18 mb20">(.*?)</div>',re.S)
      til2=parrten2.findall(title)
      for t in ti1:
        tr=t.replace("<b>","").replace("</b>","")
        self.writeData(tr,page)
      for t in til2:
        tr=t.replace("<p>","").replace("</p>","").replace("<br>","").replace("<br />","").replace("&ldquo","\"").replace("&rdquo","\"")
        self.writeData(tr,page)
  def writeData(self,context,page):
    '''
    将最终爬去的内容写入文件中
    :param context: 匹配好的内容
    :param page: 当前爬去的页码数
    '''
    fileName = "di" + str(page) + "yehtml.txt"
    with open(fileName, "a") as file:
      file.writelines(context + "\n")
if __name__ == '__main__':
  n=neihanba()
  n.spider()

爬取智联：

#encoding=utf-8
import urllib
import urllib2

import re


class zhiLian():
  def spider(self,position,workPlace):
    '''
    爬虫的主调度器
    :param position: 职位
    :param workPlace: 工作地点
    '''
    url="http://sou.zhaopin.com/jobs/searchresult.ashx?"
    url+=urllib.urlencode({"jl":workPlace})
    url+="&"
    url+=urllib.urlencode({"kw":position})
    isflow=True#是否进行下一页的爬去
    page=1
    while isflow:
      url+="&"+str(page)
      html=self.load(url)
      self.deal1(html,page)
      panduan = raw_input("是否继续爬虫下一页(y/n)!")
      if panduan == "y":
        isflow = True
        page += 1
      else:
        isflow = False
  def load(self,url):
    '''
    针对url地址进行全部爬去
    :param url: url地址
    :return: 返回爬去的内容
    '''
    header = {
      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
    }
    request = urllib2.Request(url, headers=header)
    response = urllib2.urlopen(request)
    html = response.read()
    return html
  def deal1(self,html,page):
    '''

    对之前爬去的内容进行正则匹配，匹配职位所对应的链接
    :param html:之前爬去的内容
    :param page: 正在爬去的页码
    '''
    parrten=re.compile('<a\s+style="font-weight:\s+bold"\s+par="ssidkey=y&ss=\d+&ff=\d+&sg=\w+&so=\d+"\s+href="(.*?)" rel="external nofollow" target="_blank">.*?</a>',re.S)
    til=parrten.findall(html)#爬去链接
    for t in til:
      self.deal2(t,page)
  def deal2(self,t,page):
    '''
    进行二次爬虫，然后在新的页面中对公司、薪资、工作经验进行匹配
    :param t: url地址
    :param page: 当前匹配的页数
    '''
    html=self.load(t)#返回二次爬虫的内容
    parrten1=re.compile('<a\s+onclick=".*?"\s+href=".*?" rel="external nofollow" \s+target="_blank">(.*?)\s+.*?<img\s+class=".*?"\s+src=".*?"\s+border="\d+"\s+vinfo=".*?"></a>',re.S)
    parrten2=re.compile('<li><span>职位月薪：</span><strong>(.*?) <a.*?>.*?</a></strong></li>',re.S)
    parrent3=re.compile('<li><span>工作经验：</span><strong>(.*?)</strong></li>',re.S)
    til1=parrten1.findall(html)
    til2=parrten2.findall(html)
    til3=parrent3.findall(html)
    str=""
    for t in til1:
      t=t.replace('<img title="专属页面" src="//img03.zhaopin.cn/2012/img/jobs/icon.png" border="0" />',"")
      str+=t
      str+="\t"
    for t in til2:
      str+=t
      str += "\t"
    for t in til3:
      str+=t
    self.writeData(str,page)
  def writeData(self,context,page):
    '''
    将最终爬去的内容写入文件中
    :param context: 匹配好的内容
     :param page: 当前爬去的页码数
    '''
    fileName = "di" + str(page) + "yehtml.txt"
    with open(fileName, "a") as file:
      file.writelines(context + "\n")
if __name__ == '__main__':
  position=raw_input("请输入职位：")
  workPlace=raw_input("请输入工作地点：")
  z=zhiLian()
  z.spider(position,workPlace)

爬取贴吧：

#encoding=utf-8
import urllib
import urllib2

import re


class teiba():
  def spider(self,name,startPage,endPage):
    url="http://tieba.baidu.com/f?ie=utf-8&"
    url+=urllib.urlencode({"kw":name})
    for page in range(startPage,endPage+1):
      pn=50*(page-1)
      urlFull=url+"&"+urllib.urlencode({"pn":pn})
      html=self.loadPage(url)
      self.dealPage(html,page)

  def loadPage(self,url):
    header={
      "User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
    }
    request=urllib2.Request(url,headers=header)
    response=urllib2.urlopen(request)
    html=response.read()
    return html
  def dealPage(self,html,page):
    partten=re.compile(r'<a\s+rel="noreferrer"\s+href="/p/\d+" rel="external nofollow" \s+title=".*?"\s+target="_blank" class="j_th_tit\s+">(.*?)</a>',re.S)
    titleList=partten.findall(html)
    rstr=r'<span\s+class="topic-tag"\s+data-name=".*?">#(.*?)#</span>'
    for title in titleList:
      title=re.sub(rstr,"",title)
      self.writePage(title,page)
  def writePage(self,context,page):
    fileName="di"+str(page)+"yehtml.txt"
    with open(fileName,"a") as file:
      file.writelines(context+"\n")
if __name__ == '__main__':
  name=raw_input("请输入贴吧名：")
  startPage=raw_input("请输入起始页：")
  endPage=raw_input("请输入终止页：")
  t=teiba()
  t.spider(name,int(startPage),int(endPage))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

三个python爬虫项目实例代码

- Author -

Pumpkin0227

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python模拟登陆Tom邮箱示例分享

Jan 13 Python

python通过colorama模块在控制台输出彩色文字的方法

Mar 19 Python

Python多线程下载文件的方法

Jul 10 Python

python从入门到精通（DAY 3）

Dec 20 Python

Flask框架工厂函数用法实例分析

May 25 Python

如何使用django的MTV开发模式返回一个网页

Jul 22 Python

Python学习笔记之Django创建第一个数据库模型的方法

Aug 07 Python

Python3 selenium 实现QQ群接龙自动化功能

Apr 17 Python

Django form表单与请求的生命周期步骤详解

Jun 07 Python

OpenCV利用python来实现图像的直方图均衡化

Oct 21 Python

M1芯片安装python3.9.1的实现

Feb 02 Python

Biblibili视频投稿接口分析并以Python实现自动投稿功能

Feb 05 Python

python scrapy重复执行实现代码详解

Dec 28 #Python

Python统计时间内的并发数代码实例

Dec 28 #Python

如何基于python实现脚本加密

Dec 28 #Python

python使用配置文件过程详解

Dec 28 #Python

python正则表达式匹配IP代码实例

Dec 28 #Python

python爬虫模拟浏览器访问-User-Agent过程解析

Dec 28 #Python

python爬虫添加请求头代码实例

Dec 28 #Python

You might like

漂亮但不安全的CTB

2006/10/09 PHP

php中自定义函数dump查看数组信息类似var_dump

2014/01/27 PHP

简单谈谈php中ob_flush和flush的区别

2014/11/27 PHP

WampServer下安装多个版本的PHP、mysql、apache图文教程

2015/01/07 PHP

Yii2框架实现数据库常用操作总结

2017/02/08 PHP

PHP获取表单数据与HTML嵌入PHP脚本的实现

2017/02/09 PHP

Jquery获得控件值的三种方法总结

2014/02/13 Javascript

js命名空间写法示例

2015/12/18 Javascript

分分钟玩转Vue.js组件（二）

2017/03/01 Javascript

vue实现简单表格组件实例详解

2017/04/16 Javascript

vue.js实现条件渲染的实例代码

2017/06/22 Javascript

vue+socket.io+express+mongodb 实现简易多房间在线群聊示例

2017/10/21 Javascript

详解vue-cli项目中的proxyTable跨域问题小结

2018/02/09 Javascript

一个因@click.stop引发的bug的解决

2019/01/08 Javascript

vue实现在线翻译功能

2019/09/27 Javascript

Postman如何实现参数化执行及断言处理

2020/07/28 Javascript

Python字符串中查找子串小技巧

2015/04/10 Python

讲解Python中if语句的嵌套用法

2015/05/14 Python

解读! Python在人工智能中的作用

2017/11/14 Python

python机器学习理论与实战（五）支持向量机

2018/01/19 Python

python实现Flappy Bird源码

2018/12/24 Python

python实现按首字母分类查找功能

2019/10/31 Python

Python-numpy实现灰度图像的分块和合并方式

2020/01/09 Python

解决django 向mysql中写入中文字符出错的问题

2020/05/18 Python

详解window.open被浏览器拦截的解决方案

2019/07/18 HTML / CSS

Sixt美国租车：高端豪华车型自驾体验

2017/09/02 全球购物

企业面试题试卷附带答案

2015/12/20 面试题

办护照工作证明范本

2014/01/14 职场文书

店面销售职位的职责

2014/03/09 职场文书

2014年端午节活动方案

2014/03/11 职场文书

董事长秘书工作职责

2014/06/10 职场文书

小学一年级数学教学计划

2015/01/20 职场文书

2015年元宵节活动总结

2015/02/06 职场文书

2015年司机年终工作总结

2015/05/14 职场文书

环保建议书作文500字

2015/09/14 职场文书

详解MySQL集群搭建

2021/05/26 MySQL