编程 Python

Python 爬虫学习笔记之单线程爬虫

Posted in Python onSeptember 21, 2016

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息（本爬虫仍是单线程爬虫），在开始介绍之前，先来看看结果示意图

Python 爬虫学习笔记之单线程爬虫

怎么样，是不是已经跃跃欲试了？首先让我们打开麦子学院的网址，然后找到麦子学院的全部课程信息，像下面这样

Python 爬虫学习笔记之单线程爬虫

这个时候进行翻页，观看网址的变化，首先，第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.maiziedu.com/course/list/all-all/0-3/ ，可以看到，每次翻一页，0后面的数字就会递增1，然后就有人会想到了，拿第一页呢？我们尝试着将 http://www.maiziedu.com/course/list/all-all/0-1/ 放进浏览器的地址栏，发现可以打开第一栏，那就好办了，我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后，下面要做的就是获取网页的源代码，首先右击查看审查或者是检查元素，就可以看到以下界面

Python 爬虫学习笔记之单线程爬虫

找到课程所在的位置以后，就可以很轻松的利用正则表达式将我们需要的内容提取出来，至于怎么提取，那就要靠你自己了，尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取，那么继续往下，看我的源代码吧

实战源代码

# coding=utf-8
 import re
 import requests
 import sys
 reload(sys)
 sys.setdefaultencoding("utf8")
 
 
 class spider():
   def __init__(self):
     print "开始爬取内容。。。"
 
    def changePage(self, url, total_page):
     nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
     pagegroup = []
 
     for i in range(nowpage, total_page + 1):
       link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
       pagegroup.append(link)
 
     return pagegroup
 
def getsource(self, url):
  html = requests.get(url)
  return html.text
 
def getclasses(self, source):
  classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
  return classes
 
def geteach(self, classes):
  eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
  return eachclasses
 
def getinfo(self, eachclass):
  info = {}
  info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1)
  info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1)
  return info
 
def saveinfo(self, classinfo):
  f = open('info.txt', 'a')
 
  for each in classinfo:
    f.writelines('title : ' + each['title'] + '\n')
    f.writelines('people : ' + each['people'] + '\n\n')
 
  f.close()
 
 
if __name__ == '__main__':
 
   classinfo = []
   url = 'http://www.maiziedu.com/course/list/all-all/0-1/'
   maizispider = spider()
   all_links = maizispider.changePage(url, 30)
   for each in all_links:
     htmlsources = maizispider.getsource(each)
     classes = maizispider.getclasses(htmlsources)
     eachclasses = maizispider.geteach(classes)
 
     for each in eachclasses:
       info = maizispider.getinfo(each)
       classinfo.append(info)
 
   maizispider.saveinfo(classinfo)

以上代码并不难懂，基本就是正则表达式的使用，然后直接运行就可以看到开头我们的截图内容了，由于这是单线程爬虫，所以运行速度感觉有点慢，接下来还会继续更新多线程爬虫。

应小伙伴们的要求，下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2：

python get-pip.py

安装到python3：

python3 get-pip.py

pip安装完成以后，安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3，python2可以直接用pip install requests.

入门例子

import requests

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html.encoding='utf-8'
print(html.text)

第一行引入requests库，第二行使用requests的get方法获取网页源代码，第三行设置编码格式，第四行文本输出。
把获取到的网页源代码保存到文本文件中：

import requests
import os

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html_file=open("news.txt","w")
html.encoding='utf-8'
print(html.text,file=html_file)

Python 爬虫学习笔记之单线程爬虫

- Author -

千里追风

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python threading多线程编程实例

Sep 18 Python

Python实现Linux命令xxd -i功能

Mar 06 Python

python实现斐波那契数列的方法示例

Jan 12 Python

Python读取图片为16进制表示简单代码

Jan 19 Python

Python模拟简单电梯调度算法示例

Aug 20 Python

在Python dataframe中出生日期转化为年龄的实现方法

Oct 20 Python

Python中is和==的区别详解

Nov 15 Python

Python3中编码与解码之Unicode与bytes的讲解

Feb 28 Python

flask框架配置mysql数据库操作详解

Nov 29 Python

基于python traceback实现异常的获取与处理

Dec 13 Python

django Model层常用验证器及自定义验证器详解

Jul 15 Python

Python 内存管理机制全面分析

Jan 16 Python

Python 爬虫学习笔记之正则表达式

Sep 21 #Python

Python简单实现安全开关文件的两种方式

Sep 19 #Python

Python打包可执行文件的方法详解

Sep 19 #Python

Python实现拷贝多个文件到同一目录的方法

Sep 19 #Python

利用Python画ROC曲线和AUC值计算

Sep 19 #Python

Python文件与文件夹常见基本操作总结

Sep 19 #Python

Python实现批量更换指定目录下文件扩展名的方法

Sep 19 #Python

You might like

这部好评如潮的动漫知名梗频出但是画风劝退很多人

2020/03/08 日漫

了解咖啡雨林联盟认证什么是雨林认证雨林认证是什么意思

2021/03/05 新手入门

MayFish PHP的MVC架构的开发框架

2009/08/13 PHP

PHP错误WARNING: SESSION_START() [FUNCTION.SESSION-START]解决方法

2014/05/04 PHP

php一维二维数组键排序方法实例总结

2014/11/13 PHP

WordPress中获取所使用的模板的页面ID的简单方法

2015/12/31 PHP

MAC下通过改apache配置文件切换php多版本的方法

2017/04/26 PHP

PHP登录验证功能示例【用户名、密码、验证码、数据库、已登陆验证、自动登录和注销登录等】

2019/02/25 PHP

九种js弹出对话框的方法总结

2013/03/12 Javascript

form表单中去掉默认的enter键提交并绑定js方法实现代码

2013/04/01 Javascript

jquery 扑捉回车键事件代码

2014/04/24 Javascript

jQuery如何获取同一个类标签的所有值(默认无法获取)

2014/09/25 Javascript

jQuery使用append在html元素后同时添加多项内容的方法

2015/03/26 Javascript

利用select实现年月日三级联动的日期选择效果【推荐】

2016/12/13 Javascript

Angularjs实现分页和分页算法的示例代码

2016/12/23 Javascript

jQuery事件与动画基础详解

2017/02/23 Javascript

浅谈node的事件机制

2017/10/09 Javascript

最新Javascript程序员面试试题和解题方法

2017/11/23 Javascript

Vue手把手教你撸一个 beforeEnter 钩子函数

2018/04/24 Javascript

Vue SSR 即时编译技术的实现

2020/05/06 Javascript

微信小程序自定义modal弹窗组件的方法详解

2020/12/20 Javascript

简单掌握Python中glob模块查找文件路径的用法

2016/07/05 Python

python实现给微信公众号发送消息的方法

2017/06/30 Python

Python 如何优雅的将数字转化为时间格式的方法

2019/09/26 Python

python 3.7.4 安装 opencv的教程

2019/10/10 Python

Numpy一维线性插值函数的用法

2020/04/22 Python

Python在centos7.6上安装python3.9的详细教程(默认python版本为2.7.5)

2020/10/15 Python

纯CSS3实现带动画效果导航菜单无需js

2013/09/27 HTML / CSS

计算机专业学生的自我评价

2013/12/15 职场文书

护理毕业生自荐信范文

2013/12/22 职场文书

银行职员自我鉴定

2014/04/20 职场文书

教师查摆问题自查报告

2014/10/11 职场文书

团代会开幕词

2015/01/28 职场文书

怎样评估创业计划书是否有可行性？

2019/08/07 职场文书

CSS的class与id常用的命名规则

2021/05/18 HTML / CSS

Sql Server 行数据的某列值想作为字段列显示的方法

2022/04/20 SQL Server