python&MongoDB爬取图书馆借阅记录


Posted in Python onFebruary 05, 2016

直接上需求和代码
首先是需要爬取的链接和网页:http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC

python&MongoDB爬取图书馆借阅记录

登陆进去之后进入我的账号——借阅、预约及申请记录——借阅历史就可以看到所要爬取的内容

python&MongoDB爬取图书馆借阅记录

然后将借阅历史中的题名、著者、借阅日期、归还日期、索书号存入Mongodb数据库中,以上便是这次爬虫的需求。

下面开始:

各软件版本为:

  • python 2.7.11
  • MongoDb 3.2.1
  • Pycharm 5.0.4
  • MongoDb Management Studio 1.9.3
  • 360极速浏览器 懒得查了

一、登陆模块
python中的登陆一般都是用urllib和urllib2这两个模块,首先我们要查看网页的源代码:
<form name="loginform" method="post" action="/uhtbin/cgisirsi/?ps=nPdFje4RP9/理工大学馆/125620449/303">
<!--  Copyright (c) 2004, Sirsi Corporation - myProfile login or view myFavorites -->
<!--  Copyright (c) 1998 - 2003, Sirsi Corporation - Sets the default values for USER_ID, ALT_ID, and PIN prompts. - The USER_ID, ALT_ID, and PIN page variables will be returned. -->

<!-- If the user has not logged in, first try to default to the ID based on the IP address - the $UO and $Uf will be set.  If that fails, then default to the IDs in the config file. If the user has already logged in, default to the logged in user's IDs, unless the user is a shared login. -->

 

      <!-- only user ID is used if both on -->
        <div class="user_name">
            <label for="user_id">借阅证号码:</label>
            <input class="user_name_input" type="text" name="user_id" id="user_id"  maxlength="20" value=""/>
        </div>
   
    
        <div class="password">
            <label for="password">个人密码:</label>
            <input class="password_input" type="password" name="password" id="password"  maxlength="20" value=""/>
        </div> 
   
    
    <input type="submit" value="用户登录" class="login_button"/>
查找网页中的form表单中的action,方法为post,但是随后我们发现,该网页中的action地址不是一定的,是随机变化的,刷新一下就变成了下面这样子的:
 <form name="loginform" method="post" action="/uhtbin/cgisirsi/?ps=1Nimt5K1Lt/理工大学馆/202330426/303">
我们可以看到/?ps到/之间的字符串是随机变化的(加粗部分),于是我们需要用到另一个模块——BeautifulSoup实时获取该链接:
url = "http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC"
   res = urllib2.urlopen(url).read()
    soup = BeautifulSoup(res, "html.parser")
login_url = "http://211.81.31.34" + soup.findAll("form")[1]['action'].encode("utf8")
之后就可以正常使用urllib和urllib来模拟登陆了,下面列举一下BeautifulSoup的常用方法,之后的HTML解析需要:

1.soup.contents 该属性可以将tag的子节点以列表的方式输出

2.soup.children 通过tag的.children生成器,可以对tag的子节点进行循环

3.soup.parent 获取某个元素的父节点

4.soup.find_all(name,attrs,recursive,text,**kwargs) 搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

5.soup.find_all("a",class="xx") 按CSS搜索

6.find(name,attrs,recursive,text,**kwargs) 可以通过limit和find_all区分开

二、解析所获得的HTML

先看看需求中的HTML的特点:
<tbody id="tblSuspensions">
<!-- OCLN changed Listcode to Le to support charge history -->
     <!-- SIRSI_List Listcode="LN" -->

     <tr>
       <td class="accountstyle" align="left">
          <!-- SIRSI_Conditional IF List_DC_Exists="IB" AND NOT List_DC_Comp="IB^" -->
<!-- Start title here -->
 <!-- Title -->
            做人要低调,说话要幽默 孙郡铠编著
        </td>
       <td class="accountstyle author" align="left">
          <!-- Author -->
            孙郡铠 编著
        </td>
       <td class="accountstyle due_date" align="center">
          <!-- Date Charged -->
            2015/9/10,16:16
       </td>
        <td class="accountstyle due_date" align="left">
        <!-- Date Returned -->
            2015/9/23,15:15
        </td>

        <td class="accountstyle author" align="center">
          <!-- Call Number -->
            B821-49/S65
        </td>

      </tr>

     <tr>
       <td class="accountstyle" align="left">
          <!-- SIRSI_Conditional IF List_DC_Exists="IB" AND NOT List_DC_Comp="IB^" -->
<!-- Start title here -->
 <!-- Title -->
            我用一生去寻找 潘石屹的人生哲学 潘石屹著
        </td>
       <td class="accountstyle author" align="left">
          <!-- Author -->
            潘石屹, 1963- 著
        </td>
       <td class="accountstyle due_date" align="center">
          <!-- Date Charged -->
            2015/9/10,16:16
       </td>
        <td class="accountstyle due_date" align="left">
        <!-- Date Returned -->
            2015/9/25,15:23
        </td>

        <td class="accountstyle author" align="center">
          <!-- Call Number -->
            B821-49/P89
        </td>

      </tr>
由所有代码,注意这行:

<tbody id="tblSuspensions">
该标签表示下面的内容将是借阅书籍的相关信息,我们采用遍历该网页所有子节点的方法获得id="tblSuspensions"的内容:
   for i, k in enumerate(BeautifulSoup(detail, "html.parser").find(id='tblSuspensions').children):
     # print i,k
        if isinstance(k, element.Tag):
             bookhtml.append(k)
                # print type(k)
三、提取所需要的内容

这一步比较简单,bs4中的BeautifulSoup可以轻易的提取:
for i in bookhtml:
                # p
                # rint i
                name = i.find(class_="accountstyle").getText()
                author = i.find(class_="accountstyle author", align="left").getText()
                Date_Charged = i.find(class_="accountstyle due_date", align="center").getText()
                Date_Returned = i.find(class_="accountstyle due_date", align="left").getText()
                bookid = i.find(class_="accountstyle author", align="center").getText()
                bookinfo.append(
                    [name.strip(), author.strip(), Date_Charged.strip(), Date_Returned.strip(), bookid.strip()])
这一步采用getText()的方法将text中内容提取出来;strip()方法是去掉前后空格,同时可以保留之间的空格,比如:s="   a a  ",使用s.strip()之后即为"a a"

四、连接数据库
据说NoSQL以后会很流行,随后采用了Mongodb数据库图图新鲜,结果一折腾真是烦,具体安装方法在上一篇日记中记载了。
1.导入python连接Mongodb的模块

import pymongo
2.创建python和Mongodb的链接:
# connection database
conn = pymongo.MongoClient("mongodb://root:root@localhost:27017")
db = conn.book
collection = db.book
3.将获得的内容保存到数据库:
user = {"_id": xuehao_ben,
                        "Bookname": name.strip(),
                        "Author": author.strip(),
                        "Rent_Day": Date_Charged.strip(),
                        "Return_Day": Date_Returned.strip()}
                j += 1
                collection.insert(user)
上面基本完成了,但是爬虫做到这个没有意义,重点在下面

五、获取全校学生的借阅记录

我们学校的图书馆的密码都是一样的,应该没有人闲得无聊改密码,甚至没有人用过这个网站去查询自己的借阅记录,所以,做个循环,就可以轻易的获取到全校的借阅记录了,然后并没有那么简单,str(0001)强制将int变成string,但是在cmd的python中是报错的(在1位置),在pycharm前面三个0是忽略的,只能用傻瓜式的四个for循环了。好了,下面是所有代码:
# encoding=utf8
import urllib2
import urllib
import pymongo
import socket

from bs4 import BeautifulSoup
from bs4 import element

# connection database
conn = pymongo.MongoClient("mongodb://root:root@localhost:27017")
db = conn.book
collection = db.book

# 循环开始
def xunhuan(xuehao):
    try:
        socket.setdefaulttimeout(60)
        s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        s.bind(("127.0.0.1", 80))
        url = "http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC"
        res = urllib2.urlopen(url).read()
        soup = BeautifulSoup(res, "html.parser")
        login_url = "http://211.81.31.34" + soup.findAll("form")[1]['action'].encode("utf8")
        params = {
            "user_id": "账号前缀你猜你猜" + xuehao,
            "password": "密码你猜猜"
        }
        print params
        params = urllib.urlencode(params)
        req = urllib2.Request(login_url, params)
        lianjie = urllib2.urlopen(req)
        # print lianjie
        jieyue_res = lianjie.read()
        # print jieyue_res     首页的HTML代码
        houmian = BeautifulSoup(jieyue_res, "html.parser").find_all('a', class_='rootbar')[1]['href']
        # print houmian
        houmian = urllib.quote(houmian.encode('utf8'))
        url_myaccount = "http://211.81.31.34" + houmian
        # print url_myaccount
        # print urllib.urlencode(BeautifulSoup(jieyue_res, "html.parser").find_all('a',class_ = 'rootbar')[0]['href'])

        lianjie2 = urllib.urlopen(url_myaccount)
        myaccounthtml = lianjie2.read()
        detail_url = ''
        # print (BeautifulSoup(myaccounthtml).find_all('ul',class_='gatelist_table')[0]).children
        print "连接完成,开始爬取数据"
        for i in (BeautifulSoup(myaccounthtml, "html.parser").find_all('ul', class_='gatelist_table')[0]).children:
            if isinstance(i, element.NavigableString):
                continue
            for ii in i.children:
                detail_url = ii['href']
            break
        detail_url = "http://211.81.31.34" + urllib.quote(detail_url.encode('utf8'))
        detail = urllib.urlopen(detail_url).read()
        # print detail
        bookhtml = []
        bookinfo = []

        # 解决没有借书
        try:
            for i, k in enumerate(BeautifulSoup(detail, "html.parser").find(id='tblSuspensions').children):
                # print i,k
                if isinstance(k, element.Tag):
                    bookhtml.append(k)
                    # print type(k)
            print "look here!!!"
            j = 1
            for i in bookhtml:
                # p
                # rint i
                name = i.find(class_="accountstyle").getText()
                author = i.find(class_="accountstyle author", align="left").getText()
                Date_Charged = i.find(class_="accountstyle due_date", align="center").getText()
                Date_Returned = i.find(class_="accountstyle due_date", align="left").getText()
                bookid = i.find(class_="accountstyle author", align="center").getText()
                bookinfo.append(
                    [name.strip(), author.strip(), Date_Charged.strip(), Date_Returned.strip(), bookid.strip()])
                xuehao_ben = str(xuehao) + str("_") + str(j)
                user = {"_id": xuehao_ben,
                        "Bookname": name.strip(),
                        "Author": author.strip(),
                        "Rent_Day": Date_Charged.strip(),
                        "Return_Day": Date_Returned.strip()}
                j += 1
                collection.insert(user)
        except Exception, ee:
            print ee
            print "此人没有借过书"
            user = {"_id": xuehao,
                    "Bookname": "此人",
                    "Author": "没有",
                    "Rent_Day": "借过",
                    "Return_Day": "书"}
            collection.insert(user)

        print "********" + str(xuehao) + "_Finish"+"**********"
    except Exception, e:
        s.close()
        print e
        print "socket超时,重新运行"
        xunhuan(xuehao)

# with contextlib.closing(urllib.urlopen(req)) as A:
#    print A
#   print xuehao
# print req

for i1 in range(0, 6):
    for i2 in range(0, 9):
        for i3 in range(0, 9):
            for i4 in range(0, 9):
                xueha = str(i1) + str(i2) + str(i3) + str(i4)
                chushi = '0000'
                if chushi == xueha:
                    print "=======爬虫开始=========="
                else:
                    print xueha + "begin"
                    xunhuan(xueha)

conn.close()
print "End!!!"
下面是Mongodb Management Studio的显示内容(部分):

 python&amp;MongoDB爬取图书馆借阅记录

 

总结:这次爬虫遇到了很多问题,问了很多人,但是最终效果还不是很理想,虽然用了try except语句,但是还是会报错10060,连接超时(我只能质疑学校的服务器了TT),还有就是,你可以看到数据库中列的顺序不一样=。=这个我暂时未理解,希望大家可以给出解决方法。

以上就是本文的全部内容,希望对大家的学习有所帮助。

Python 相关文章推荐
Python输出PowerPoint(ppt)文件中全部文字信息的方法
Apr 28 Python
VSCode下配置python调试运行环境的方法
Apr 06 Python
PyCharm安装第三方库如Requests的图文教程
May 18 Python
python 移除字符串尾部的数字方法
Jul 17 Python
Python将文本去空格并保存到txt文件中的实例
Jul 24 Python
Django框架视图层URL映射与反向解析实例分析
Jul 29 Python
python根据时间获取周数代码实例
Sep 30 Python
python:解析requests返回的response(json格式)说明
Apr 30 Python
python进度条显示-tqmd模块的实现示例
Aug 23 Python
python 实现&quot;神经衰弱&quot;翻牌游戏
Nov 09 Python
Tensorflow与RNN、双向LSTM等的踩坑记录及解决
May 31 Python
Python 操作pdf pdfplumber读取PDF写入Exce
Aug 14 Python
Python中常用操作字符串的函数与方法总结
Feb 04 #Python
Python中的字符串类型基本知识学习教程
Feb 04 #Python
Python的math模块中的常用数学函数整理
Feb 04 #Python
详解Python编程中基本的数学计算使用
Feb 04 #Python
Python连接mysql数据库的正确姿势
Feb 03 #Python
Python内建数据结构详解
Feb 03 #Python
Python解析树及树的遍历
Feb 03 #Python
You might like
thinkphp使用phpmailer发送邮件的方法
2014/11/24 PHP
浅析PHP关键词替换的类(避免重复替换,保留与还原原始链接)
2015/09/22 PHP
django中的ajax组件教程详解
2018/10/18 PHP
解决Laravel5.2 Auth认证退出失效的问题
2019/10/14 PHP
javascript显示选择目录对话框的代码
2008/11/10 Javascript
JS操作select下拉框动态变动(创建/删除/获取)
2013/06/02 Javascript
jquery 滚动条事件简单实例
2013/07/12 Javascript
往光标所在位置插入值的js代码
2013/09/22 Javascript
js实现通用的微信分享组件示例
2014/03/10 Javascript
JS判断网页广告是否被浏览器拦截过滤的代码
2015/04/05 Javascript
JS实现的幻灯片切换显示效果
2016/09/07 Javascript
javascript获取以及设置光标位置
2017/02/16 Javascript
JavaScript中双向数据绑定详解
2017/05/03 Javascript
js案例之鼠标跟随jquery版(实例讲解)
2017/07/21 jQuery
angular $watch 一个变量的变化(实例讲解)
2017/08/02 Javascript
详解使用mpvue开发github小程序总结
2018/07/25 Javascript
python发送HTTP请求的方法小结
2015/07/08 Python
python的Crypto模块实现AES加密实例代码
2018/01/22 Python
Python MySQLdb 使用utf-8 编码插入中文数据问题
2018/03/13 Python
python中使用ctypes调用so传参设置遇到的问题及解决方法
2019/06/19 Python
Windows下pycharm安装第三方库失败(通用解决方案)
2020/09/17 Python
pycharm + django跨域无提示的解决方法
2020/12/06 Python
使用html5 canvas 画时钟代码实例分享
2015/11/11 HTML / CSS
Luxplus瑞典:香水和美容护理折扣
2018/01/28 全球购物
Omio波兰:全欧洲低价大巴、火车和航班搜索和比价
2018/02/16 全球购物
日本最大的购物网站乐天市场国际版:Rakuten Global Market(支持中文)
2020/02/03 全球购物
向全球直邮输送天然健康产品:iHerb.com
2020/05/03 全球购物
凌阳科技股份有限公司C++程序员面试题笔试题
2014/11/20 面试题
2014年自我评价
2014/01/04 职场文书
公司新年寄语
2014/04/04 职场文书
大学毕业生自我评价
2015/03/02 职场文书
2015年初一班主任工作总结
2015/05/13 职场文书
未婚证明范本
2015/06/15 职场文书
小学生禁毒教育心得体会
2016/01/15 职场文书
为什么阅读对所有年龄段的孩子都很重要?
2019/07/08 职场文书
python非标准时间的转换
2021/07/25 Python