编程 Python

使用python采集脚本之家电子书资源并自动下载到本地的实例脚本

Posted in Python onOctober 23, 2018

3water上面的资源还比较全，就准备用python来实现自动采集信息，与下载啦。

Python具有丰富和强大的库，使用urllib，re等就可以轻松开发出一个网络信息采集器！

下面，是我写的一个实例脚本，用来采集某技术网站的特定栏目的所有电子书资源，并下载到本地保存！

软件运行截图如下：

使用python采集脚本之家电子书资源并自动下载到本地的实例脚本

在脚本运行时期，不但会打印出信息到shell窗口，还会保存日志到txt文件，记录采集到的页面地址，书籍的名称，大小，服务器本地下载地址以及百度网盘的下载地址！

实例采集并下载三水点靠木的python栏目电子书资源：

# -*- coding:utf-8 -*-
import re
import urllib2
import urllib
import sys
import os
reload(sys)
sys.setdefaultencoding('utf-8')
def getHtml(url):
 request = urllib2.Request(url)
 page = urllib2.urlopen(request)
 htmlcontent = page.read()
 #解决中文乱码问题
 htmlcontent = htmlcontent.decode('gbk', 'ignore').encode("utf8",'ignore')
 return htmlcontent
def report(count, blockSize, totalSize):
 percent = int(count*blockSize*100/totalSize)
 sys.stdout.write("r%d%%" % percent + ' complete')
 sys.stdout.flush()
def getBookInfo(url):
 htmlcontent = getHtml(url);
 #print "htmlcontent=",htmlcontent; # you should see the ouput html
 #<h1 class="h1user">crifan</h1>
 regex_title = '<h1s+?itemprop="name">(?P<title>.+?)</h1>';
 title = re.search(regex_title, htmlcontent);
 if(title):
 title = title.group("title");
 print "书籍名字:",title;
 file_object.write('书籍名字:'+title+'r');
 #<li>书籍大小：<span itemprop="fileSize">27.2MB</span></li>
 filesize = re.search('<spans+?itemprop="fileSize">(?P<filesize>.+?)</span>', htmlcontent);
 if(filesize):
 filesize = filesize.group("filesize");
 print "文件大小:",filesize;
 file_object.write('文件大小:'+filesize+'r');
 #<div class="picthumb"><a href="//img.jbzj.com/do/uploads/litimg/151210/1A9262GO2.jpg" target="_blank"
 bookimg = re.search('<divs+?class="picthumb"><a href="(?P<bookimg>.+?)" rel="external nofollow" target="_blank"', htmlcontent);
 if(bookimg):
 bookimg = bookimg.group("bookimg");
 print "封面图片：",bookimg;
 file_object.write('封面图片:'+bookimg+'r');
 #<li><a href="http://xz6.3water.com:81/201512/books/JavaWeb100(3water.com).rar" target="_blank">酷云中国电信下载</a></li>
 downurl1 = re.search('<li><a href="(?P<downurl1>.+?)" rel="external nofollow" target="_blank">酷云中国电信下载</a></li>', htmlcontent);
 if(downurl1):
 downurl1 = downurl1.group("downurl1");
 print "下载地址1:",downurl1; 
 file_object.write('下载地址1:'+downurl1+'r');
 sys.stdout.write('rFetching ' + title + '...n')
 title = title.replace(' ', '');
 title = title.replace('/', '');
 saveFile = '/Users/superl/Desktop/pythonbook/'+title+'.rar';
 if os.path.exists(saveFile):
 print "该文件已经下载了！";
 else:
 urllib.urlretrieve(downurl1, saveFile, reporthook=report);
 sys.stdout.write("rDownload complete, saved as %s" % (saveFile) + 'nn')
 sys.stdout.flush()
 file_object.write('文件下载成功!r');
 else:
 print "下载地址1不存在";
 file_error.write(url+'r');
 file_error.write(title+"下载地址1不存在!文件没有自动下载！r");
 file_error.write('r');
 #<li><a href="http://pan.baidu.com/s/1pKfVNwJ" rel="external nofollow" target="_blank">百度网盘下载2</a></li>
 downurl2 = re.search('</a></li><li><a href="(?P<downurl2>.+?)" rel="external nofollow" target="_blank">百度网盘下载2</a></li>', htmlcontent);
 if(downurl2):
 downurl2 = downurl2.group("downurl2");
 print "下载地址2:",downurl2; 
 file_object.write('下载地址2:'+downurl2+'r');
 else:
 #file_error.write(url+'r');
 print "下载地址2不存在"; 
 file_error.write(title+"下载地址2不存在r");
 file_error.write('r');
 file_object.write('r');
 print "n";
def getBooksUrl(url):
 htmlcontent = getHtml(url);
 #<ul class="cur-cat-list"><a href="/books/438381.html" rel="external nofollow" class="tit"</ul></div><!--end #content -->
 urls = re.findall('<a href="(?P<urls>.+?)" rel="external nofollow" class="tit"', htmlcontent);
 for url in urls:
 url = "//3water.com"+url;
 print url+"n";
 file_object.write(url+'r');
 getBookInfo(url)
 #print "url->", url
if __name__=="__main__":
 file_object = open('/Users/superl/Desktop/python.txt','w+');
 file_error = open('/Users/superl/Desktop/pythonerror.txt','w+');
 pagenum = 3;
 for pagevalue in range(1,pagenum+1):
 listurl = "//3water.com/ books/list476_%d.html"%pagevalue;
 print listurl;
 file_object.write(listurl+'r');
 getBooksUrl(listurl);
 file_object.close();
 file_error.close();

注意，上面代码部分地方的url被我换了。

总结

以上所述是小编给大家介绍的python采集3water电子书资源并自动下载到本地实例脚本，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

使用python采集脚本之家电子书资源并自动下载到本地的实例脚本

- Author -

忘忧草论坛

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中requests使用代理proxies方法介绍

Oct 25 Python

使用 Python 实现简单的 switch/case 语句的方法

Sep 17 Python

解决python中遇到字典里key值为None的情况,取不出来的问题

Oct 17 Python

python实现H2O中的随机森林算法介绍及其项目实战

Aug 29 Python

python中web框架的自定义创建

Sep 08 Python

python3下pygame如何实现显示中文

Jan 11 Python

Jupyter打开图形界面并画出正弦函数图像实例

Apr 24 Python

浅谈python 调用open()打开文件时路径出错的原因

Jun 05 Python

解析Tensorflow之MNIST的使用

Jun 30 Python

pycharm 关闭search everywhere的解决操作

Jan 15 Python

Python提取PDF指定内容并生成新文件

Jun 09 Python

Python 类,对象,数据分类,函数参数传递详解

Sep 25 Python

Python读取mat文件,并保存为pickle格式的方法

Oct 23 #Python

Python读取系统文件夹内所有文件并统计数量的方法

Oct 23 #Python

Python实现按逗号分隔列表的方法

Oct 23 #Python

Python解析Excle文件中的数据方法

Oct 23 #Python

使用python对excle和json互相转换的示例

Oct 23 #Python

Python实现将Excel转换成为image的方法

Oct 23 #Python

python pandas实现excel转为html格式的方法

Oct 23 #Python

You might like

关于我转生变成史莱姆这档事：第二季PV上线，萌王2021年回归

2020/05/06 日漫

php getsiteurl()函数

2009/09/05 PHP

使用YUI+Ant 实现JS CSS压缩

2014/09/02 PHP

php根据地址获取百度地图经纬度的实例方法

2019/09/03 PHP

Windows服务器中PHP如何安装redis扩展

2019/09/27 PHP

JavaScript中Object和Function的关系小结

2009/09/26 Javascript

js 页面传参数时参数值含特殊字符的问题

2009/12/13 Javascript

用jquery实现学校的校历(asp.net+jquery ui 1.72)

2010/01/01 Javascript

jQuery实现单行文字间歇向上滚动源代码

2013/06/02 Javascript

非常好用的JsonToString 方法简单实例

2013/07/18 Javascript

javascript event在FF和IE的兼容传参心得(绝对好用)

2014/07/10 Javascript

javascript动态创建及删除元素的方法

2014/12/22 Javascript

JS烟花背景效果实现方法

2015/03/03 Javascript

jQuery on()方法使用技巧详解

2015/04/16 Javascript

javascript元素动态创建实现方法

2015/05/13 Javascript

JS实现超简单的仿QQ折叠菜单效果

2015/09/21 Javascript

浅谈JS读取DOM对象(标签)的自定义属性

2016/11/21 Javascript

JS和canvas实现俄罗斯方块

2017/03/14 Javascript

JavaScript requestAnimationFrame动画详解

2017/09/14 Javascript

vue+element-ui+ajax实现一个表格的实例

2018/03/09 Javascript

Vue CLI3 如何支持less的方法示例

2018/08/29 Javascript

webpack dll打包重复问题优化的解决

2018/10/10 Javascript

微信小程序开发之map地图组件定位并手动修改位置偏差

2019/08/17 Javascript

小程序双头slider选择器的实现示例

2020/03/31 Javascript

Python自定义函数的创建、调用和函数的参数详解

2014/03/11 Python

Python简单日志处理类分享

2015/02/14 Python

使用python编写监听端

2018/04/12 Python

python 多线程死锁问题的解决方案

2020/08/25 Python

国际知名军事风格休闲装品牌：Alpha Industries（阿尔法工业）

2017/05/24 全球购物

网吧收银员岗位职责

2013/12/14 职场文书

生物医学工程专业学生求职信范文分享

2013/12/14 职场文书

《生命的药方》教学反思

2014/04/08 职场文书

镇人大副主席民主生活会对照检查材料思想汇报

2014/10/01 职场文书

2014年企业党支部工作总结

2014/12/04 职场文书

优秀班主任推荐材料

2014/12/17 职场文书

动作冒险《Hell Is Us》将采用虚幻5 消灭怪物探索王国

2022/04/13 其他游戏