编程 Python

python实现批量下载新浪博客的方法

Posted in Python onJune 15, 2015

本文实例讲述了python实现批量下载新浪博客的方法。分享给大家供大家参考。具体实现方法如下：

# coding=utf-8 
import urllib2
import sys, os
import re
import string
from BeautifulSoup import BeautifulSoup
def encode(s):
  return s.decode('utf-8').encode(sys.stdout.encoding, 'ignore')
def getHTML(url):
  #proxy_handler = urllib2.ProxyHandler({'http':'http://211.138.124.211:80'})
  #opener = urllib2.build_opener(proxy_handler)
  #urllib2.install_opener(opener)
  req = urllib2.Request(url)
  response = urllib2.urlopen(req, timeout=15)
  return BeautifulSoup(response, convertEntities=BeautifulSoup.HTML_ENTITIES)
def visible(element):
  '''抓取可见的文本元素'''
  if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
    return False
  elif re.match('<!--.*-->', str(element)):
    return False
  elif element == u'\xa0':
    return False
  return True
def delReturn(element):
  '''删除元素内的换行'''
  return re.sub('(?<!^)\n+(?!$)', ' ', str(element)).decode('utf-8')
def validFilename(filename):
  # windows
  return re.sub('[\/:*?<>"|\xa0]', '', filename)
def writeToFile(text, filename, dirname):
  if not os.path.exists(dirname):
    os.makedirs(dirname)
    print encode('保存到目录'), dirname
  filename = validFilename(filename)
  print encode('保存文章'), filename
  path = os.path.join(dirname, filename)
  if not os.path.exists(path):
    f = open(path, 'w')
    f.write(text)
    f.close()
  else:
    print filename, encode('已经存在')
def formatContent(url, title=''):
  '''格式化文章内容'''
  page = getHTML(url)
  content = page.find('div', {'class':'articalContent'})
  art_id = re.search('blog_(\w+)\.html', url).group(1)
  blog_name = page.find('span', id='blognamespan').string
  if title == '':
    title = page.find('h2', id=re.compile('^t_')).string
  temp_data = filter(visible, content.findAll(text=True)) # 去掉不可见元素
  temp_data = ''.join(map(delReturn, temp_data)) # 删除元素内的换行符
  temp_data = temp_data.strip() # 删除文章首尾的空行
  temp_data = re.sub('\n{2,}', '\n\n', temp_data) # 删除文章内过多的空行
  # 输出到文件
  # 编码问题
  temp_data = '本文地址:'.decode('utf-8') + url + '\n\n' + temp_data
  op_text = temp_data.encode('utf-8')
  op_file = title + '_' + art_id +'.txt'
  writeToFile(op_text, op_file, blog_name)
def articlelist(url):
  articles = {}
  page = getHTML(url)
  pages = page.find('ul', {'class':'SG_pages'}).span.string
  page_num = int(re.search('(\d+)', pages).group(1))
  for i in range(1, page_num+1):
    print encode('生成第%d页文章索引'%i)
    if i != 1:
      url = re.sub('(_)\d+(\.html)$', '\g<1>'+str(i)+'\g<2>', url)
      page = getHTML(url)
    article = page.findAll('span', {'class':'atc_title'})
    for art in article:
      art_title = art.a['title']
      art_href = art.a['href']
      articles[art_title] = art_href
  return articles
def blog_dld(articles):
  if not isinstance(articles, dict):
    return False
  print encode('开始下载文章')
  for art_title, art_href in articles.items():
    formatContent(art_href, art_title)
if __name__ == '__main__':
  sel = raw_input(encode('你要下载的是(1)全部文章还是(2)单篇文章，输入1或者2: '))
  if sel == '1':
    #articlelist_url = 'http://blog.sina.com.cn/s/articlelist_1303481411_0_1.html'
    articlelist_url = raw_input(encode('请输入博客文章目录链接: '))
    articles = articlelist(articlelist_url)
    blog_dld(articles)
  else:
    #article_url = 'http://blog.sina.com.cn/s/blog_4db18c430100gxc5.html'
    article_url = raw_input(encode('请输入博客文章链接: '))
    formatContent(article_url)

希望本文所述对大家的Python程序设计有所帮助。

python实现批量下载新浪博客的方法

- Author -

秋风秋雨

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django框架中render_to_response()函数的使用方法

Jul 16 Python

python更新列表的方法

Jul 28 Python

利用scrapy将爬到的数据保存到mysql（防止重复）

Mar 31 Python

Python多重继承的方法解析执行顺序实例分析

May 26 Python

python解决字符串倒序输出的问题

Jun 25 Python

python的常用模块之collections模块详解

Dec 06 Python

对Python的多进程锁的使用方法详解

Feb 18 Python

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

May 07 Python

详解Python3之数据指纹MD5校验与对比

Jun 11 Python

python的移位操作实现详解

Aug 21 Python

python构建指数平滑预测模型示例

Nov 21 Python

总结python多进程multiprocessing的相关知识

Jun 29 Python

深入理解Python中各种方法的运作原理

Jun 15 #Python

python字符串编码识别模块chardet简单应用

Jun 15 #Python

Python字符串格式化

Jun 15 #Python

Java中重定向输出流实现用文件记录程序日志

Jun 12 #Python

Python2中的raw_input() 与 input()

Jun 12 #Python

Windows下实现Python2和Python3两个版共存的方法

Jun 12 #Python

Python3中的2to3转换工具使用示例

Jun 12 #Python

You might like

解析php获取字符串的编码格式的方法(函数)

2013/06/21 PHP

Codeigniter框架的更新事务（transaction）BUG及解决方法

2014/07/25 PHP

codeigniter实现get分页的方法

2015/07/10 PHP

php5.5使用PHPMailer-5.2发送邮件的完整步骤

2018/10/14 PHP

PHP 实现重载

2021/03/09 PHP

js不是基础的基础

2006/12/24 Javascript

javascript globalStorage类代码

2009/06/04 Javascript

javascript 设计模式之单体模式面向对象学习基础

2010/04/18 Javascript

javascript下数值型比较难点说明

2010/06/07 Javascript

js实现网站首页图片滚动显示

2013/02/04 Javascript

基于OO的动画附加插件,可以实现弹跳、渐隐等动画效果分享

2013/06/24 Javascript

Knockout数组(observable)使用详解示例

2013/11/15 Javascript

JavaScript实现在数组中查找不同顺序排列的字符串

2014/09/26 Javascript

jquery 动态增加删除行的简单实例(推荐)

2016/10/12 Javascript

Vue + Webpack + Vue-loader学习教程之功能介绍篇

2017/03/14 Javascript

利用d3.js实现蜂巢图表带动画效果

2019/09/03 Javascript

如何在Node和浏览器控制台中打印彩色文字

2020/01/09 Javascript

nuxt+axios实现打包后动态修改请求地址的方法

2020/04/22 Javascript

Vue+Element UI 树形控件整合下拉功能菜单（tree + dropdown +input）

2020/08/28 Javascript

[02:40]DOTA2英雄基础教程炼金术士

2013/12/23 DOTA

[06:25]第二届DOTA2亚洲邀请赛主赛事第二天比赛集锦.mp4

2017/04/03 DOTA

python thrift搭建服务端和客户端测试程序

2018/01/17 Python

Python基础之字符串常见操作经典实例详解

2020/02/26 Python

python实现QQ邮箱发送邮件

2020/03/06 Python

HTML实现代码雨源码及效果示例

2020/02/25 HTML / CSS

Strawberrynet草莓网新加坡站：护肤、彩妆、香水及美发产品

2018/08/31 全球购物

大学生实习证明范本

2014/01/15 职场文书

生日寿宴答谢词

2014/01/19 职场文书

亲子活动总结

2014/04/26 职场文书

鉴定评语大全

2014/05/05 职场文书

红色故事演讲稿

2014/05/22 职场文书

幼儿园感恩节活动方案2014

2014/10/11 职场文书

婚礼新人答谢词

2015/01/04 职场文书

2015年关爱留守儿童工作总结

2015/05/22 职场文书

导游词之宁夏贺兰山岩画

2019/11/08 职场文书

Python+OpenCV实现图片中的圆形检测

2022/04/07 Python