编程 Python

python使用xslt提取网页数据的方法

Posted in Python onFebruary 23, 2018

1、引言

在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分，实验了用xslt方式一次性提取静态网页内容并转换成xml格式。

2、用lxml库实现网页内容提取

lxml是python的一个库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

这2天测试了在python中通过xslt来提取网页内容，记录如下：

2.1、抓取目标

假设要提取集搜客官网旧版论坛的帖子标题和回复数，如下图，要把整个列表提取出来，存成xml格式

python使用xslt提取网页数据的方法

2.2、源代码1：只抓当前页，结果显示在控制台

Python的优势是用很少量代码就能解决一个问题，请注意下面的代码看起来很长，其实python函数调用没有几个，大篇幅被一个xslt脚本占去了，在这段代码中，只是一个好长的字符串而已，至于为什么选择xslt，而不是离散的xpath或者让人挠头的正则表达式，请参看《Python即时网络爬虫项目启动说明》，我们期望通过这个架构，把程序员的时间节省下来一大半。
可以拷贝运行下面的代码(在windows10， python3.2下测试通过)：

from urllib import request 
from lxml import etree 
url="http://www.gooseeker.com/cn/forum/7" 
conn = request.urlopen(url) 
 
doc = etree.HTML(conn.read()) 
 
xslt_root = etree.XML("""\ 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > 
<xsl:template match="/"> 
<列表> 
<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> 
</列表> 
</xsl:template> 
 
<xsl:template match="table/tbody/tr[position()>=1]" mode="list"> 
<item> 
<标题> 
<xsl:value-of select="*//*[@class='topic']/a/text()"/> 
<xsl:value-of select="*[@class='topic']/a/text()"/> 
<xsl:if test="@class='topic'"> 
<xsl:value-of select="a/text()"/> 
</xsl:if> 
</标题> 
<回复数> 
<xsl:value-of select="*//*[@class='replies']/text()"/> 
<xsl:value-of select="*[@class='replies']/text()"/> 
<xsl:if test="@class='replies'"> 
<xsl:value-of select="text()"/> 
</xsl:if> 
</回复数> 
</item> 
</xsl:template> 
 
<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> 
<item> 
<list> 
<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> 
</list> 
</item> 
</xsl:template> 
</xsl:stylesheet>""") 
 
transform = etree.XSLT(xslt_root) 
result_tree = transform(doc) 
print(result_tree)

源代码请通过本文结尾的GitHub源下载。

2.3、抓取结果

得到的抓取结果如下图：

python使用xslt提取网页数据的方法

2.4、源代码2：翻页抓取，结果存入文件

我们对2.2的代码再做进一步修改，增加翻页抓取和存结果文件功能，代码如下：

from urllib import request 
from lxml import etree 
import time 
 
xslt_root = etree.XML("""\ 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > 
<xsl:template match="/"> 
<列表> 
<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> 
</列表> 
</xsl:template> 
 
<xsl:template match="table/tbody/tr[position()>=1]" mode="list"> 
<item> 
<标题> 
<xsl:value-of select="*//*[@class='topic']/a/text()"/> 
<xsl:value-of select="*[@class='topic']/a/text()"/> 
<xsl:if test="@class='topic'"> 
<xsl:value-of select="a/text()"/> 
</xsl:if> 
</标题> 
<回复数> 
<xsl:value-of select="*//*[@class='replies']/text()"/> 
<xsl:value-of select="*[@class='replies']/text()"/> 
<xsl:if test="@class='replies'"> 
<xsl:value-of select="text()"/> 
</xsl:if> 
</回复数> 
</item> 
</xsl:template> 
 
<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> 
<item> 
<list> 
<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> 
</list> 
</item> 
</xsl:template> 
</xsl:stylesheet>""") 
 
baseurl = "http://www.gooseeker.com/cn/forum/7" 
basefilebegin = "jsk_bbs_" 
basefileend = ".xml" 
count = 1 
while (count < 12): 
  url = baseurl + "?page=" + str(count) 
  conn = request.urlopen(url) 
  doc = etree.HTML(conn.read()) 
  transform = etree.XSLT(xslt_root) 
  result_tree = transform(doc) 
  print(str(result_tree)) 
  file_obj = open(basefilebegin+str(count)+basefileend,'w',encoding='UTF-8') 
  file_obj.write(str(result_tree)) 
  file_obj.close() 
  count += 1 
  time.sleep(2)

我们增加了写文件的代码，还增加了一个循环，构造每个翻页的网址，但是，如果翻页过程中网址总是不变怎么办？其实这就是动态网页内容，下面会讨论这个问题。

3、总结

这是开源Python通用爬虫项目的验证过程，在一个爬虫框架里面，其它部分都容易做成通用的，就是网页内容提取和转换成结构化的操作难于通用，我们称之为提取器。但是，借助GooSeeker可视化提取规则生成器MS谋数台，提取器的生成过程将变得很便捷，而且可以标准化插入，从而实现通用爬虫，在后续的文章中会专门讲解MS谋数台与Python配合的具体方法。

4、接下来阅读

本文介绍的方法通常用来抓取静态网页内容，也就是所谓的html文档中的内容，目前很多网站内容是用javascript动态生成的，一开始html是没有这些内容的，通过后加载方式添加进来，那么就需要采用动态技术，请阅读《Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》

5、集搜客GooSeeker开源代码下载源

1.GooSeeker开源Python网络爬虫GitHub源

6、文档修改历史

2016-05-26：V2.0，增补文字说明；把跟帖的代码补充了进来

2016-05-29：V2.1，增加最后一章源代码下载源

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python使用xslt提取网页数据的方法

- Author -

fullerhua

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python MySQLdb Windows下安装教程及问题解决方法

May 09 Python

Python中List.count()方法的使用教程

May 20 Python

Python爬虫实战：分析《战狼2》豆瓣影评

Mar 26 Python

Python 打印中文字符的三种方法

Aug 14 Python

想学python 这5本书籍你必看！

Dec 11 Python

Pycharm之快速定位到某行快捷键的方法

Jan 20 Python

python如何实现视频转代码视频

Jun 17 Python

python画图的函数用法以及技巧

Jun 28 Python

详解Matplotlib绘图之属性设置

Aug 23 Python

在Ubuntu中安装并配置Pycharm教程的实现方法

Jan 06 Python

python实现简单的井字棋游戏(gui界面)

Jan 22 Python

Python-typing: 类型标注与支持 Any类型详解

May 10 Python

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Feb 23 #Python

python爬虫获取多页天涯帖子

Feb 23 #Python

Python即时网络爬虫项目启动说明详解

Feb 23 #Python

Python爬豆瓣电影实例

Feb 23 #Python

Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

Feb 23 #Python

Python各类图像库的图片读写方式总结(推荐)

Feb 23 #Python

python自动发邮件库yagmail的示例代码

Feb 23 #Python

You might like

通过html表格发电子邮件

2006/10/09 PHP

php 清除网页病毒的方法

2008/12/05 PHP

来自phpguru得Php Cache类源码

2010/04/15 PHP

PHP下通过file_get_contents的代理使用方法

2011/02/16 PHP

PHP递归遍历多维数组实现无限分类的方法

2016/05/06 PHP

Laravel 5.3 学习笔记之安装

2016/08/28 PHP

PHP函数引用返回的实例详解

2016/09/11 PHP

PHP中数组转换为SimpleXML教程

2019/01/27 PHP

php pdo连接数据库操作示例

2019/11/18 PHP

JQquery的一些使用心得分享

2012/08/01 Javascript

js 使用form表单select类实现级联菜单效果

2012/12/19 Javascript

GRID拖拽行的实例代码

2013/07/18 Javascript

jQuery插件uploadify实现ajax效果的图片上传

2016/06/18 Javascript

react-router实现按需加载

2017/05/09 Javascript

Angular.js指令学习中一些重要属性的用法教程

2017/05/24 Javascript

微信小程序自定义模态对话框实例详解

2017/08/16 Javascript

vue基于element的区间选择组件

2018/09/07 Javascript

微信小程序自定义可滑动日历界面

2018/12/28 Javascript

angularjs实现table表格td单元格单击变输入框/可编辑状态示例

2019/02/21 Javascript

JavaScript HTML DOM元素节点操作汇总

2019/07/29 Javascript

Python的__builtin__模块中的一些要点知识

2015/05/02 Python

python实现下载文件的三种方法

2017/02/09 Python

使用python读取csv文件快速插入数据库的实例

2018/06/21 Python

flask中的wtforms使用方法

2018/07/21 Python

Python实现FM算法解析

2019/06/18 Python

python 实现PIL模块在图片画线写字

2020/05/16 Python

Python 跨.py文件调用自定义函数说明

2020/06/01 Python

H5仿微信界面教程(一)

2017/07/05 HTML / CSS

美国著名的团购网站：Woot

2016/08/02 全球购物

美国首屈一指的礼品篮供应商：GiftTree

2018/01/06 全球购物

美国亚马逊旗下男装网站：East Dane（支持中文）

2019/09/25 全球购物

工程专业毕业生自荐信范文

2013/12/25 职场文书

团委书记的竞聘演讲稿

2014/04/24 职场文书

幼儿园老师新年寄语2015

2014/12/08 职场文书

捐助感谢信

2015/01/22 职场文书

婚礼答谢词范文

2015/09/29 职场文书