Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
django接入新浪微博OAuth的方法
Jun 29 Python
在Python的Django框架中加载模版的方法
Jul 16 Python
基于pip install django失败时的解决方法
Jun 12 Python
基于scrapy的redis安装和配置方法
Jun 13 Python
使用tensorflow实现线性svm
Sep 07 Python
编写多线程Python服务器 最适合基础
Sep 14 Python
python使用装饰器作日志处理的方法
Jul 11 Python
wxPython+Matplotlib绘制折线图表
Nov 19 Python
django框架F&amp;Q 聚合与分组操作示例
Dec 12 Python
python3爬虫中多线程的优势总结
Nov 24 Python
Python初学者必备的文件读写指南
Jun 23 Python
Python利用FlashText算法实现替换字符串
Mar 31 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
php中用date函数获取当前时间有误的解决办法
2013/08/02 PHP
PHP二维数组排序的3种方法和自定义函数分享
2014/04/09 PHP
php生成带logo二维码方法小结
2016/04/08 PHP
js实现鼠标拖动图片并兼容IE/FF火狐/谷歌等主流浏览器
2013/06/06 Javascript
javascript实现点击按钮弹出一个可关闭层窗口同时网页背景变灰的方法
2015/05/13 Javascript
Highcharts 多个Y轴动态刷新数据的实现代码
2016/05/28 Javascript
AngularJS入门教程之Select(选择框)详解
2016/07/27 Javascript
Angular实现的简单查询天气预报功能示例
2017/12/27 Javascript
详解vue-cli中模拟数据的两种方法
2018/07/03 Javascript
浅谈在react中如何实现扫码枪输入
2018/07/04 Javascript
详解webpack4之splitchunksPlugin代码包分拆
2018/12/04 Javascript
layui实现把数据表格时间戳转换为时间格式的例子
2019/09/12 Javascript
Javascript操作select控件代码实例
2020/02/14 Javascript
js实现盒子移动动画效果
2020/08/09 Javascript
python中元类用法实例
2014/10/10 Python
Python使用wxPython实现计算器
2018/01/30 Python
Python处理菜单消息操作示例【基于win32ui模块】
2018/05/09 Python
浅谈Python脚本开头及导包注释自动添加方法
2018/10/27 Python
Django 开发环境与生产环境的区分详解
2019/07/26 Python
详解numpy.meshgrid()方法使用
2019/08/01 Python
pandas DataFrame创建方法的方式
2019/08/02 Python
Python基于pandas绘制散点图矩阵代码实例
2020/06/04 Python
python新手学习可变和不可变对象
2020/06/11 Python
python绘图pyecharts+pandas的使用详解
2020/12/13 Python
CSS3中currentColor关键字的妙用
2016/02/27 HTML / CSS
Bodum官网:咖啡和茶壶、玻璃器皿、厨房电器等
2018/08/01 全球购物
俄罗斯香水在线商店:AromaCode
2019/12/04 全球购物
给男朋友的道歉信
2014/01/12 职场文书
小学教研工作制度
2014/01/15 职场文书
小班秋游活动方案
2014/02/22 职场文书
2014教师“四风问题”对照检查材料思想汇报
2014/09/16 职场文书
升学宴学生致辞
2015/07/27 职场文书
2016年小学六一儿童节活动总结
2016/04/06 职场文书
pytorch 一行代码查看网络参数总量的实现
2021/05/12 Python
Java实现房屋出租系统详解
2021/10/05 Java/Android
24年收藏2000多部退役军用电台
2022/02/18 无线电