Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析


Posted in Python onAugust 15, 2019

前言

要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。

什么是Beautiful Soup

  • Beautiful Soup是一款高效的Python网页解析分析工具,可以用于解析HTL和XML文件并从中提取数据。
  • Beautiful Soup输入文件的默认编码是Unicode,输出文件的编码是UTF-8。
  • Beautiful Soup具有将输入文件自动补全的功能,如果输入的HTML文件的title标签没有闭合,则在输出的文件中会自动补全</title>,并且还可以将格式混乱的输入文件按照标准的缩进格式输出。

Beautiful Soup要和其他的解析器搭配使用,例如Python标准库中的HTML解析器和其他第三方的lxml解析器,由于lxml解析器速度快、容错能力强,因此一般和Beautiful Soup搭配使用。

初始化Beautiful Soup对象的代码:

html = 
'''
<html><title>Hello Beautiful Soup</title><p>Hello</p></html>
'''
soup = BeautifulSoup(html,'lxml')

只需把第二个参数写成”lxml”即可使用lxml解析器初始化Beautiful Soup对象。

Beautiful Soup提供了三种选择器用去爬取节点中的数据,分别是节点选择器、方法选择器和CSS选择器。下面分别介绍着三个选择器的用法。

节点选择器:

HTML网页有title、p、a、head、tr、td等节点。通过Beautiful Soup对象+”.”+节点即可直接访问到节点。 Beautiful Soup对象+”.”+节点+”.”+string即可提取到节点的文本信息。

用法 描述
soup.title 选择第一个title节点
soup.title.string 提取第一个title节点的文本信息
soup.title.attrs 获取第一个title节点的所有属性,返回的结果的词典。 如果有class属性,则class属性返回的是list,class属性之间以空格当做分隔符
soup.p.contents 获取第一个p节点的所有直接子节点。 该方法返回的是第一个p节点中包含的所有直接子字节点和文本, 不包含孙节点,两个节点之间的文本也当做是一个节点返回。 返回的结果是列表
soup.p.children 返回第一个p节点的所有直接子节点,返回的结果是list_iterator对象
soup.p.descendants 获取第一个p节点的所有子孙节点
soup.a.parent 获取第一个a节点的父节点
soup.a.parents 获取第一个a节点的所有祖先节点
soup.p.next_siblings 获取第一个p节点的下一个兄弟节点
soup.p.previous_siblings 获取第一个p节点的上一个兄弟节点

方法选择器:

根据传入的参数查找符合条件的节点。 下面是方法选择器提供的方法:

方法 描述
find_all(name,attrs,recursive,text,**kwargs) 根据传入参数查找所有符合条件的节点, name是节点名,attrs属性值,text文本内容等。 text参数可以是字符串,也可以是正则表达式: soup.find_all(text=re.compile(‘test'))
find(name,attrs,recursive,text,**kwargs) 返回第一个符合条件的节点
find_parents() 返回所有祖先节点
find_parent() 返回父节点
find_next_siblings() 往后查找,所有兄弟节点
find_next_sibling() 往后查找,返回第一个兄弟节点
find_previous_siblings() 往前查找,返回所有兄弟节点
find_previous_sibling() 往前查找,返回第一个兄弟节点

在使用上面的方法时,如果参数中有Python的关键字,则需要在参数下面加一个下划线,例如下面的代码,class是Python的关键字,必须在class后加下划线class_=”title_class”:

from bs4 import BeautifulSoup
html = '''
<html>
  <body>
    <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
    <p>
      <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
      
    </p>
    <ul>
      <li class="animal">cat</li>
      <li class="animal">dog</li>
    </ul>
  </body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print(soup.find_all(name='title',class_='title_class'))

CSS选择器:

BeautifulSoup还支持获取css元素,例如ul、div、li等元素。CSS选择器主要提供select()方法获取符合条件的节点(Tag对象),然后通过节点的get_text()方法和text属性可以获取该节点的文本值。

select方法还可以根据css的样式规则选择相应的节点:

from bs4 import BeautifulSoup

html = '''
<html>
  <body>
    <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
    <p>
      <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
      
    </p>
    <ul class="animal" id="aninal_id">
      <li class="cat">cat</li>
      <li class="animal dog">dog</li>
    </ul>
    <ul class="fruit" id = "fruit_id">
      <li class="apple">apple</li>
      <li class="banana">banana</li>
    </ul>
  </body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print('获取id为title_的所有节点')
print(soup.select('#title_id'))
print('获取class为title_的所有节点')
print(soup.select('.title_class'))
print('获取所有ul节点下面的所有li节点')
print(soup.select('ul li'))
print('获取所有class为fruit节点下的所有li节点')
print(soup.select('.fruit li'))
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].string)
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].get_text())
print('获取所有class为fruit节点下的第一个li节点的class属性值,注意class属性返回的是list列表,属性之间用空格分隔')
print(soup.select('.fruit li')[0].attrs['class'])
print(soup.select('.animal li')[1].attrs['class'])
print('循环迭代所有ul下面的所有li节点的文本值')
for li in soup.select('ul li'):
  print(li.text)

下面使用Beautiful Soup爬取豆瓣音乐排行榜。 在浏览器中打开豆瓣音乐排行榜,打开浏览器,输入网址:https://music.douban.com/chart,我们要抓取的是每首歌曲的排名、歌曲名、演唱者、播放次数、上榜天数等数据。

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

下面分析怎么通过beautiful soup抓取到我们的数据。 通过开发者工具,我们可以看到所有歌曲是在class为article的div中,然后每首个在class为clearfix的li中。

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

因此首先使用css选择器获取到class为article下面的所有li节点:

soup.select(".article li")

然后查看每首歌曲的html代码:

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

红色框部分是一首歌的html代码。 歌曲排名在class为“gree-num-box”的span节点中,因为span节点是<li class="clearfix">节点的子节点,获取排名的代码为:li.span.text

绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href']

蓝色框中是歌曲的名字、演唱者和播放次数,歌曲名是在class=”icon-play”的H3节点中,因此可以使用方法选择器中的find()方法获取到H3节点,然后获取H3节点下面a节点中的文本信息就是歌曲的名字,代码为:li.find(class_="icon-play").a.text

获取演唱者和播放次数的代码为: li.find(class_="intro").p.text.strip()

获取上榜天数的代码为:

li.find(class_="days").text.strip()

在豆瓣音乐排行榜的页面一个现实20首歌曲,前面10首歌曲会有图片,后面10首歌曲是没有图片的,因此后面10首歌曲将不获取图片的地址。

另外还有一点需要注意的是,后面10首歌曲的演唱者和播放次数是在class=”icon-play”的p节点中:

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

而该节点中有a节点,要想获取a节点外的信息,必须使用节点选择器的contents方法: li.find(class_="intro").p.contents[2].strip() contents返回的是p节点的直接子节点,以列表的形式返回,这里返回列表中有3个元素,分别是<p>后的字符串,a节点、演唱者/播次数。contents会将直接子节点之间的换行符也当做一个元素。 代码整理后如下:

# coding:utf-8

from bs4 import BeautifulSoup
import requests
def parseHtml(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}

  response = requests.get(url,headers=headers)
  soup = BeautifulSoup(response.text,'lxml')
  #使用css选择器获取class="article"的节点下面的所有li节点
  for index,li in enumerate(soup.select(".article li")):
    if(index <10):
      print('歌曲排名:' + li.span.text)
      print('歌曲链接:' + li.a['href'])
      print('歌曲名:' + li.find(class_="icon-play").a.text)#使用方法选择器
      print('演唱者/播放次数:' + li.find(class_="intro").p.text.strip())
      print('上榜时间:'+li.find(class_="days").text.strip())
    else:
      print('歌曲排名:' + li.span.text)
      print('歌曲名:' + li.find(class_="icon-play").a.text)
      print('演唱者/播放次数:' + li.find(class_="intro").p.contents[2].strip())#方法选择器和节点选择器搭配使用
      print('上榜时间:' + li.find(class_="days").text.strip())
    print('—————————————————强力分隔符———————————————————')

def main():
  url = "https://music.douban.com/chart"
  parseHtml(url)

if __name__ == '__main__':
  main()

本文通过爬取豆瓣音乐排行榜的小项目学习了如何使用Beautiful Soup的节点选择器、方法选择器、CSS选择器来爬取一个网页。这三个选择器可以混合搭配使用。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3中bytes类型转换为str类型
Sep 27 Python
python使用Plotly绘图工具绘制气泡图
Apr 01 Python
Django认证系统实现的web页面实现代码
Aug 12 Python
Django 返回json数据的实现示例
Mar 05 Python
基于FME使用Python过程图解
May 13 Python
pycharm中使用request和Pytest进行接口测试的方法
Jul 31 Python
解决Django响应JsonResponse返回json格式数据报错问题
Aug 09 Python
Python通过fnmatch模块实现文件名匹配
Sep 30 Python
Python hashlib模块的使用示例
Oct 09 Python
python3美化表格数据输出结果的实现代码
Apr 14 Python
发工资啦!教你用Python实现邮箱自动群发工资条
May 10 Python
使用Python的开发框架Brownie部署以太坊智能合约
May 28 Python
解析python的局部变量和全局变量
Aug 15 #Python
python实现的自动发送消息功能详解
Aug 15 #Python
python调用支付宝支付接口流程
Aug 15 #Python
Python使用字典实现的简单记事本功能示例
Aug 15 #Python
Flask框架学习笔记之模板操作实例详解
Aug 15 #Python
Flask框架学习笔记之消息提示与异常处理操作详解
Aug 15 #Python
python打造爬虫代理池过程解析
Aug 15 #Python
You might like
PHP计算2点经纬度之间的距离代码
2013/08/12 PHP
PHP实现今天是星期几的几种写法
2013/09/26 PHP
php伪静态之APACHE篇
2014/06/02 PHP
深入理解PHP之源码目录结构与功能说明
2016/06/01 PHP
php 实现301重定向跳转实例代码
2016/07/18 PHP
删除PHP数组中头部、尾部、任意元素的实现代码
2017/04/10 PHP
php递归函数怎么用才有效
2018/02/24 PHP
PHP sdk实现在线打包代码示例
2020/12/09 PHP
javascript打开新窗口同时关闭旧窗口
2009/01/16 Javascript
Ajax+Json 级联菜单实现代码
2009/10/27 Javascript
JS实现模仿微博发布效果实例代码
2013/12/16 Javascript
jQuery实现简易的天天爱消除小游戏
2015/10/16 Javascript
this,this,再次讨论javascript中的this,超全面(经典)
2016/01/05 Javascript
通过node-mysql搭建Windows+Node.js+MySQL环境的教程
2016/03/01 Javascript
jQuery 调用WebService 实例讲解
2016/06/28 Javascript
Google 地图获取API Key详细教程
2016/08/06 Javascript
Vue.js系列之项目搭建(1)
2017/01/03 Javascript
微信小程序  TLS 版本必须大于等于1.2问题解决
2017/02/22 Javascript
fckeditor部署到weblogic出现xml无法读取及样式不能显示问题的解决方法
2017/03/24 Javascript
JS运动改变单物体透明度的方法分析
2018/01/23 Javascript
详解刷新页面vuex数据不消失和不跳转页面的解决
2018/01/30 Javascript
js嵌套的数组扁平化:将多维数组变成一维数组以及push()与concat()区别的讲解
2019/01/19 Javascript
vue element和nuxt的使用技巧分享
2021/01/14 Vue.js
Python检测QQ在线状态的方法
2015/05/09 Python
Python2中文处理纪要的实现方法
2018/03/10 Python
关于Python中的向量相加和numpy中的向量相加效率对比
2019/08/26 Python
python实现矩阵和array数组之间的转换
2019/11/29 Python
python网络编程:socketserver的基本使用方法实例分析
2020/04/09 Python
Python常用库Numpy进行矩阵运算详解
2020/07/21 Python
python中pyplot基础图标函数整理
2020/11/10 Python
高级护理专业大学生求职信
2013/10/24 职场文书
商场促销活动方案
2014/02/08 职场文书
法院个人总结
2015/03/03 职场文书
少先大队干部竞选稿
2015/11/20 职场文书
Pillow图像处理库安装及使用
2022/04/12 Python
修改Nginx配置返回指定content-type的方法
2022/09/23 Servers