python爬虫beautifulsoup解析html方法


Posted in Python onDecember 07, 2020

用BeautifulSoup 解析html和xml字符串

python爬虫beautifulsoup解析html方法

实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import re

#待分析字符串
html_doc = """
<html>
<head>
  <title>The Dormouse's story</title>
</head>
<body>
<p class="title aq">
  <b>
    The Dormouse's story
  </b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
  <a href="http://example.com/elsie" rel="external nofollow" class="sister" id="link1">Elsie</a>,
  <a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2">Lacie</a> 
  and
  <a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
  and they lived at the bottom of a well.
</p>

<p class="story">...</p>
"""


# html字符串创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

#输出第一个 title 标签
print soup.title

#输出第一个 title 标签的标签名称
print soup.title.name

#输出第一个 title 标签的包含内容
print soup.title.string

#输出第一个 title 标签的父标签的标签名称
print soup.title.parent.name

#输出第一个 p 标签
print soup.p

#输出第一个 p 标签的 class 属性内容
print soup.p['class']

#输出第一个 a 标签的 href 属性内容
print soup.a['href']
'''
soup的属性可以被添加,删除或修改. 再说一次, soup的属性操作方法与字典一样
'''
#修改第一个 a 标签的href属性为 http://www.baidu.com/
soup.a['href'] = 'http://www.baidu.com/'

#给第一个 a 标签添加 name 属性
soup.a['name'] = u'百度'

#删除第一个 a 标签的 class 属性为
del soup.a['class']

##输出第一个 p 标签的所有子节点
print soup.p.contents

#输出第一个 a 标签
print soup.a

#输出所有的 a 标签,以列表形式显示
print soup.find_all('a')

#输出第一个 id 属性等于 link3 的 a 标签
print soup.find(id="link3")

#获取所有文字内容
print(soup.get_text())

#输出第一个 a 标签的所有属性信息
print soup.a.attrs


for link in soup.find_all('a'):
  #获取 link 的 href 属性内容
  print(link.get('href'))

#对soup.p的子节点进行循环输出  
for child in soup.p.children:
  print(child)

#正则匹配,名字中带有b的标签
for tag in soup.find_all(re.compile("b")):
  print(tag.name)

爬虫设计思路:

python爬虫beautifulsoup解析html方法

详细手册:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

到此这篇关于python爬虫beautifulsoup解析html方法 的文章就介绍到这了,更多相关beautifulsoup解析html内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python三元运算符实现方法
Dec 17 Python
python list转dict示例分享
Jan 28 Python
python异步任务队列示例
Apr 01 Python
Python 字典dict使用介绍
Nov 30 Python
python实现TCP服务器端与客户端的方法详解
Apr 30 Python
python实现网站的模拟登录
Jan 04 Python
浅谈Python中带_的变量或函数命名
Dec 04 Python
详解用TensorFlow实现逻辑回归算法
May 02 Python
一行代码让 Python 的运行速度提高100倍
Oct 08 Python
python找出完数的方法
Nov 12 Python
Python 使用指定的网卡发送HTTP请求的实例
Aug 21 Python
基于Python中isfile函数和isdir函数使用详解
Nov 29 Python
python可视化 matplotlib画图使用colorbar工具自定义颜色
Dec 07 #Python
用ldap作为django后端用户登录验证的实现
Dec 07 #Python
Django中使用Celery的方法步骤
Dec 07 #Python
python集合的新增元素方法整理
Dec 07 #Python
python进行二次方程式计算的实例讲解
Dec 06 #Python
paramiko使用tail实时获取服务器的日志输出详解
Dec 06 #Python
python中二分查找法的实现方法
Dec 06 #Python
You might like
php+iframe实现隐藏无刷新上传文件
2012/02/10 PHP
基于curl数据采集之单页面采集函数get_html的使用
2013/04/28 PHP
解决Laravel5.x的php artisan migrate数据库迁移创建操作报错SQLSTATE[42000]
2020/04/06 PHP
用js实现控制内容的向上向下滚动效果
2007/06/26 Javascript
js 判断 enter 事件
2009/02/12 Javascript
跨浏览器开发经验总结(四) 怎么写入剪贴板
2010/05/13 Javascript
css值转换成数值请抛弃parseInt
2011/10/24 Javascript
关于JavaScript中原型继承中的一点思考
2012/07/25 Javascript
HTML Color Picker(js拾色器效果)
2013/08/27 Javascript
以Python代码实例展示kNN算法的实际运用
2015/10/26 Javascript
深入探究AngularJS框架中Scope对象的超级教程
2016/01/04 Javascript
全面解析JavaScript里的循环方法之forEach,for-in,for-of
2020/04/20 Javascript
项目实践一图片上传之form表单还是base64前端图片压缩(前端图片压缩)
2016/07/28 Javascript
JS对HTML表格进行增删改操作
2016/08/22 Javascript
详解Web使用webpack构建前端项目
2017/09/23 Javascript
Vue+jquery实现表格指定列的文字收缩的示例代码
2018/01/09 jQuery
微信小程序实现简易table表格
2020/06/19 Javascript
Vue render函数实战之实现tabs选项卡组件
2019/04/22 Javascript
JS实现在线ps功能详解
2019/07/31 Javascript
[59:35]DOTA2上海特级锦标赛主赛事日 - 3 败者组第三轮#1COL VS Alliance第二局
2016/03/04 DOTA
Python入门篇之字典
2014/10/17 Python
python微信公众号之关注公众号自动回复
2018/10/25 Python
Python数据预处理之数据规范化(归一化)示例
2019/01/08 Python
解决Django Static内容不能加载显示的问题
2019/07/28 Python
详解Python Opencv和PIL读取图像文件的差别
2019/12/27 Python
LookFantastic丹麦:英国美容护肤精品在线商城
2016/08/18 全球购物
Parts Express:音频、视频和扬声器的第一来源
2017/04/25 全球购物
泰国演唱会订票网站:StubHub泰国
2018/02/26 全球购物
苏格兰销售女装、男装和童装的连锁店:M&Co
2018/03/16 全球购物
公务员培训心得体会
2013/12/28 职场文书
艺校音乐专业自我鉴定范文
2014/03/01 职场文书
教师四风问题整改措施
2014/09/25 职场文书
2014年个人工作总结报告
2014/11/27 职场文书
2015年教师学期工作总结
2015/04/30 职场文书
开展警示教育活动总结
2015/05/09 职场文书
2016年第二十五次全国助残日活动总结
2016/04/01 职场文书