python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现发送email的几种常用方法
Aug 18 Python
python去除所有html标签的方法
May 05 Python
python处理按钮消息的实例详解
Jul 11 Python
pandas通过索引进行排序的示例
Nov 16 Python
Python根据当前日期取去年同星期日期
Apr 14 Python
Python读取xlsx文件的实现方法
Jul 04 Python
Python3.7安装keras和TensorFlow的教程图解
Jun 18 Python
python实现画循环圆
Nov 23 Python
用python求一重积分和二重积分的例子
Dec 06 Python
在服务器上安装python3.8.2环境的教程详解
Apr 26 Python
Python classmethod装饰器原理及用法解析
Oct 17 Python
OpenCV实现机器人对物体进行移动跟随的方法实例
Nov 09 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
PHP 数组实例说明
2008/08/18 PHP
ThinkPHP进程计数类Process用法实例详解
2015/09/25 PHP
PHP自定义图片缩放函数实现等比例不失真缩放的方法
2016/08/19 PHP
PHP实现微信商户支付企业付款到零钱功能
2018/09/30 PHP
用jscript实现新建和保存一个word文档
2007/06/15 Javascript
javascript的trim,ltrim,rtrim自定义函数
2008/09/21 Javascript
jquery蒙版控件实现代码
2010/12/08 Javascript
基于jquery的图片幻灯展示源码
2012/07/15 Javascript
JavaScript获取/更改文本框的值的实例代码
2013/08/02 Javascript
元素未显示设置width/height时IE中使用currentStyle获取为auto
2014/05/04 Javascript
Ajax清除浏览器js、css、图片缓存的方法
2015/08/06 Javascript
Bootstrap每天必学之基础排版
2015/11/20 Javascript
jQuery滚动加载图片实现原理
2015/12/14 Javascript
jQuery树形控件zTree使用小结
2016/08/02 Javascript
基于JS实现回到页面顶部的五种写法(从实现到增强)
2016/09/03 Javascript
JS拉起或下载app的实现代码
2017/02/22 Javascript
jQuery插件HighCharts绘制的2D堆柱状图效果示例【附demo源码下载】
2017/03/14 Javascript
HTML5+jQuery实现搜索智能匹配功能
2017/03/24 jQuery
Node.js调用fs.renameSync报错(Error: EXDEV, cross-device link not permitted)
2017/12/27 Javascript
如何手动实现es5中的bind方法详解
2018/12/07 Javascript
详解vuex的简单todolist例子
2019/07/14 Javascript
vue项目中定义全局变量、函数的几种方法
2019/11/08 Javascript
vue element table中自定义一些input的验证操作
2020/07/18 Javascript
JavaScript实现网页跨年倒计时
2020/12/02 Javascript
python thread 并发且顺序运行示例
2009/04/09 Python
python处理中文编码和判断编码示例
2014/02/26 Python
Python实现遍历数据库并获取key的值
2015/05/17 Python
详解Python中映射类型(字典)操作符的概念和使用
2015/08/19 Python
Python实现霍夫圆和椭圆变换代码详解
2018/01/12 Python
Opencv-Python图像透视变换cv2.warpPerspective的示例
2019/04/11 Python
python二维码操作:对QRCode和MyQR入门详解
2019/06/24 Python
调试Django时打印SQL语句的日志代码实例
2019/09/12 Python
详解如何修改jupyter notebook的默认目录和默认浏览器
2021/01/24 Python
毕业生求职的求职信
2013/12/05 职场文书
详解在OpenCV中如何使用图像像素
2022/03/03 Python
SpringBoot使用ip2region获取地理位置信息的方法
2022/06/21 Java/Android