python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的with...as用法介绍
May 28 Python
Windows平台Python连接sqlite3数据库的方法分析
Jul 12 Python
python如何对实例属性进行类型检查
Mar 20 Python
python selenium 弹出框处理的实现
Feb 26 Python
Python 窗体(tkinter)按钮 位置实例
Jun 13 Python
python绘制已知点的坐标的直线实例
Jul 04 Python
Python 实现毫秒级淘宝抢购脚本的示例代码
Sep 16 Python
Python While循环语句实例演示及原理解析
Jan 03 Python
Python如何通过Flask-Mail发送电子邮件
Jan 29 Python
pandas分批读取大数据集教程
Jun 06 Python
python3实现Dijkstra算法最短路径的实现
May 12 Python
linux中nohup和后台运行进程查看及终止
Jun 24 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
提升PHP执行速度全攻略(下)
2006/10/09 PHP
php中在PDO中使用事务(Transaction)
2011/05/14 PHP
详解PHP实现异步调用的4种方法
2016/03/14 PHP
mysql desc(DESCRIBE)命令实例讲解
2016/09/24 PHP
javascript 写类方式之四
2009/07/05 Javascript
Firebug入门指南(Firefox浏览器)
2010/08/21 Javascript
js鼠标滑过弹出层的定位IE6bug解决办法
2012/12/26 Javascript
JavaScript中的console.time()函数详细介绍
2014/12/29 Javascript
详细解读JavaScript编程中的Promise使用
2015/07/27 Javascript
针对初学者的jQuery入门指南
2015/08/15 Javascript
详解Node.js包的工程目录与NPM包管理器的使用
2016/02/16 Javascript
JavaScript代码实现左右上下自动晃动自动移动
2016/04/08 Javascript
JS跨域解决方案之使用CORS实现跨域
2016/04/14 Javascript
jQuery中的一些常见方法小结(推荐)
2016/06/13 Javascript
浅谈移动端之js touch事件 手势滑动事件
2016/11/07 Javascript
angularjs中的$eval方法详解
2017/04/24 Javascript
Vue中封装input组件的实例详解
2017/10/17 Javascript
Angularjs过滤器实现动态搜索与排序功能示例
2017/12/13 Javascript
详解性能更优越的小程序图片懒加载方式
2018/07/18 Javascript
JavaScript折半查找(二分查找)算法原理与实现方法示例
2018/08/06 Javascript
uni-app微信小程序登录并使用vuex存储登录状态的思路详解
2019/11/04 Javascript
vue将文件/图片批量打包下载zip的教程
2020/10/21 Javascript
Python开发如何在ubuntu 15.10 上配置vim
2016/01/25 Python
python接口自动化(十七)--Json 数据处理---一次爬坑记(详解)
2019/04/18 Python
Python 字符串、列表、元组的截取与切片操作示例
2019/09/17 Python
详解python tkinter 图片插入问题
2020/09/03 Python
公司门卫管理制度
2014/02/01 职场文书
城市精细化管理实施方案
2014/03/04 职场文书
缓刑人员思想汇报
2014/10/11 职场文书
2015年教研工作总结
2015/05/23 职场文书
python OpenCV学习笔记
2021/03/31 Python
MySQL和Oracle批量插入SQL的通用写法示例
2021/11/17 MySQL
使用CSS设置滚动条样式
2022/01/18 HTML / CSS
SQL Server内存机制浅探
2022/04/06 SQL Server
详解SQL的窗口函数
2022/04/21 Oracle
python和C/C++混合编程之使用ctypes调用 C/C++的dll
2022/04/29 Python