python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
Python实现提取文章摘要的方法
Apr 21 Python
详解Django缓存处理中Vary头部的使用
Jul 24 Python
Python3连接MySQL(pymysql)模拟转账实现代码
May 24 Python
使用python绘制常用的图表
Aug 27 Python
python实现逻辑回归的方法示例
May 02 Python
Flask Web开发入门之文件上传(八)
Aug 17 Python
对python创建及引用动态变量名的示例讲解
Nov 10 Python
python取余运算符知识点详解
Jun 27 Python
Python实现语音识别和语音合成功能
Sep 20 Python
如何将Pycharm中调整字体大小的方式设置为&quot;ctrl+鼠标滚轮上下滑&quot;
Nov 17 Python
在pycharm创建scrapy项目的实现步骤
Dec 01 Python
python 操作excel表格的方法
Dec 05 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
测试您的 PHP 水平的题目
2007/05/30 PHP
php日历制作代码分享
2014/01/20 PHP
在云虚拟主机部署thinkphp5项目的步骤详解
2017/12/21 PHP
prototype class详解
2006/09/07 Javascript
Jquery调用webService远程访问出错的解决方法
2010/05/21 Javascript
Js 获取Gridview选中行的内容操作步骤
2013/02/05 Javascript
JS测试显示屏分辨率以及屏幕尺寸的方法
2013/11/22 Javascript
JavaScript中的bold()方法使用详解
2015/06/08 Javascript
充分发挥Node.js程序性能的一些方法介绍
2015/06/23 Javascript
简单谈谈Javascript中类型的判断
2015/10/19 Javascript
基于javascript html5实现3D翻书特效
2016/03/14 Javascript
浅谈js基本数据类型和typeof
2016/08/09 Javascript
轻松掌握JavaScript装饰者模式
2016/08/27 Javascript
Node.js和Express简单入门介绍
2017/03/24 Javascript
使用JavaScript实现链表的数据结构的代码
2017/08/02 Javascript
vue2.0 axios跨域并渲染的问题解决方法
2018/03/08 Javascript
使用FileReader API创建Vue文件阅读器组件
2018/04/03 Javascript
Vue.js 实现微信公众号菜单编辑器功能(二)
2018/05/08 Javascript
JavaScript读写二进制数据的方法详解
2018/09/09 Javascript
通过vue刷新左侧菜单栏操作
2020/08/06 Javascript
在python plt图表中文字大小调节的方法
2019/07/08 Python
python圣诞树编写实例详解
2020/02/13 Python
利用matplotlib为图片上添加触发事件进行交互
2020/04/23 Python
浅谈keras2 predict和fit_generator的坑
2020/06/17 Python
python 根据列表批量下载网易云音乐的免费音乐
2020/12/03 Python
海外淘书首选:AbeBooks
2017/07/31 全球购物
校园新闻广播稿
2014/01/10 职场文书
2014年公司迎新年活动方案
2014/02/24 职场文书
农村面貌改造提升实施方案
2014/03/18 职场文书
购房意向书范本
2014/04/01 职场文书
财务情况说明书范文
2014/05/06 职场文书
蓬莱阁导游词
2015/02/04 职场文书
交通事故调解协议书
2015/05/20 职场文书
2015年公务员试用期工作总结
2015/05/28 职场文书
Mysql中存储引擎的区别及比较
2021/06/04 MySQL
Vertica集成Apache Hudi重磅使用指南
2022/03/31 Servers