python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
Fiddler如何抓取手机APP数据包
Jan 22 Python
Python 实现随机数详解及实例代码
Apr 15 Python
python实现单线程多任务非阻塞TCP服务端
Jun 13 Python
Python中Scrapy爬虫图片处理详解
Nov 29 Python
更换Django默认的模板引擎为jinja2的实现方法
May 28 Python
python3编写ThinkPHP命令执行Getshell的方法
Feb 26 Python
Python3中urlencode和urldecode的用法详解
Jul 23 Python
windows10环境下用anaconda和VScode配置的图文教程
Mar 30 Python
python 实现图片修复(可用于去水印)
Nov 19 Python
总结python 三种常见的内存泄漏场景
Nov 20 Python
OpenCV灰度化之后图片为绿色的解决
Dec 01 Python
Python中的xlrd模块使用整理
Jun 15 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
摩卡咖啡
2021/03/03 咖啡文化
php 计算两个时间戳相隔的时间的函数(小时)
2009/12/18 PHP
php 5.3.5安装memcache注意事项小结
2011/04/12 PHP
php字符编码转换之gb2312转为utf8
2013/10/28 PHP
Thinkphp中Create方法深入探究
2014/06/16 PHP
ThinkPHP上使用多说评论插件的方法
2014/10/31 PHP
PHP代码实现表单数据验证类
2015/07/28 PHP
PHP计算日期相差天数实例分析
2016/02/23 PHP
Zend Framework实现多服务器共享SESSION数据的方法
2016/03/22 PHP
php 使用expat方式解析xml文件操作示例
2019/11/26 PHP
屏蔽鼠标右键、Ctrl+n、shift+F10、F5刷新、退格键 的javascript代码
2007/04/01 Javascript
IE浏览器打印的页眉页脚设置解决方法
2009/12/08 Javascript
用jquery实现等比例缩放图片效果插件
2010/07/24 Javascript
通过jquery的$.getJSON做一个跨域ajax请求试验
2011/05/03 Javascript
$.get获取一个文件的内容示例代码
2013/09/11 Javascript
javascript基于HTML5 canvas制作画箭头组件
2014/06/25 Javascript
bootstrap基本配置_动力节点Java学院整理
2017/07/14 Javascript
浅谈Vue2.0中v-for迭代语法的变化(key、index)
2018/03/06 Javascript
搭建一个Koa后端项目脚手架的方法步骤
2019/05/30 Javascript
通过实例讲解JS如何防抖动
2019/06/15 Javascript
JavaScript Event Loop相关原理解析
2020/06/10 Javascript
Vue使用axios引起的后台session不同操作
2020/08/14 Javascript
如何使用JS console.log()技巧提高工作效率
2020/10/14 Javascript
[19:54]夜魇凡尔赛茶话会 第一期02:看图识人
2021/03/11 DOTA
Python3实现Web网页图片下载
2016/01/28 Python
matplotlib 纵坐标轴显示数据值的实例
2018/05/25 Python
详解python的变量缓存机制
2021/01/24 Python
CSS3让登陆面板3D旋转起来
2016/05/03 HTML / CSS
html5简介及新增功能介绍
2020/05/18 HTML / CSS
电子商务专业实习生自我鉴定
2013/09/24 职场文书
自我鉴定四大框架
2014/01/17 职场文书
出生公证书样本
2014/04/04 职场文书
个人查摆问题自查报告
2014/10/16 职场文书
综合办公室岗位职责
2015/04/11 职场文书
经费申请报告范文
2015/05/18 职场文书
教师岗位说明书
2015/09/30 职场文书