Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python列表list内建函数用法实例分析【insert、remove、index、pop等】
Jul 24 Python
速记Python布尔值
Nov 09 Python
详解基于django实现的webssh简单例子
Jul 17 Python
Python制作动态字符图的实例
Jan 27 Python
Django REST framework 分页的实现代码
Jun 19 Python
xadmin使用formfield_for_dbfield函数过滤下拉表单实例
Apr 07 Python
Django+Celery实现动态配置定时任务的方法示例
May 26 Python
Keras框架中的epoch、bacth、batch size、iteration使用介绍
Jun 10 Python
Python虚拟环境的创建和使用详解
Sep 07 Python
python3实现飞机大战
Nov 29 Python
python实现进度条的多种实现
Apr 29 Python
Python提取PDF指定内容并生成新文件
Jun 09 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
php缩放图片(根据宽高的等比例缩放)实例介绍
2013/06/09 PHP
标准PHP的AES加密算法类
2015/03/12 PHP
阿里云PHP SMS短信服务验证码发送方法
2017/07/11 PHP
TP(thinkPHP)框架多层控制器和多级控制器的使用示例
2018/06/13 PHP
通过$(this)使用jQuery包装后的方法或属性
2014/05/18 Javascript
express的中间件cookieParser详解
2014/12/04 Javascript
jQuery插件实现大图全屏图片相册
2015/03/14 Javascript
jQuery与getJson结合的用法实例
2015/08/07 Javascript
基于Jquery和html5实现炫酷的3D焦点图动画
2016/03/02 Javascript
利用Jasmine对Angular进行单元测试的方法详解
2017/06/12 Javascript
这样回答继承可能面试官更满意
2019/12/10 Javascript
[51:00]Secret vs VGJ.S 2018国际邀请赛淘汰赛BO3 第一场 8.24
2018/08/25 DOTA
python使用cookie库操保存cookie详解
2014/03/03 Python
安装Python的web.py框架并从hello world开始编程
2015/04/25 Python
Python实现删除文件但保留指定文件
2015/06/21 Python
基于Django模板中的数字自增(详解)
2017/09/05 Python
Python读写/追加excel文件Demo分享
2018/05/03 Python
Python使用分布式锁的代码演示示例
2018/07/30 Python
Python 3.x基于Xml数据的Http请求方法
2018/12/28 Python
python requests证书问题解决
2019/09/05 Python
python Jupyter运行时间实例过程解析
2019/12/13 Python
python nohup 实现远程运行不宕机操作
2020/04/16 Python
pycharm中如何自定义设置通过“ctrl+滚轮”进行放大和缩小实现方法
2020/09/16 Python
英国领先的男士美容护发用品公司:Mankind
2016/08/31 全球购物
JACK & JONES荷兰官网:男士服装和鞋子
2021/03/07 全球购物
远程培训的心得体会
2014/09/01 职场文书
买房协议书范本
2014/10/23 职场文书
《爱的教育》读书心得
2014/11/08 职场文书
大班上学期个人总结
2015/02/13 职场文书
个人优缺点总结
2015/02/28 职场文书
写给导师的自荐信
2015/03/06 职场文书
财务稽核岗位职责
2015/04/13 职场文书
楚门的世界观后感
2015/06/03 职场文书
走进毛泽东观后感
2015/06/04 职场文书
三严三实·严以修身心得体会
2016/01/15 职场文书
PyTorch梯度裁剪避免训练loss nan的操作
2021/05/24 Python