Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python构造自定义方法来美化字典结构输出的示例
Jun 16 Python
python3实现随机数
Jun 25 Python
Python中一些深不见底的“坑”
Jun 12 Python
pyqt5 实现 下拉菜单 + 打开文件的示例代码
Jun 20 Python
实例详解Python装饰器与闭包
Jul 29 Python
基于keras输出中间层结果的2种实现方式
Jan 24 Python
Python判断字符串是否为空和null方法实例
Apr 26 Python
Python实现JS解密并爬取某音漫客网站
Oct 23 Python
使用pandas读取表格数据并进行单行数据拼接的详细教程
Mar 03 Python
Django一小时写出账号密码管理系统
Apr 29 Python
python3实现Dijkstra算法最短路径的实现
May 12 Python
Python常遇到的错误和异常
Nov 02 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
一个php导出oracle库的php代码
2009/04/20 PHP
探讨:如何使用PhpDocumentor生成文档
2013/06/25 PHP
Ubuntu server 11.04安装memcache及php使用memcache来存储session的方法
2016/05/31 PHP
Yii2-GridView 中让关联字段带搜索和排序功能示例
2017/01/21 PHP
php自定义函数实现统计中文字符串长度的方法小结
2017/04/15 PHP
js下写一个事件队列操作函数
2010/07/19 Javascript
jquery动态添加删除div 具体实现
2013/07/20 Javascript
Jquery 的outerHeight方法使用介绍
2013/09/11 Javascript
JavaScript实现LI列表数据绑定的方法
2015/08/04 Javascript
js实现鼠标点击左上角滑动菜单效果代码
2015/09/06 Javascript
javascript实现input file上传图片预览效果
2015/12/31 Javascript
如何判断Javascript对象是否存在的简单实例
2016/05/18 Javascript
JavaScript中用let语句声明作用域的用法讲解
2016/05/20 Javascript
JavaScript条件判断_动力节点Java学院整理
2017/06/26 Javascript
vue axios用法教程详解
2017/07/23 Javascript
JS实现页面打印(整体、局部)
2017/08/18 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
利用npm 安装删除模块的方法
2018/05/15 Javascript
jQuery 导航自动跟随滚动的实现代码
2018/05/30 jQuery
Vue自定义属性实例分析
2019/02/23 Javascript
[01:00]DOTA2 store: Collection of Artisan's Wonders
2015/08/12 DOTA
[54:26]完美世界DOTA2联赛PWL S3 Forest vs Rebirth 第一场 12.10
2020/12/12 DOTA
ubuntu系统下使用pm2设置nodejs开机自启动的方法
2018/05/12 NodeJs
Python selenium实现微博自动登录的示例代码
2018/05/16 Python
Django处理文件上传File Uploads的实例
2018/05/28 Python
在python中利用opencv简单做图片比对的方法
2019/01/24 Python
Django form表单与请求的生命周期步骤详解
2020/06/07 Python
使用anaconda安装pytorch的实现步骤
2020/09/03 Python
python如何将图片转换素描画
2020/09/08 Python
Python基于Socket实现简易多人聊天室的示例代码
2020/11/29 Python
处理HTML5新标签的浏览器兼容版问题
2017/03/13 HTML / CSS
美国零售商店:Blue&Cream
2017/04/07 全球购物
合伙协议书
2014/04/23 职场文书
2014年防汛工作总结
2014/12/08 职场文书
创业计划书之暑假培训班
2019/11/09 职场文书
Python实现信息管理系统
2022/06/05 Python