编程 Python

Python读取本地文件并解析网页元素的方法

Posted in Python onMay 21, 2018

如下所示：

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出：
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet

#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')

print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文：

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python读取本地文件并解析网页元素的方法

- Author -

林毅洋

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用arp欺骗伪造网关的方法

Apr 24 Python

Python中如何获取类属性的列表

Dec 26 Python

Python cookbook（数据结构与算法）将序列分解为单独变量的方法

Feb 13 Python

python实现连续图文识别

Dec 18 Python

浅谈python requests 的put, post 请求参数的问题

Jan 02 Python

python可视化爬虫界面之天气查询

Jul 03 Python

如何实现Django Rest framework版本控制

Jul 25 Python

python 修改本地网络配置的方法

Aug 14 Python

利用Python绘制Jazz网络图的例子

Nov 21 Python

python飞机大战pygame游戏之敌机出场实现方法详解

Dec 17 Python

python机器学习库xgboost的使用

Jan 20 Python

python向xls写入数据(包括合并，边框，对齐，列宽）

Feb 02 Python

详解Python中的四种队列

May 21 #Python

Python实现的当前时间多加一天、一小时、一分钟操作示例

May 21 #Python

Python自定义函数实现求两个数最大公约数、最小公倍数示例

May 21 #Python

Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例

May 21 #Python

Python常用字符串替换函数strip、replace及sub用法示例

May 21 #Python

Python下使用Scrapy爬取网页内容的实例

May 21 #Python

python 每天如何定时启动爬虫任务(实现方法分享)

May 21 #Python

You might like

centos 5.6 升级php到5.3的方法

2011/05/14 PHP

PHP获取MAC地址的具体实例

2013/12/13 PHP

php实现微信发红包

2015/12/05 PHP

在一个浏览器里呈现所有浏览器测试结果的前端测试工具的思路

2010/03/02 Javascript

javascript开发技术大全－第1章javascript概述

2011/07/03 Javascript

JavaScript中匿名、命名函数的性能测试

2014/09/04 Javascript

jquery实现适用于门户站的导航下拉菜单效果代码

2015/08/24 Javascript

js图片轮播插件的封装

2017/07/21 Javascript

关于HTTP传输中gzip压缩的秘密探索分析

2018/01/12 Javascript

JS正则表达式封装与使用操作示例

2019/05/15 Javascript

详解微信小程序开发聊天室—实时聊天，支持图片预览

2019/05/20 Javascript

layui点击弹框页面表单请求的方法

2019/09/21 Javascript

微信小程序实现分享商品海报功能

2019/09/30 Javascript

js、jquery实现列表模糊搜索功能过程解析

2020/03/27 jQuery

Postman动态获取返回值过程详解

2020/06/30 Javascript

[01:01]青春无憾，一战成名——DOTA2全国高校联赛开启

2018/02/25 DOTA

[54:10]Spirit vs NB Supermajor小组赛 A组败者组决赛 BO3 第一场 6.2

2018/06/03 DOTA

python获得文件创建时间和修改时间的方法

2015/06/30 Python

python对excel文档去重及求和的实例

2018/04/18 Python

对numpy中向量式三目运算符详解

2018/10/31 Python

Python 学习教程之networkx

2019/04/15 Python

Win10环境python3.7安装dlib模块趟过的坑

2019/08/01 Python

python2和python3实现在图片上加汉字的方法

2019/08/22 Python

python base64库给用户名或密码加密的流程

2020/01/02 Python

Django models filter筛选条件详解

2020/03/16 Python

Python3.7 读取音频根据文件名生成脚本的代码

2020/04/07 Python

音乐系毕业生自荐信

2013/10/27 职场文书

房地产销售大学生自我评价分享

2013/11/11 职场文书

专业幼师实习生自我鉴定范文

2013/12/08 职场文书

11月红领巾广播稿

2014/01/17 职场文书

培训班主持词

2014/03/28 职场文书

四风个人对照检查材料思想汇报

2014/09/25 职场文书

公司离职证明标准范本

2014/10/05 职场文书

高中生综合素质自我评价

2015/03/06 职场文书

结婚堵门保证书

2015/05/08 职场文书

Go语言-为什么返回值为接口类型,却返回结构体

2021/04/24 Golang