python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
举例讲解Python中is和id的用法
Apr 03 Python
Python计算斗牛游戏概率算法实例分析
Sep 26 Python
python实现在图片上画特定大小角度矩形框
Oct 24 Python
Python实现 版本号对比功能的实例代码
Apr 18 Python
python实现给微信指定好友定时发送消息
Apr 29 Python
python里dict变成list实例方法
Jun 26 Python
Python Django Cookie 简单用法解析
Aug 13 Python
Python学习笔记之函数的定义和作用域实例详解
Aug 13 Python
如何通过python实现全排列
Feb 11 Python
win10下opencv-python特定版本手动安装与pip自动安装教程
Mar 05 Python
浅谈python数据类型及其操作
May 25 Python
教你怎么用Python操作MySql数据库
May 31 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
初识PHP
2014/09/28 PHP
ThinkPHP开发--使用七牛云储存
2017/09/14 PHP
laravel5.4利用163邮箱发送邮件的步骤详解
2017/09/22 PHP
JavaScript 指导方针
2007/04/05 Javascript
实现连缀调用的map方法(prototype)
2009/08/05 Javascript
将文本输入框内容加入表中的js代码
2013/08/18 Javascript
Node.js中使用计时器定时执行函数详解
2014/08/15 Javascript
node.js中的http.response.setHeader方法使用说明
2014/12/14 Javascript
jQuery内容过滤选择器用法分析
2015/02/10 Javascript
微信小程序开发(一) 微信登录流程详解
2017/01/11 Javascript
nodejs中向HTTP响应传送进程的输出
2017/03/19 NodeJs
用Vue写一个分页器的示例代码
2018/04/22 Javascript
在vue-cli搭建的项目中增加后台mock接口的方法
2018/04/26 Javascript
微信小程序实现弹出菜单
2018/07/19 Javascript
微信公众平台 客服接口发消息的实现代码(Java接口开发)
2019/04/17 Javascript
详解Vue.js中引入图片路径的几种方式
2019/06/17 Javascript
Vue使用轮询定时发送请求代码
2020/08/10 Javascript
微信小程序实现弹幕墙(祝福墙)
2020/11/18 Javascript
JS+CSS实现过渡特效
2021/01/02 Javascript
Python跳出循环语句continue与break的区别
2014/08/25 Python
Python中的Django基本命令实例详解
2018/07/15 Python
python如何把字符串类型list转换成list
2020/02/18 Python
Django Form设置文本框为readonly操作
2020/07/03 Python
提供世界各地便宜的机票:Sky-tours
2016/07/21 全球购物
MONNIER Frères英国官网:源自巴黎女士奢侈品配饰电商平台
2018/12/06 全球购物
Groupon比利时官方网站:特卖和网上购物高达-70%
2019/08/09 全球购物
正宗的日本零食和糖果订阅盒:Bokksu
2019/11/21 全球购物
一份全面的PHP面试问题考卷
2012/07/15 面试题
学期自我鉴定范文
2013/10/01 职场文书
商务英语专业应届毕业生求职信
2013/10/28 职场文书
2014年百日安全生产活动总结
2014/05/04 职场文书
电子信息专业应届生自荐信
2014/06/04 职场文书
网络文明传播志愿者活动方案
2014/08/20 职场文书
民主评议教师党员自我评价
2015/03/04 职场文书
SQL Server实现分页方法介绍
2022/03/16 SQL Server
Android自定义双向滑动控件
2022/04/19 Java/Android