python如何爬取网页中的文字


Posted in Python onJuly 28, 2020

用Python进行爬取网页文字的代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Saltstack快速入门简单汇总
Mar 01 Python
python 与GO中操作slice,list的方式实例代码
Mar 20 Python
python在非root权限下的安装方法
Jan 23 Python
tensorflow中next_batch的具体使用
Feb 02 Python
python调用百度语音识别api
Aug 30 Python
Python matplotlib通过plt.scatter画空心圆标记出特定的点方法
Dec 13 Python
Django实现基于类的分页功能
Oct 31 Python
根据tensor的名字获取变量的值方式
Jan 04 Python
给keras层命名,并提取中间层输出值,保存到文档的实例
May 23 Python
Python读取xlsx数据生成图标代码实例
Aug 12 Python
解决pycharm不能自动保存在远程linux中的问题
Feb 06 Python
Python尝试实现蒙特卡罗模拟期权定价
Apr 21 Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
python爬虫要用到的库总结
Jul 28 #Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
You might like
php数据库配置文件一般做法分享
2012/07/07 PHP
关于php程序报date()警告的处理(date_default_timezone_set)
2013/10/22 PHP
CI框架在CLI下执行占用内存过大问题的解决方法
2014/06/17 PHP
PHP 获取指定地区的天气实例代码
2017/02/08 PHP
php打开本地exe程序,js打开本地exe应用程序,并传递相关参数方法
2018/02/06 PHP
腾讯UED 漂亮的提示信息效果代码
2011/09/12 Javascript
JS使用cookie实现DIV提示框只显示一次的方法
2015/11/05 Javascript
深入分析javascript中console命令
2016/08/14 Javascript
AngularJS入门教程之链接与图片模板详解
2016/08/19 Javascript
Jquery Easyui自定义下拉框组件使用详解(21)
2020/12/31 Javascript
详谈jQuery.load()和Jsp的include的区别
2017/04/12 jQuery
vue Element-ui input 远程搜索与修改建议显示模版的示例代码
2017/10/19 Javascript
原生JavaScrpit中异步请求Ajax实现方法
2017/11/03 Javascript
nodejs简单读写excel内容的方法示例
2018/03/16 NodeJs
Angularjs 根据一个select的值去设置另一个select的值方法
2018/08/13 Javascript
JS 正则表达式验证密码、邮箱格式的实例代码
2018/10/28 Javascript
图文讲解vue的v-if使用方法
2019/02/11 Javascript
vue实现记事本功能
2019/06/26 Javascript
Node.js系列之发起get/post请求(2)
2019/08/30 Javascript
Layui之table中的radio在切换分页时无法记住选中状态的解决方法
2019/09/02 Javascript
Vue项目环境搭建详细总结
2019/09/26 Javascript
利用js实现简易红绿灯
2020/10/15 Javascript
[52:03]DOTA2-DPC中国联赛 正赛 Ehome vs iG BO3 第三场 1月31日
2021/03/11 DOTA
python模块之time模块(实例讲解)
2017/09/13 Python
对Python 网络设备巡检脚本的实例讲解
2018/04/22 Python
适合Python初学者的一些编程技巧
2020/02/12 Python
Python 使用双重循环打印图形菱形操作
2020/08/09 Python
Pytorch如何切换 cpu和gpu的使用详解
2021/03/01 Python
用HTML5制作视频拼图的教程
2015/05/13 HTML / CSS
Perfume’s Club中文官网:西班牙美妆在线零售品牌
2020/08/24 全球购物
腾讯技术类校园招聘笔试试题
2014/05/06 面试题
初中生个人学习的自我评价
2013/12/04 职场文书
手机银行营销方案
2014/03/14 职场文书
模特大赛策划方案
2014/05/28 职场文书
mysql字符串截取函数小结
2021/04/05 MySQL
SQLServer之常用函数总结详解
2021/08/30 SQL Server