Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
一篇不错的Python入门教程
Feb 08 Python
Python随机生成彩票号码的方法
Mar 05 Python
浅谈python中set使用
Jun 30 Python
Python OS模块实例详解
Apr 15 Python
python 遍历pd.Series的index和value
Nov 26 Python
python 画函数曲线示例
Dec 04 Python
python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例
Mar 02 Python
新手常见Python错误及异常解决处理方案
Jun 18 Python
python用Configobj模块读取配置文件
Sep 26 Python
详解vscode实现远程linux服务器上Python开发
Nov 10 Python
Python + opencv对拍照得到的图片进行背景去除的实现方法
Nov 18 Python
python b站视频下载的五种版本
May 27 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
PHP也可以?成Shell Script
2006/10/09 PHP
php中static静态变量的使用方法详解
2010/06/04 PHP
WordPress中用于更新伪静态规则的PHP代码实例讲解
2015/12/18 PHP
php文件上传、下载和删除示例
2020/08/28 PHP
12个非常有创意的JavaScript小游戏
2010/03/18 Javascript
javascript string字符串优化问题
2011/07/31 Javascript
javascript获取鼠标位置部分的实例代码(兼容IE,FF)
2013/08/05 Javascript
checkbox设置复选框的只读效果不让用户勾选
2013/08/12 Javascript
js点击选择文本的方法
2015/02/09 Javascript
14款经典网页图片和文字特效的jQuery插件-前端开发必备
2015/08/25 Javascript
javascript基于prototype实现类似OOP继承的方法
2015/12/16 Javascript
使用jquery.qrcode.min.js实现中文转化二维码
2016/03/11 Javascript
js仿百度登录页实现拖动窗口效果
2016/03/11 Javascript
详细谈谈javascript的对象
2016/07/31 Javascript
Bootstrap 轮播(Carousel)插件
2016/12/26 Javascript
vue图片加载与显示默认图片实例代码
2017/03/16 Javascript
三分钟学会用ES7中的Async/Await进行异步编程
2018/06/14 Javascript
微信小程序实现蒙版弹窗效果
2018/11/01 Javascript
nodejs图片处理工具gm用法小结
2018/12/12 NodeJs
如何进行微信公众号开发的本地调试的方法
2019/06/16 Javascript
vue多个元素的样式选择器问题
2019/11/29 Javascript
[07:49]2014DOTA2国际邀请赛 Newbee夺冠后采访xiao8坦言奖金会上交
2014/07/23 DOTA
TensorFlow模型保存和提取的方法
2018/03/08 Python
python中sys.argv函数精简概括
2018/07/08 Python
python实现周期方波信号频谱图
2018/07/21 Python
Centos下实现安装Python3.6和Python2共存
2018/08/15 Python
用python给自己做一款小说阅读器过程详解
2019/07/11 Python
将tensorflow.Variable中的某些元素取出组成一个新的矩阵示例
2020/01/04 Python
使用Pycharm(Python工具)新建项目及创建Python文件的教程
2020/04/26 Python
俄罗斯宠物用品网上商店:ZooMag
2019/12/12 全球购物
国际贸易专业个人鉴定
2014/02/22 职场文书
研修心得体会
2014/09/04 职场文书
六年级学生评语大全
2014/12/26 职场文书
领导工作表现评语
2015/01/04 职场文书
退货证明模板
2015/06/23 职场文书
使用canvas对video视频某一刻截图功能
2021/09/25 HTML / CSS