Python下载的11种姿势(小结)


Posted in Python onNovember 18, 2020

1、使用requests

你可以使用requests模块从一个URL下载文件。

考虑以下代码:

Python下载的11种姿势(小结)

你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。

2、使用wget

Python下载的11种姿势(小结)

你还可以使用Python的wget模块从一个URL下载文件。你可以使用pip按以下命令安装wget模块:

考虑以下代码,我们将使用它下载Python的logo图像。

Python下载的11种姿势(小结)

在这段代码中,URL和路径(图像将存储在其中)被传递给wget模块的download方法。

3、下载重定向的文件

在本节中,你将学习如何**使用requests从一个URL下载文件,**该URL会被重定向到另一个带有一个.pdf文件的URL。该URL看起来如下:

Python下载的11种姿势(小结)

要下载这个pdf文件,请使用以下代码:

Python下载的11种姿势(小结)

在这段代码中,我们第一步指定的是URL。然后,我们使用request模块的get方法来获取该URL。在get方法中,我们将allow_redirects设置为True,这将允许URL中的重定向,并且重定向后的内容将被分配给变量myfile。

最后,我们打开一个文件来写入获取的内容。

4、分块下载大文件

考虑下面的代码:

Python下载的11种姿势(小结)

首先,我们像以前一样使用requests模块的get方法,但是这一次,我们将把stream属性设置为True。

接着,我们在当前工作目录中创建一个名为PythonBook.pdf的文件,并打开它进行写入。

然后,我们指定每次要下载的块大小**。我们已经将其设置为1024字节,**接着遍历每个块,并在文件中写入这些块,直到块结束。

不漂亮吗?不要担心,稍后我们将显示一个下载过程的进度条。

5、下载多个文件(并行/批量下载)

要同时下载多个文件,请导入以下模块:

Python下载的11种姿势(小结)

我们导入了os和time模块来检查下载文件需要多少时间。ThreadPool模块允许你使用池运行多个线程或进程。

让我们创建一个简单的函数,将响应分块发送到一个文件:

Python下载的11种姿势(小结)

这个URL是一个二维数组,它指定了你要下载的页面的路径和URL。

Python下载的11种姿势(小结)

就像在前一节中所做的那样,我们将这个**URL传递给requests.get。**最后,我们打开文件(URL中指定的路径)并写入页面内容。

现在,我们可以分别为每个URL调用这个函数,我们也可以同时为所有URL调用这个函数。**让我们在for循环中分别为每个URL调用这个函数,**注意计时器:

Python下载的11种姿势(小结)

现在,使用以下代码行替换for循环:

Python下载的11种姿势(小结)

运行该脚本。

6、使用进度条进行下载

进度条是clint模块的一个UI组件。输入以下命令来安装clint模块:

Python下载的11种姿势(小结)

考虑以下代码:

Python下载的11种姿势(小结)

在这段代码中,我们首先导入了requests模块,然后,我们从clint.textui导入了进度组件。唯一的区别是**在for循环中。**在将内容写入文件时,我们使用了进度条模块的bar方法。

7、使用urllib下载网页

在本节中,我们将使用urllib下载一个网页。

urllib库是Python的标准库,因此你不需要安装它。

以下代码行可以轻松地下载一个网页:

Python下载的11种姿势(小结)

在这里指定你想将文件保存为什么以及你想将它存储在哪里的URL。

Python下载的11种姿势(小结)

在这段代码中,我们使用了urlretrieve方法并传递了文件的URL,以及保存文件的路径。文件扩展名将是.html。

8、通过代理下载

如果你需要使用代理下载你的文件,你可以使用urllib模块的ProxyHandler。请看以下代码:

Python下载的11种姿势(小结)

在这段代码中,我们创建了代理对象,**并通过调用urllib的build_opener方法来打开该代理,**并传入该代理对象。然后,我们创建请求来获取页面。

此外,你还可以按照官方文档的介绍来使用requests模块:

Python下载的11种姿势(小结)

你只需要**导入requests模块并创建你的代理对象。**然后,你就可以获取文件了。

9、使用urllib3

urllib3是urllib模块的改进版本。你可以使用pip下载并安装它:

Python下载的11种姿势(小结)

我们将通过使用urllib3来获取一个网页并将它存储在一个文本文件中。

导入以下模块:

Python下载的11种姿势(小结)

在处理文件时,我们使用了shutil模块。

现在,我们像这样来初始化URL字符串变量:

Python下载的11种姿势(小结)

然后,我们使用了urllib3的PoolManager ,它会跟踪必要的连接池。

Python下载的11种姿势(小结)

创建一个文件:

Python下载的11种姿势(小结)

最后,我们发送一个GET请求来获取该URL并打开一个文件,接着将响应写入该文件:

Python下载的11种姿势(小结)

10、使用Boto3从S3下载文件

要从Amazon S3下载文件,你可以使用Python boto3模块。

在开始之前,你需要使用pip安装awscli模块:

Python下载的11种姿势(小结)

对于AWS配置,请运行以下命令:

Python下载的11种姿势(小结)

现在,按以下命令输入你的详细信息:

Python下载的11种姿势(小结)

要从Amazon S3下载文件,你需要导入boto3和botocore。Boto3是一个Amazon SDK**,它允许Python访问Amazon web服务(如S3)。**Botocore提供了与Amazon web服务进行交互的命令行服务。

Botocore自带了awscli。要安装boto3,请运行以下命令:

Python下载的11种姿势(小结)

现在,导入这两个模块:

Python下载的11种姿势(小结)

在从Amazon下载文件时,我们需要三个参数:

Bucket名称你需要下载的文件名称文件下载之后的名称

初始化变量:

Python下载的11种姿势(小结)

现在,**我们初始化一个变量来使用会话的资源。**为此,我们将调用boto3的resource()方法并传入服务,即s3:

Python下载的11种姿势(小结)

最后,使用download_file方法下载文件并传入变量:

Python下载的11种姿势(小结)

11、使用asyncio

asyncio模块**主要用于处理系统事件。**它围绕一个事件循环进行工作,该事件循环会等待事件发生,然后对该事件作出反应。这个反应可以是调用另一个函数。这个过程称为事件处理。asyncio模块使用协同程序进行事件处理。

要使用asyncio事件处理和协同功能,我们将导入asyncio模块:

Python下载的11种姿势(小结)

现在,像这样定义asyncio协同方法:

Python下载的11种姿势(小结)

关键字async表示这是一个原生asyncio协同程序。在协同程序的内部,我们有一个await关键字,它会返回一个特定的值。我们也可以使用return关键字。

现在,让我们使用协同创建一段代码来从网站下载一个文件:

Python下载的11种姿势(小结)

在这段代码中,我们创建了一个异步协同函数,它会下载我们的文件并返回一条消息。

然后,我们使用另一个异步协同程序调用main_func,**它会等待URL并将所有URL组成一个队列。**asyncio的wait函数会等待协同程序完成。

现在,为了启动协同程序,我们必须使用asyncio的get_event_loop()方法将协同程序放入事件循环中,最后,我们使用asyncio的run_until_complete()方法执行该事件循环。

到此这篇关于Python下载的11种姿势(小结)的文章就介绍到这了,更多相关Python下载方法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用异常处理来判断运行的操作系统平台方法
Jan 22 Python
在Django中同时使用多个配置文件的方法
Jul 22 Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 Python
python实现求解列表中元素的排列和组合问题
Mar 15 Python
python 随机打乱 图片和对应的标签方法
Dec 14 Python
python图片二值化提高识别率代码实例
Aug 24 Python
Python 3.8正式发布,来尝鲜这些新特性吧
Oct 15 Python
tensorflow-gpu安装的常见问题及解决方案
Jan 20 Python
jupyter notebook清除输出方式
Apr 10 Python
解决Python发送Http请求时,中文乱码的问题
Apr 30 Python
Django多层嵌套ManyToMany字段ORM操作详解
May 19 Python
详解Selenium 元素定位和WebDriver常用方法
Dec 04 Python
Python监听键盘和鼠标事件的示例代码
Nov 18 #Python
Opencv python 图片生成视频的方法示例
Nov 18 #Python
calendar在python3时间中常用函数举例详解
Nov 18 #Python
Python 远程开关机的方法
Nov 18 #Python
python 元组和列表的区别
Dec 30 #Python
基于Python爬取搜狐证券股票过程解析
Nov 18 #Python
Python + opencv对拍照得到的图片进行背景去除的实现方法
Nov 18 #Python
You might like
基于PHP与XML的PDF文档生成技术
2006/10/09 PHP
3种平台下安装php4经验点滴
2006/10/09 PHP
php使用正则表达式提取字符串中尖括号、小括号、中括号、大括号中的字符串
2020/04/05 PHP
ThinkPHP中的常用查询语言汇总
2014/08/22 PHP
浅谈json_encode用法
2015/03/05 PHP
PHP获取当前时间不准确问题解决方案
2020/08/14 PHP
javascript 用记忆函数快速计算递归函数
2010/03/15 Javascript
js弹出框轻量级插件jquery.boxy使用介绍
2013/01/15 Javascript
JQuery设置时间段下拉选择实例
2014/12/30 Javascript
js获取表格的行数和列数的方法
2015/10/23 Javascript
基于RequireJS和JQuery的模块化编程日常问题解析
2016/04/14 Javascript
浅谈JavaScript 执行环境、作用域及垃圾回收
2016/05/31 Javascript
JS读取XML文件数据并以table形式显示数据的方法(兼容IE与火狐)
2016/06/02 Javascript
js实现精确到毫秒的倒计时效果
2016/08/05 Javascript
node.js自动上传ftp的脚本分享
2018/06/16 Javascript
微信小程序利用button控制条件标签的变量问题
2020/03/15 Javascript
[02:15]2014DOTA2国际邀请赛 专访LGD.lin小兔子是大腿
2014/07/14 DOTA
用Python实现一个简单的能够上传下载的HTTP服务器
2015/05/05 Python
python对url格式解析的方法
2015/05/13 Python
基于wxpython实现的windows GUI程序实例
2015/05/30 Python
Python实现替换文件中指定内容的方法
2018/03/19 Python
Python中多个数组行合并及列合并的方法总结
2018/04/12 Python
opencv实现图片模糊和锐化操作
2018/11/19 Python
Django框架文件上传与自定义图片上传路径、上传文件名操作分析
2019/05/10 Python
Tensorflow实现酸奶销量预测分析
2019/07/19 Python
keras小技巧——获取某一个网络层的输出方式
2020/05/23 Python
python Scrapy框架原理解析
2021/01/04 Python
浅谈关于html5中图片抛物线运动的一些心得
2018/01/09 HTML / CSS
优秀学生干部个人的自我评价
2013/10/04 职场文书
领导班子自我剖析材料
2014/08/16 职场文书
小学生2015教师节演讲稿
2015/03/19 职场文书
2015小学教育教学工作总结
2015/07/21 职场文书
学习杨善洲同志先进事迹心得体会
2016/01/23 职场文书
餐饮行业关注的9大营销策略
2019/08/26 职场文书
导游词之杭州岳王庙
2019/11/13 职场文书
mysql数据插入覆盖和时间戳的问题及解决
2022/03/25 MySQL