编程 Python

实例讲解Python爬取网页数据

Posted in Python onJuly 08, 2018

一、利用webbrowser.open()打开一个网站：

>>> import webbrowser 
>>> webbrowser.open('http://i.firefoxchina.cn/?from=worldindex') 
True

实例：使用脚本打开一个网页。

所有Python程序的第一行都应以#!python开头，它告诉计算机想让Python来执行这个程序。（我没带这行试了试，也可以，可能这是一种规范吧）

1.从sys.argv读取命令行参数：打开一个新的文件编辑器窗口，输入下面的代码，将其保存为map.py。

2.读取剪贴板内容：

3.调用webbrowser.open()函数打开外部浏览：

#! python3 
import webbrowser, sys, pyperclip 
if len(sys.argv) > 1: 
 mapAddress = ''.join(sys.argv[1:]) 
else: 
 mapAddress = pyperclip.paste() 
webbrowser.open('http://map.baidu.com/?newmap=1&ie=utf-8&s=s%26wd%3D' + mapAddress

注：不清楚sys.argv用法的，请参考这里；不清楚.join()用法的，请参考这里。sys.argv是字符串的列表，所以将它传递给join()方法返回一个字符串。

好了，现在选中'天安门广场'这几个字并复制，然后到桌面双击你的程序。当然你也可以在命令行找到你的程序，然后输入地点。

二、用requests模块从Web下载文件：requests模块不是Python自带的，通过命令行运行pip install request安装。没翻墙是很难安装成功的，手动安装可以参考这里。

>>> import requests 
>>> res = requests.get('http://i.firefoxchina.cn/?from=worldindex') #向get中传入一个网址 
>>> type(res) #响应对象 
<class 'requests.models.Response'> 
>>> print(res.status_code) #响应码 
200 
>>> res.text #返回的文本

requests中查看网上下载的文件内容的方法还有很多，如果以后的博客用的到，会做说明，在此不再一一介绍。在下载文件的过程中，用raise_for_status()方法可以确保下载确实成功，然后再让程序继续做其他事情。

import requests 
res = requests.get('http://i.firefoxchina.cn/?from=worldindex') 
try: 
 res.raise_for_status() 
except Exception as exc: 
 print('There was a problem: %s' % (exc))

三、将下载的文件保存到本地：

>>> import requests 
>>> res = requests.get('http://tech.firefox.sina.com/17/0820/10/6DKQALVRW5JHGE1I.html##0-tsina-1-13074-397232819ff9a47a7b7e80a40613cfe1') 
>>> res.raise_for_status() 
>>> file = open('1.txt', 'wb') #以写二进制模式打开文件，目的是保存文本中的“Unicode编码” 
>>> for word in res.iter_content(100000): #<span class="fontstyle0"><span class="fontstyle0">iter_content()</span><span class="fontstyle1">方法在循环的每次迭代中返回一段</span><span class="fontstyle0">bytes</span><span class="fontstyle1">数据</span><span class="fontstyle1">类型的内容，你需要指定其包含的字节数</span></span> 
 file.write(word) 
 
 
16997 
>>> file.close()

四、用BeautifulSoup模块解析HTML：在命令行中用pip install beautifulsoup4安装它。
1.bs4.BeautifulSoup()函数可以解析HTML网站链接requests.get()，也可以解析本地保存的HTML文件，直接open()一个本地HTML页面。

>>> import requests, bs4 
>>> res = requests.get('http://i.firefoxchina.cn/?from=worldindex') 
>>> res.raise_for_status() 
>>> soup = bs4.BeautifulSoup(res.text) 
 
Warning (from warnings module): 
 File "C:\Users\King\AppData\Local\Programs\Python\Python36-32\lib\site-packages\beautifulsoup4-4.6.0-py3.6.egg\bs4\__init__.py", line 181 
 markup_type=markup_type)) 
UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently. 
 
The code that caused this warning is on line 1 of the file <string>. To get rid of this warning, change code that looks like this: 
 
 BeautifulSoup(YOUR_MARKUP}) 
 
to this: 
 
 BeautifulSoup(YOUR_MARKUP, "html.parser") 
 
>>> soup = bs4.BeautifulSoup(res.text, 'html.parser') 
>>> type(soup) 
<class 'bs4.BeautifulSoup'>

我这里有错误提示，所以加了第二个参数。

>>> import bs4 
>>> html = open('C:\\Users\\King\\Desktop\\1.htm') 
>>> exampleSoup = bs4.BeautifulSoup(html) 
>>> exampleSoup = bs4.BeautifulSoup(html, 'html.parser') 
>>> type(exampleSoup) 
<class 'bs4.BeautifulSoup'>

2.用select()方法寻找元素：需传入一个字符串作为CSS“选择器”来取得Web页面相应元素，例如：
soup.select('div')：所有名为<div>的元素；

soup.select('#author')：带有id属性为author的元素；

soup.select('.notice')：所有使用CSS class属性名为notice的元素；

soup.select('div span')：所有在<div>元素之内的<span>元素；

soup.select('input[name]')：所有名为<input>并有一个name属性，其值无所谓的元素；

soup.select('input[type="button"]')：所有名为<input>并有一个type属性，其值为button的元素。

想查看更多的解析器，请参看这里。

>>> import requests, bs4 
>>> res = requests.get('http://i.firefoxchina.cn/?from=worldindex') 
>>> res.raise_for_status() 
>>> soup = bs4.BeautifulSoup(res.text, 'html.parser') 
>>> author = soup.select('#author') 
>>> print(author) 
[] 
>>> type(author) 
<class 'list'> 
>>> link = soup.select('link ') 
>>> print(link) 
[<link href="css/mozMainStyle-min.css?v=20170705" rel="external nofollow" rel="external nofollow" rel="stylesheet" type="text/css"/>, <link href="" id=" rel="external nofollow" rel="external nofollow" rel="external nofollow" moz-skin" rel="stylesheet" type="text/css"/>, <link href="" id=" rel="external nofollow" rel="external nofollow" rel="external nofollow" moz-dir" rel="stylesheet" type="text/css"/>, <link href="" id=" rel="external nofollow" rel="external nofollow" rel="external nofollow" moz-ver" rel="stylesheet" type="text/css"/>] 
>>> type(link) 
<class 'list'> 
>>> len(link) 
4 
>>> type(link[0]) 
<class 'bs4.element.Tag'> 
>>> link[0] 
<link href="css/mozMainStyle-min.css?v=20170705" rel="external nofollow" rel="external nofollow" rel="stylesheet" type="text/css"/> 
>>> link[0].attrs 
{'rel': ['stylesheet'], 'type': 'text/css', 'href': 'css/mozMainStyle-min.css?v=20170705'}

3.通过元素的属性获取数据：接着上面的代码写。

>>> link[0].get('href') 
'css/mozMainStyle-min.css?v=20170705

上面这些方法也算是对“网络爬虫”的一些初探。

实例讲解Python爬取网页数据

- Author -

hzp666

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python开发之快速搭建自动回复微信公众号功能

Apr 22 Python

python 读取摄像头数据并保存的实例

Aug 03 Python

python3实现逐字输出的方法

Jan 23 Python

Python 读取 YUV(NV12) 视频文件实例

Dec 09 Python

TensorFlow实现保存训练模型为pd文件并恢复

Feb 06 Python

Python数组并集交集补集代码实例

Feb 18 Python

解决pycharm不能自动补全第三方库的函数和属性问题

Mar 12 Python

解决jupyter notebook打不开无反应浏览器未启动的问题

Apr 10 Python

keras K.function获取某层的输出操作

Jun 29 Python

Django 用户认证Auth组件的使用

Nov 30 Python

七个Python必备的GUI库

Apr 27 Python

python 实现的截屏工具

May 08 Python

python十进制和二进制的转换方法(含浮点数)

Jul 07 #Python

Python3+django2.0+apache2+ubuntu14部署网站上线的方法

Jul 07 #Python

python3实现字符串的全排列的方法(无重复字符)

Jul 07 #Python

python3 kmp 字符串匹配的方法

Jul 07 #Python

vue.js实现输入框输入值内容实时响应变化示例

Jul 07 #Python

详解Python最长公共子串和最长公共子序列的实现

Jul 07 #Python

python求最大连续子数组的和

Jul 07 #Python

You might like

php高级编程-函数-郑阿奇

2011/07/04 PHP

thinkphp模板赋值与替换实例简述

2014/11/24 PHP

Yii框架中memcache用法实例

2014/12/03 PHP

PHP实现批量修改文件后缀名的方法

2015/07/30 PHP

PHP文件操作简单介绍及函数汇总

2020/12/11 PHP

可以将word转成html的js代码

2010/04/11 Javascript

改写一个简单的菜单弹性大小

2010/12/02 Javascript

event.X和event.clientX的区别分析

2011/10/06 Javascript

jQuery判断checkbox(复选框)是否被选中以及全选、反选实现代码

2014/02/21 Javascript

使用js判断TextBox控件值改变然后出发事件

2014/03/07 Javascript

浏览器中url存储的JavaScript实现

2015/07/07 Javascript

详解JavaScript的Polymer框架中的通知交互

2015/07/29 Javascript

JavaScript控制浏览器全屏及各种浏览器全屏模式的方法、属性和事件

2015/12/20 Javascript

mui上拉加载功能实例详解

2017/04/13 Javascript

node.js文件上传重命名以及移动位置的示例代码

2018/01/19 Javascript

nodejs实现一个word文档解析器思路详解

2018/08/14 NodeJs

详解ES6 系列之异步处理实战

2018/10/26 Javascript

浅析vue-router实现原理及两种模式

2020/02/11 Javascript

基于vue 动态菜单刷新空白问题的解决

2020/08/06 Javascript

Python多个装饰器的调用顺序实例解析

2020/05/22 Python

美国一家专业的太阳镜网上零售商：Solstice太阳镜

2016/07/25 全球购物

Vilebrequin美国官方网上商店：法国豪华泳装品牌

2020/02/22 全球购物

中西医结合临床医学专业大学生自荐信

2013/09/28 职场文书

高三自我鉴定

2013/10/23 职场文书

安全检查验收制度

2014/01/12 职场文书

小学教师事迹材料

2014/01/13 职场文书

金融管理毕业生求职信

2014/03/03 职场文书

质量承诺书范文

2014/03/27 职场文书

先进个人推荐材料

2014/12/29 职场文书

食品质检员岗位职责

2015/04/08 职场文书

承诺书范本大全

2015/05/04 职场文书

电台广播稿范文

2015/08/19 职场文书

安全责任协议书范本

2016/03/23 职场文书

2019班干部竞选演讲稿范本！

2019/07/08 职场文书

Mysql 性能监控及调优

2021/04/06 MySQL

Python保存并浏览用户的历史记录

2022/04/29 Python