编程 Python

Python爬虫常用库的安装及其环境配置

Posted in Python onSeptember 19, 2018

Python常用库的安装

urllib、re 这两个库是Python的内置库，直接使用方法import导入即可。

在python中输入如下代码：

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回结果为HTTPResponse的对象：

<http.client.HTTPResponse object at 0x000001929C7525F8>

正则表达式模块

import re

该库为python自带的库，直接运行不报错，证明该库正确安装。

requests这个库是请求的库

我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下，我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证

>>> import requests
>>> requests.get('http://www.baidu.com')
<Response [200]>

selenium实际上是用来浏览器的一个库

做爬虫时可能会碰到使用JS渲染的网页，使用requests来请求时，可能无法正常获取内容，我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3 install selenium安装。进行验证

>>> import selenium
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
>>> driver.get('http://www.baidu.com')

上述命令可以直接打开chrome浏览器，并且打开百度。但是，在这之前我们必须安装一个chromedriver，并且安装googlchrome浏览器，可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况，那么问题出在，chrome和chromdriver的版本不兼容，可以在官网下载chrome更高的版本，或者chromedriver更低的版本，但是只要都是最高版本就没问题。
如何查看本机的chrome的版本，具体方法如下：

Python爬虫常用库的安装及其环境配置

chromedriver的下载地址如下：
http://chromedriver.storage.googleapis.com/index.html
chromedriver解压后放到Python或者其他配置了环境变量的目录下。

phantomjs是一个无界面浏览器，在后台运行

可在官网自行下载。并且需要将phantomjs.exe 的所在目录设为环境变量。测试代码

>>> from selenium import webdriver
>>> driver = webdriver.PhantomJS()
>>> driver.get('http://www.baidu.com')
>>> driver.page_source
'<!DOCTYPE html><!--STATUS OK--><html><head>\n

lxml

使用pip3 install lxml安装

beautifulsoup是一个网络解析库，依赖于lxml库

使用pip3安装。必须安装pip3 install beautifulsoup4，因为beautifulsoup已经停止维护了。安装验证

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html></html>','lxml')
>>>

pyquery也是网页解析库

较bs4更加方便，语法和Jquery无异。也是使用pip3 安装

>>> from pyquery import PyQuery as pq #将其重命名
>>> doc = pq('<html></html>')
>>> doc = pq('<html>hello world</html>')
>>> result = doc('html').text()
>>> result
'hello world'

pymysql是一个操作mysql数据库的库

使用pip3 安装

>>> import pymysql
>>> conn = pymysql.connect(host='localhost',user='root',password = '123456',port=3306,db='mysql')
>>> cursor = conn.cursor()
>>> cursor.execute('select * from db')
0

pymongo操作数据库MongoDB的库

需要开启MongoDB服务，在计算机管理当中的服务寻找。也是使用pip3安装

>>> import pymongo
>>> client = pymongo.MongoClient('localhost')
>>> db = client['newtestdb']
>>> db['table'].insert({'name':'tom'})
ObjectId('5b868ee4c4d17a0b2466f748')
>>> db['table'].find_one({'name':'tom'})
{'_id': ObjectId('5b868ee4c4d17a0b2466f748'), 'name': 'tom'}
>>> #完成了单条数据的查询

redis一个非关系型数据库，运行效率高

使用pip3 install redis安装

>>> import redis
>>> r = redis.Redis ('localhost',6379)
>>> r.set('name','tom')
True
>>> r.get('name')
b'tom'
>>> #是一个byte型数据类型

flask做代理时可能会用到

详细内容可以在flask官网查看flask文档

使用pip3 安装pip3 install flask

django是一个web服务器框架

提供了一个完整的后台管理，引擎、接口等，可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装

jupyter 可以理解为一个记事本

运行网页端，可以进行写代码，调试，运行。在官网可以下载jupyter，也可以用pip3 安装，相关库非常多，安装比较久。安装后可以在命令行直接运行jupyter notebook，因为此文件在scrips目录下。
C:\Users\dell>jupyter notebook
[I 20:32:37.552 NotebookApp] The port 8888 is already in use, trying another port.
[I 20:32:37.703 NotebookApp] Serving notebooks from local directory: C:\Users\dell

Python爬虫常用库的安装及其环境配置

可以在选项 new 中建立新python3文件，并且可以编写代码。

Python爬虫常用库的安装及其环境配置

默认的文件名为unite，此处将其改为testDemo，使用快捷键ctrl+回车运行，按键B跳转至新的编辑行。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python爬虫常用库的安装及其环境配置

- Author -

大大焕

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中实现指定时间调用函数示例代码

Sep 08 Python

Python三级菜单的实例

Sep 13 Python

python中(str,list,tuple)基础知识汇总

Feb 20 Python

python实现简单登陆系统

Oct 18 Python

Python OpenCV读取png图像转成jpg图像存储的方法

Oct 28 Python

python re正则匹配网页中图片url地址的方法

Dec 20 Python

如何在django中添加日志功能

Feb 06 Python

Python文件时间操作步骤代码详解

Apr 13 Python

解决django migrate报错ORA-02000: missing ALWAYS keyword

Jul 02 Python

如何用Python提取10000份log中的产品信息

Jan 14 Python

Python爬取酷狗MP3音频的步骤

Feb 26 Python

Python实现仓库管理系统

May 30 Python

Python开发虚拟环境使用virtualenvwrapper的搭建步骤教程图解

Sep 19 #Python

python3.6.3安装图文教程 TensorFlow安装配置方法

Jun 24 #Python

Windows 64位下python3安装nltk模块

Sep 19 #Python

win10 64bit下python NLTK安装教程

Sep 19 #Python

Windows下Anaconda2安装NLTK教程

Sep 19 #Python

浅述python2与python3的简单区别

Sep 19 #Python

NLTK 3.2.4 环境搭建教程

Sep 19 #Python

You might like

PHP输入输出流学习笔记

2015/05/12 PHP

php 多进程编程父进程的阻塞与非阻塞实例分析

2020/02/22 PHP

javascript显示选择目录对话框的代码

2008/11/10 Javascript

理解Javascript_12_执行模型浅析

2010/10/18 Javascript

键盘上一张下一张兼容IE/google/firefox等浏览器

2014/01/28 Javascript

JsRender实用入门教程

2014/10/31 Javascript

跟我学习javascript的this关键字

2020/05/28 Javascript

Bootstrap每天必学之工具提示（Tooltip）插件

2016/04/26 Javascript

nodejs 的 session 简单使用

2016/06/06 NodeJs

原生JavaScript制作计算器

2016/10/16 Javascript

微信小程序-消息提示框实例

2016/11/24 Javascript

Angular2安装angular-cli

2017/05/21 Javascript

ReactNative Image组件使用详解

2017/08/07 Javascript

jquery实现侧边栏左右伸缩效果的示例

2017/12/19 jQuery

深入了解javascript 数组的sort方法

2018/06/01 Javascript

JavaScript实现捕获鼠标坐标

2020/04/12 Javascript

Node Express用法详解【安装、使用、路由、中间件、模板引擎等】

2020/05/13 Javascript

vue实现图书管理系统

2020/12/29 Vue.js

python中yield的用法详解——最简单，最清晰的解释

2019/04/04 Python

处理Selenium3+python3定位鼠标悬停才显示的元素

2019/07/31 Python

分享一个pycharm专业版安装的永久使用方法

2019/09/24 Python

python全局变量引用与修改过程解析

2020/01/07 Python

Python读取VOC中的xml目标框实例

2020/03/10 Python

带有css3动画效果的兼容多浏览器简单导航条示例

2014/01/26 HTML / CSS

一款html5 canvas实现的图片玻璃碎片特效

2014/09/11 HTML / CSS

HTML5 Canvas入门学习教程

2016/03/17 HTML / CSS

美国全球旅游运营商：Pacific Holidays

2018/06/18 全球购物

French Connection官网：女装、男装及家居用品

2019/03/18 全球购物

世界上最大的铁人三项商店：Tri UK

2020/11/04 全球购物

社团文化节邀请函

2014/01/10 职场文书

公职人员索取回扣检举信

2014/04/04 职场文书

2014年出纳工作总结与计划

2014/12/09 职场文书

大学生党性分析材料

2014/12/19 职场文书

优秀少先队员事迹材料

2014/12/24 职场文书

《领导干部从政道德启示录》学习心得体会

2016/01/20 职场文书

分享几种python 变量合并方法

2022/03/20 Python