python爬虫中采集中遇到的问题整理


Posted in Python onNovember 27, 2020

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
编写Python爬虫抓取暴走漫画上gif图片的实例分享
Apr 20 Python
python装饰器初探(推荐)
Jul 21 Python
Python实现线程状态监测简单示例
Mar 28 Python
解决python xx.py文件点击完之后一闪而过的问题
Jun 24 Python
python pandas获取csv指定行 列的操作方法
Jul 12 Python
纯python进行矩阵的相乘运算的方法示例
Jul 17 Python
对django 模型 unique together的示例讲解
Aug 06 Python
使用python实现飞机大战游戏
Mar 23 Python
Pycharm生成可执行文件.exe的实现方法
Jun 02 Python
获取CSDN文章内容并转换为markdown文本的python
Sep 06 Python
python 制作网站小说下载器
Feb 20 Python
Django Paginator分页器的使用示例
Jun 23 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 #Python
Python函数调用追踪实现代码
Nov 27 #Python
Numpy中np.max的用法及np.maximum区别
Nov 27 #Python
python 实现aes256加密
Nov 27 #Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 #Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
You might like
php 搜索框提示(自动完成)实例代码
2012/02/05 PHP
thinkphp的c方法使用示例
2014/02/24 PHP
浅析PHP关键词替换的类(避免重复替换,保留与还原原始链接)
2015/09/22 PHP
php创建桌面快捷方式实现方法
2015/12/31 PHP
PHPTree――php快速生成无限级分类
2018/03/30 PHP
PHP实现的多维数组去重操作示例
2018/07/21 PHP
给Flash加一个超链接(推荐使用透明层)兼容主流浏览器
2013/06/09 Javascript
jQuery使用post方法提交数据实例
2015/03/25 Javascript
JS实现的竖向折叠菜单代码
2015/10/21 Javascript
Windows下用PyCharm和Visual Studio开始Python编程
2015/10/26 Javascript
JavaScript创建对象的方式小结(4种方式)
2015/12/17 Javascript
jquery正则表达式验证(手机号、身份证号、中文名称)
2015/12/31 Javascript
详解javascript的变量与标识符
2016/01/04 Javascript
Bootstrap基本组件学习笔记之缩略图(13)
2016/12/08 Javascript
AngularJs定时器$interval 和 $timeout详解
2017/05/25 Javascript
JavaScript之json_动力节点Java学院整理
2017/06/29 Javascript
mpvue 项目初始化及实现授权登录的实现方法
2020/07/20 Javascript
盘点提高 Python 代码效率的方法
2014/07/03 Python
利用Hyperic调用Python实现进程守护
2018/01/02 Python
Python HTML解析模块HTMLParser用法分析【爬虫工具】
2019/04/05 Python
Python大数据之从网页上爬取数据的方法详解
2019/11/16 Python
selenium+python配置chrome浏览器的选项的实现
2020/03/18 Python
简单了解Django项目应用创建过程
2020/07/06 Python
使用python爬取抖音app视频的实例代码
2020/12/01 Python
英国领先的鞋类零售商:Shoe Zone
2018/12/13 全球购物
建筑工程专业毕业生自荐信
2013/10/19 职场文书
应付会计岗位职责
2013/12/12 职场文书
《少年王勃》教学反思
2014/04/27 职场文书
计算机专业自荐信
2014/05/24 职场文书
学校班班通实施方案
2014/06/11 职场文书
2014教师年度思想工作总结
2014/11/10 职场文书
优秀高中学生评语
2014/12/30 职场文书
2016年端午节红领巾广播稿
2015/12/18 职场文书
管理者日常工作必备:22条企业管理流程模板!
2019/07/12 职场文书
详解Spring事件发布与监听机制
2021/06/30 Java/Android
JAVA长虹键法之建造者Builder模式实现
2022/04/10 Java/Android