python爬虫中采集中遇到的问题整理


Posted in Python onNovember 27, 2020

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python MD5文件生成码
Jan 12 Python
python中实现将多个print输出合成一个数组
Apr 19 Python
Python开发最牛逼的IDE——pycharm
Aug 01 Python
Python实现将通信达.day文件读取为DataFrame
Dec 22 Python
Python根据欧拉角求旋转矩阵的实例
Jan 28 Python
python实现关闭第三方窗口的方法
Jun 28 Python
Django ImageFiled上传照片并显示的方法
Jul 28 Python
Python 获取项目根路径的代码
Sep 27 Python
python:批量统计xml中各类目标的数量案例
Mar 10 Python
如何写python的配置文件
Jun 07 Python
拿来就用!Python批量合并PDF的示例代码
Aug 10 Python
python程序的组织结构详解
Dec 06 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 #Python
Python函数调用追踪实现代码
Nov 27 #Python
Numpy中np.max的用法及np.maximum区别
Nov 27 #Python
python 实现aes256加密
Nov 27 #Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 #Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
You might like
PHP实现图片简单上传
2006/10/09 PHP
php中利用str_pad函数生成数字递增形式的产品编号
2013/09/30 PHP
WordPress中用于获取搜索表单的PHP函数使用解析
2016/01/05 PHP
php rmdir使用递归函数删除非空目录实例详解
2016/10/20 PHP
thinkPHP模板引擎用法示例
2016/12/08 PHP
理清PHP在Linxu下执行时的文件权限方法
2017/06/07 PHP
利用javascript实现一些常用软件的下载导航
2009/08/03 Javascript
VS2008中使用JavaScript调用WebServices
2014/12/18 Javascript
jQuery实现带滚动线条导航效果的方法
2015/01/30 Javascript
浅析jquery如何判断滚动条滚到页面底部并执行事件
2016/04/29 Javascript
浅析JavaScriptSerializer类的序列化与反序列化
2016/11/22 Javascript
利用node.js+mongodb如何搭建一个简单登录注册的功能详解
2017/07/30 Javascript
值得收藏的八个常用的js正则表达式
2018/10/19 Javascript
微信小程序-form表单提交代码实例
2019/04/29 Javascript
nodejs中request库使用HTTPS代理的方法
2019/04/30 NodeJs
基于vue实现一个神奇的动态按钮效果
2019/05/15 Javascript
解决Layui中layer报错的问题
2019/09/03 Javascript
javascript浅层克隆、深度克隆对比及实例解析
2020/02/09 Javascript
python共享引用(多个变量引用)示例代码
2013/12/04 Python
Python实现简单HTML表格解析的方法
2015/06/15 Python
python使用正则表达式替换匹配成功的组并输出替换的次数
2017/11/22 Python
Pandas中把dataframe转成array的方法
2018/04/13 Python
python实现将一个数组逆序输出的方法
2018/06/25 Python
用Python读取几十万行文本数据
2018/12/24 Python
python+selenium+PhantomJS抓取网页动态加载内容
2020/02/25 Python
Pycharm中安装Pygal并使用Pygal模拟掷骰子(推荐)
2020/04/08 Python
Python使用tkinter制作在线翻译软件
2021/02/22 Python
HTML5 3D衣服摇摆动画特效
2016/03/17 HTML / CSS
canvas实现按住鼠标移动绘制出轨迹的示例代码
2018/02/05 HTML / CSS
英国一家专门出售品牌鞋子的网站:Allsole
2016/08/07 全球购物
TUMI澳大利亚网站:美国旅行箱包品牌
2017/03/27 全球购物
员工年度工作总结2015
2015/05/18 职场文书
逃出克隆岛观后感
2015/06/09 职场文书
婚前协议书怎么写,才具有法律效力呢 ?
2019/06/28 职场文书
python实战之90行代码写个猜数字游戏
2021/04/22 Python
2022漫威和DC电影上映作品
2022/04/05 欧美动漫