编程 Python

python爬虫实战之爬取京东商城实例教程

Posted in Python onApril 24, 2017

前言

本文主要介绍的是利用python爬取京东商城的方法，文中介绍的非常详细，下面话不多说了，来看看详细的介绍吧。

主要工具

scrapy
BeautifulSoup
requests

分析步骤

1、打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中，如下图：

python爬虫实战之爬取京东商城实例教程

3、接着我们打开网页源码就会发现其实网页源码只有前30条的数据，后面30条的数据找不到，因此这里就会想到ajax，一种异步加载的方式，于是我们就要开始抓包了，我们打开chrome按F12，点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包，如下图：

python爬虫实战之爬取京东商城实例教程

4、从上面可以找到请求的url，发现有很长的一大段，我们试着去掉一些看看可不可以打开，简化之后的url=https://search.jd.com/s_new.php?keyword=%E8%A3%A4%E5%AD%90&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&offset=3&wq=%E8%A3%A4%E5%AD%90&page={0}&s=26&scrolling=y&pos=30&show_items={1}
这里的showitems是裤子的id,page是翻页的，可以看出来我们只需要改动两处就可以打开不同的网页了，这里的page很好找，你会发现一个很好玩的事情，就是主网页的page是奇数，但是异步加载的网页中的page是偶数，因此这里只要填上偶数就可以了，但是填奇数也是可以访问的。这里的show_items就是id了，我们可以在页面的源码中找到，通过查找可以看到id在li标签的data-pid中，详情请看下图

python爬虫实战之爬取京东商城实例教程

上面我们知道怎样找参数了，现在就可以撸代码了

代码讲解

1、首先我们要获取网页的源码，这里我用的requests库，安装方法为pip install requests，代码如下:

def get_html(self):
 res = requests.get(self.url, headers=self.headers)
 html = res.text 
 return html #返回的源代码

2、根据上面的分析可以知道，第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下：

def get_pids(self):
 html = self.get_html()
 soup = BeautifulSoup(html, 'lxml') #创建BeautifulSoup对象
 lis = soup.find_all("li", class_='gl-item') #查找li标签
 for li in lis:
  data_pid = li.get("data-pid")  #得到li标签下的data-pid
  if (data_pid):
   self.pids.add(data_pid) #这里的self.pids是一个集合，用于过滤重复的

3、下面就是获取前30张图片的url了，也就是主网页上的图片，其中一个问题是img标签的属性并不是一样的，也就是源码中的img中不都是src属性，一开始已经加载出来的图片就是src属性，但是没有加载出来的图片是data-lazy-img，因此在解析页面的时候要加上讨论。

代码如下：

def get_src_imgs_data(self):
 html = self.get_html()
 soup = BeautifulSoup(html, 'lxml')
 divs = soup.find_all("div", class_='p-img') # 图片
 # divs_prices = soup.find_all("div", class_='p-price') #价格
 for div in divs:
  img_1 = div.find("img").get('data-lazy-img') # 得到没有加载出来的url
  img_2 = div.find("img").get("src") # 得到已经加载出来的url
  if img_1:
   print img_1
   self.sql.save_img(img_1)
   self.img_urls.add(img_1)
  if img_2:
   print img_2
   self.sql.save_img(img_2)
   self.img_urls.add(img_2)

前三十张图片找到了，现在开始找后三十张图片了，当然是要请求那个异步加载的url，前面已经把需要的参数给找到了，下面就好办了，直接贴代码：

def get_extend_imgs_data(self):
 # self.search_urls=self.search_urls+','.join(self.pids)
 self.search_urls = self.search_urls.format(str(self.search_page), ','.join(self.pids)) #拼凑url,将获得的单数拼成url,其中show_items中的id是用','隔开的，因此要对集合中的每一个id分割，page就是偶数，这里直接用主网页的page加一就可以了
 print self.search_urls
 html = requests.get(self.search_urls, headers=self.headers).text #请求
 soup = BeautifulSoup(html, 'lxml') 
 div_search = soup.find_all("div", class_='p-img') #解析
 for div in div_search: 
  img_3 = div.find("img").get('data-lazy-img') #这里可以看到分开查找img属性了
  img_4 = div.find("img").get("src")
  if img_3: #如果是data-lazy-img
   print img_3
   self.sql.save_img(img_3) #存储到数据库
   self.img_urls.add(img_3)  #用集合去重
  if img_4: #如果是src属性
   print img_4
   self.sql.save_img(img_4)  
   self.img_urls.add(img_4)

4、通过上面就可以爬取了，但是还是要考虑速度的问题，这里我用了多线程，直接每一页面开启一个线程，速度还是可以的，感觉这个速度还是可以的，几分钟解决问题，总共爬取了100个网页,这里的存储方式是mysql数据库存储的，要用发哦MySQLdb这个库，详情自己百度。

当然也可以用mogodb，但是还没有学呢，想要的源码的朋友请看下面：

一、GitHub源码

二、本地下载

拓展总结

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词，如果你想要爬取更多的信息，可以将这两个词改成你想要搜索的词即可，直接将汉字写上，在请求的时候会自动帮你编码的，我也试过了，可以抓取源码的，如果你想要不断的抓取，可以将要搜索的词写上文件里，然后从文件中读取就可以了。以上只是一个普通的爬虫，并没有用到什么框架，接下来将会写scrapy框架爬取的，请继续关注三水点靠木哦！！！

好了，以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python爬虫实战之爬取京东商城实例教程

- Author -

Chenjiabing

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

zbar解码二维码和条形码示例

Feb 07 Python

Python利用正则表达式匹配并截取指定子串及去重的方法

Jul 30 Python

详解python实现读取邮件数据并下载附件的实例

Aug 03 Python

Python for循环与range函数的使用详解

Mar 23 Python

详解python 3.6 安装json 模块(simplejson)

Apr 02 Python

详解如何在cmd命令窗口中搭建简单的python开发环境

Aug 29 Python

python闭包、深浅拷贝、垃圾回收、with语句知识点汇总

Mar 11 Python

Python map及filter函数使用方法解析

Aug 06 Python

python pip如何手动安装二进制包

Sep 30 Python

pytorch 移动端部署之helloworld的使用

Oct 30 Python

python实现模拟器爬取抖音评论数据的示例代码

Jan 06 Python

Python使用plt.boxplot()函数绘制箱图、常用方法以及含义详解

Aug 14 Python

python中urllib.unquote乱码的原因与解决方法

Apr 24 #Python

Python面向对象特殊成员

Apr 24 #Python

Python解惑之整数比较详解

Apr 24 #Python

Python解惑之True和False详解

Apr 24 #Python

Python新手入门最容易犯的错误总结

Apr 24 #Python

Python正则抓取新闻标题和链接的方法示例

Apr 24 #Python

Python的爬虫框架scrapy用21行代码写一个爬虫

Apr 24 #Python

You might like

Terran历史背景

2020/03/14 星际争霸

4.与数据库的连接

2006/10/09 PHP

Smarty Foreach 使用说明

2010/03/23 PHP

ThinkPHP让分页保持搜索状态的方法

2014/07/02 PHP

PHP图像处理之使用imagecolorallocate()函数设置颜色例子

2014/11/19 PHP

学习php设计模式 php实现门面模式（Facade）

2015/12/07 PHP

原生JS实现Ajax通过POST方式与PHP进行交互的方法示例

2018/05/12 PHP

php中的explode()函数实例介绍

2019/01/18 PHP

js获取IFRAME当前的URL的方法

2013/11/13 Javascript

分享jQuery封装好的一些常用操作

2016/07/28 Javascript

搭建Bootstrap离线文档的方法

2016/12/02 Javascript

JavaScript自定义文本框光标

2017/03/05 Javascript

jquery拼接ajax 的json和字符串拼接的方法

2017/03/11 Javascript

web前端vue之CSS过渡效果示例

2018/01/10 Javascript

vue-router传递参数的几种方式实例详解

2018/11/13 Javascript

JavaScript中this用法学习笔记

2019/03/17 Javascript

layui表格数据重载

2019/07/27 Javascript

vue 父组件通过$refs获取子组件的值和方法详解

2019/11/07 Javascript

python实现同时给多个变量赋值的方法

2015/04/30 Python

python实现马耳可夫链算法实例分析

2015/05/20 Python

python 字典(dict)按键和值排序

2016/06/28 Python

Django 根据数据模型models创建数据表的实例

2018/05/27 Python

Python3爬虫之urllib携带cookie爬取网页的方法

2018/12/28 Python

使用python opencv对目录下图片进行去重的方法

2019/01/12 Python

python3.6 如何将list存入txt后再读出list的方法

2019/07/02 Python

在Pycharm中安装Pandas库方法(简单易懂)

2021/02/20 Python

英国在线药房：Express Chemist

2019/03/28 全球购物

中医临床专业自我鉴定范文

2014/01/15 职场文书

加拿大探亲邀请信

2014/01/28 职场文书

英语一分钟演讲稿

2014/04/29 职场文书

5s推行计划书

2014/05/06 职场文书

商业项目策划方案

2014/06/05 职场文书

中学音乐课教学反思

2016/02/18 职场文书

共青团优秀团员申请书（范文）

2019/08/15 职场文书

只需要100行Python代码就可以实现的贪吃蛇小游戏

2021/05/27 Python

Mysql索引失效数据库表中有索引还是查询很慢

2022/05/15 MySQL