Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
python检测远程服务器tcp端口的方法
Mar 14 Python
Django框架中render_to_response()函数的使用方法
Jul 16 Python
Python编码类型转换方法详解
Jul 01 Python
Python实现屏幕截图的两种方式
Feb 05 Python
flask-restful使用总结
Dec 04 Python
Python字符串的常见操作实例小结
Apr 08 Python
python numpy实现文件存取的示例代码
May 26 Python
python+selenium实现自动化百度搜索关键词
Jun 03 Python
详解Python中的测试工具
Jun 09 Python
Python如何实现转换URL详解
Jul 02 Python
Python字符串处理的8招秘籍(小结)
Aug 13 Python
python实现sm2和sm4国密(国家商用密码)算法的示例
Sep 26 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
php 在线打包_支持子目录
2008/06/28 PHP
Apache启动报错No space left on device: AH00023该怎么解决
2015/10/16 PHP
php限制文件下载速度的代码
2015/10/20 PHP
一个简单至极的PHP缓存类代码
2015/10/23 PHP
PHP中array_keys和array_unique函数源码的分析
2016/02/26 PHP
解决FLASH需要点击激活的代码
2006/12/20 Javascript
关于使用runtimeStyle属性问题讨论文章
2007/03/08 Javascript
让IE8支持DOM 2(不用框架!)
2009/12/31 Javascript
THREE.JS入门教程(1)THREE.JS使用前了解
2013/01/24 Javascript
深入理解javascript中return的作用
2013/12/30 Javascript
jQuery的3种请求方式$.post,$.get,$.getJSON
2014/03/28 Javascript
JavaScript拆分字符串时产生空字符的解决方案
2014/09/26 Javascript
JS+CSS实现仿新浪微博搜索框的方法
2015/02/24 Javascript
Spring Boot+AngularJS+BootStrap实现进度条示例代码
2017/03/02 Javascript
Angularjs使用指令做表单校验的方法
2017/03/31 Javascript
详解vue项目首页加载速度优化
2017/10/18 Javascript
微信小程序实现传参数的几种方法示例
2018/01/10 Javascript
Vue中的基础过渡动画及实现原理解析
2018/12/04 Javascript
mongodb初始化并使用node.js实现mongodb操作封装方法
2019/04/02 Javascript
详解JS实现简单的时分秒倒计时代码
2019/04/25 Javascript
详解Nuxt.js中使用Element-UI填坑
2019/09/06 Javascript
Python中函数的多种格式和使用实例及小技巧
2015/04/13 Python
利用Python如何制作好玩的GIF动图详解
2018/07/11 Python
django缓存配置的几种方法详解
2018/07/16 Python
pytorch中tensor的合并与截取方法
2018/07/26 Python
python 定时任务去检测服务器端口是否通的实例
2019/01/26 Python
Django网络框架之创建虚拟开发环境操作示例
2019/06/06 Python
python实现京东订单推送到测试环境,提供便利操作示例
2019/08/09 Python
python实现爬虫抓取小说功能示例【抓取金庸小说】
2019/08/09 Python
通过Python编写一个简单登录功能过程解析
2019/09/04 Python
pytorch+lstm实现的pos示例
2020/01/14 Python
golang/python实现归并排序实例代码
2020/08/30 Python
Python经典五人分鱼实例讲解
2021/01/04 Python
NUK奶瓶美国官网:NUK美国
2016/09/26 全球购物
sql查询结果列拼接成逗号分隔的字符串方法
2021/05/25 SQL Server
PostgreSQL并行计算算法及参数强制并行度设置方法
2022/04/07 PostgreSQL