python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用htpasswd实现基本认证授权的例子
Jun 10 Python
python字典的常用操作方法小结
May 16 Python
浅谈python内置变量-reversed(seq)
Jun 21 Python
Python import与from import使用及区别介绍
Sep 06 Python
对python插入数据库和生成插入sql的示例讲解
Nov 14 Python
python使用adbapi实现MySQL数据库的异步存储
Mar 19 Python
对PyQt5中树结构的实现方法详解
Jun 17 Python
python3用PIL把图片转换为RGB图片的实例
Jul 04 Python
pycharm新建一个python工程步骤
Jul 16 Python
Tensorflow模型实现预测或识别单张图片
Jul 19 Python
python集合能干吗
Jul 19 Python
Pycharm无法打开双击没反应的问题及解决方案
Aug 17 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
一个简洁的PHP可逆加密函数(分享)
2013/06/06 PHP
PHP 读取文本文件内容并分页显示
2016/01/02 PHP
PHP中PDO的事务处理分析
2016/04/07 PHP
thinkphp的dump函数无输出实例代码
2016/11/15 PHP
Centos 6.5系统下编译安装PHP 7.0.13的方法
2016/12/19 PHP
javascript encodeURI和encodeURIComponent的比较
2010/04/03 Javascript
在Windows上安装Node.js模块的方法
2011/09/25 Javascript
cookie在javascript中的使用技巧以及隐私在服务器端的设置
2012/12/03 Javascript
使用ImageMagick进行图片缩放、合成与裁剪(js+python)
2013/09/16 Javascript
node.js中的fs.fstat方法使用说明
2014/12/15 Javascript
js改变embed标签src值的方法
2015/04/10 Javascript
jquery实现点击变换导航样式的方法
2015/08/31 Javascript
JS动态添加iframe的代码
2015/09/14 Javascript
Jquery 全选反选实例代码
2015/11/19 Javascript
简要了解jQuery移动web开发的响应式布局设计
2015/12/04 Javascript
JS按钮闪烁功能的实现代码
2017/07/21 Javascript
JavaScript原生实现观察者模式的示例
2017/12/15 Javascript
vue-cli开发环境实现跨域请求的方法
2018/04/07 Javascript
vue中$nextTick的用法讲解
2019/01/17 Javascript
React中this丢失的四种解决方法
2019/03/12 Javascript
node.js使用http模块创建服务器和客户端完整示例
2020/02/10 Javascript
详解Vue.js 响应接口
2020/07/04 Javascript
python range()函数取反序遍历sequence的方法
2018/06/25 Python
详解Python 爬取13个旅游城市,告诉你五一大家最爱去哪玩?
2019/05/07 Python
python函数的万能参数传参详解
2019/07/26 Python
Python字典的概念及常见应用实例详解
2019/10/30 Python
Pat McGrath Labs官网:世界上最有影响力的化妆师推出的彩妆品牌
2018/01/07 全球购物
生物有机护肤品:Aurelia Probiotic Skincare
2018/01/31 全球购物
Ivory Isle Designs美国/加拿大:婚礼和活动文具公司
2018/08/21 全球购物
社区七一党员活动方案
2014/01/25 职场文书
承认错误的检讨书
2014/01/30 职场文书
董事长秘书职责
2014/01/31 职场文书
领导干部作风建设自查报告
2014/10/23 职场文书
《领导干部从政道德启示录》学习心得体会
2016/01/20 职场文书
欧元符号 €
2022/02/17 杂记
PYTHON 使用 Pandas 删除某列指定值所在的行
2022/04/28 Python