python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用python检测主机存活端口及检查存活主机
Oct 12 Python
Python中str is not callable问题详解及解决办法
Feb 10 Python
Python3多线程爬虫实例讲解代码
Jan 05 Python
PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上
Apr 01 Python
Django 开发调试工具 Django-debug-toolbar使用详解
Jul 23 Python
Python Web程序搭建简单的Web服务器
Jul 31 Python
python global关键字的用法详解
Sep 05 Python
Python Dataframe常见索引方式详解
May 27 Python
Python如何在windows环境安装pip及rarfile
Jun 15 Python
python自动提取文本中的时间(包含中文日期)
Aug 31 Python
python 中 .py文件 转 .pyd文件的操作
Mar 04 Python
pytorch model.cuda()花费时间很长的解决
Jun 01 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
PHP 和 XML: 使用expat函数(三)
2006/10/09 PHP
解析PHP可变函数的经典用法
2013/06/20 PHP
Laravel中GraphQL接口请求频率实战记录
2020/09/01 PHP
IE6浏览器下resize事件被执行了多次解决方法
2012/12/11 Javascript
js数组方法扩展实现数组统计函数
2014/04/09 Javascript
JavaScript通过select动态更换图片的方法
2015/03/23 Javascript
AngularJS学习笔记之基本指令(init、repeat)
2015/06/16 Javascript
JavaScript的设计模式经典之代理模式
2016/02/24 Javascript
jquery replace方法去空格
2017/05/08 jQuery
React 高阶组件入门介绍
2018/01/11 Javascript
JavaScript常用内置对象用法分析
2019/07/09 Javascript
vue.js iview打包上线后字体图标不显示解决办法
2020/01/20 Javascript
原生js实现分页效果
2020/09/23 Javascript
python让图片按照exif信息里的创建时间进行排序的方法
2015/03/16 Python
讲解Python中的标识运算符
2015/05/14 Python
python 生成图形验证码的方法示例
2018/11/11 Python
python+numpy按行求一个二维数组的最大值方法
2019/07/09 Python
pandas中read_csv的缺失值处理方式
2019/12/19 Python
tensorflow实现训练变量checkpoint的保存与读取
2020/02/10 Python
button在IE6/7下的黑边去除方案
2012/12/24 HTML / CSS
ESDlife健康生活易:身体检查预订、搜寻及比较
2019/05/10 全球购物
英国健身超市:Fitness Superstore
2019/06/17 全球购物
工程师求职简历的自我评价分享
2013/10/10 职场文书
4s客服专员岗位职责
2013/12/01 职场文书
行政办公室岗位职责
2014/03/18 职场文书
警察先进个人事迹材料
2014/05/16 职场文书
解除财产保全担保书
2014/05/20 职场文书
企业职业病防治方案
2014/05/29 职场文书
安全标语口号
2014/06/09 职场文书
安全在我心中演讲稿
2014/09/01 职场文书
个人查摆剖析材料
2014/10/04 职场文书
办公室班子四风问题对照检查材料
2014/10/04 职场文书
2016年校园社会综合治理宣传月活动总结
2016/03/16 职场文书
美甲店的创业计划书模板
2019/08/23 职场文书
使用canvas仿Echarts实现金字塔图的实例代码
2021/11/11 HTML / CSS
《异世界四重奏》剧场版6月10日上映 PV视觉图原创角色发表
2022/03/20 日漫