python定向爬取淘宝商品价格


Posted in Python onFebruary 27, 2018

python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下

import requests
import re

def getHTMLText(url):
  try:
    r = requests.get(url, timeout=30)
    r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
    r.encoding= r.apparent_encoding
    return r.text
  except:
    return ""

def parsePage(ilt,html):
  try:
    plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
    tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
    for i in range(len(plt)):
      price = eval(plt[i].split(':')[1])
      title = eval(tlt[i].split(':')[1])
      ilt.append([price,title])
  except:
    print ("")


def PrintGoodsList(ilt):
  tplt = "{:4}\t{:8}\t{:16}"
  print (tplt.format("序号","价格","商品名称"))
  count = 0
  for g in ilt:
    count = count + 1
    print (tplt.format(count,g[0],g[1]))
def main():
  goods = '书包'
  depth = 2
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList=[]
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44*i)
      html= getHTMLText(url)
      parsePage(infoList,html)
    except:
      continue

  PrintGoodsList(infoList)

main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python sys.path详细介绍
Oct 17 Python
python的类变量和成员变量用法实例教程
Aug 25 Python
在Django的session中使用User对象的方法
Jul 23 Python
python中字符串内置函数的用法总结
Sep 13 Python
python多个模块py文件的数据共享实例
Jan 11 Python
python 获取毫秒数,计算调用时长的方法
Feb 20 Python
Python异常处理例题整理
Jul 07 Python
python numpy数组复制使用实例解析
Jan 10 Python
Python中文分词库jieba,pkusegwg性能准确度比较
Feb 11 Python
python中rc1什么意思
Jun 19 Python
python神经网络编程之手写数字识别
May 08 Python
关于python中模块和重载的问题
Nov 02 Python
python抓取文件夹的所有文件
Feb 27 #Python
python数据分析数据标准化及离散化详解
Feb 26 #Python
批量将ppt转换为pdf的Python代码 只要27行!
Feb 26 #Python
python 3利用Dlib 19.7实现摄像头人脸检测特征点标定
Feb 26 #Python
python3利用Dlib19.7实现人脸68个特征点标定
Feb 26 #Python
python微信跳一跳系列之棋子定位颜色识别
Feb 26 #Python
python微信跳一跳系列之棋子定位像素遍历
Feb 26 #Python
You might like
上传多个文件的PHP脚本
2006/11/26 PHP
php无限遍历目录示例
2014/02/21 PHP
php使用memcoder将视频转成mp4格式的方法
2015/03/12 PHP
php图片上传类 附调用方法
2016/05/15 PHP
php下载文件超时时间的设置方法
2016/10/06 PHP
CI框架实现框架前后端分离的方法详解
2016/12/30 PHP
php实现和c#一致的DES加密解密实例
2017/07/24 PHP
jquery 插件学习(四)
2012/08/06 Javascript
Javascript小技能总结(推荐)
2016/06/02 Javascript
javascript之Array 数组对象详解
2016/06/07 Javascript
javascript类型系统——日期Date对象全面了解
2016/07/13 Javascript
js获取form表单所有数据的简单方法
2016/08/18 Javascript
JS不完全国际化&本地化手册 之 理论篇
2016/09/27 Javascript
JS button按钮实现submit按钮提交效果
2016/11/01 Javascript
Vue通过input筛选数据
2020/10/26 Javascript
基于js中this和event 的区别(详解)
2017/10/24 Javascript
vue实现仿淘宝结账页面实例代码
2017/11/08 Javascript
详解一个小实例理解js原型和继承
2019/04/24 Javascript
跟老齐学Python之重回函数
2014/10/10 Python
Python写入数据到MP3文件中的方法
2015/07/10 Python
python监控文件并且发送告警邮件
2018/06/21 Python
python生成requirements.txt的两种方法
2019/09/18 Python
使用 tf.nn.dynamic_rnn 展开时间维度方式
2020/01/21 Python
使用Python获取爱奇艺电视剧弹幕数据的示例代码
2021/01/12 Python
使用sublime text3搭建Python编辑环境的实现
2021/01/12 Python
HTML5自定义元素播放焦点图动画的实现
2019/09/25 HTML / CSS
GNC健安喜美国官网:美国第一营养品牌
2016/07/22 全球购物
营销主管自我评价怎么写
2013/09/19 职场文书
办公室文员工作职责
2014/01/31 职场文书
代理协议书
2014/04/22 职场文书
社会实践活动总结报告
2014/04/29 职场文书
爱岗敬业演讲稿
2014/05/05 职场文书
学年个人总结范文
2015/03/05 职场文书
小学运动会加油稿
2015/07/22 职场文书
nginx如何将http访问的网站改成https访问
2021/03/31 Servers
Java设计模式中的命令模式
2022/04/28 Java/Android