Python通过正则库爬取淘宝商品信息代码实例


Posted in Python onMarch 02, 2020

使用正则库爬取淘宝商品的商品信息,首先我们需要确定想要爬取的对象

我们在淘宝里搜索“python”,出来的结果

Python通过正则库爬取淘宝商品信息代码实例

从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:https://s.taobao.com/search?q=python

然后翻页,经过对比发现,翻页后,变化的关键字是s,每次翻页,s便以44的倍数增长(可以数一下每页显示的商品数量,刚好是44)
所以可以根据关键字“s=”,来设置爬取的深度(爬取多少页)

右键查看源码,商品名称可能的关键字是“title”和“raw_title”,进一步多看几个商品的名称,发现选取“raw_title”比较合适;商品价格自然就是“view_price”(通过比对淘宝商品展示页面);所以商品名称和商品价格分别是以"raw_title":"名称"和"view_price":"价格",这样的键/值对的形式展示的。

# coding:utf-8

import requests
import re

goods = '水杯'
url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)
html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html) # 正则提取商品名称
plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) # 正则提示商品价格

print(tlist)
print(plist)
print(type(plist)) # 正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

利用for循环,把每个商品的名称和价格组成一个列表,然后把这写列表再追加到一个大列表中:

goodlist = []
for i in range(len(tlist)):
  title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
  price = eval(plist[i].split(':')[1])
  goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表,然后把所有商品组成的列表追加到一个大列表中
  print(goodlist)

大概的思路就是这样的。

def get_html(url):
  """获取源码html"""
  try:
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    return r.text
  except:
    print("获取失败")
def get_data(html, goodlist):
  """使用re库解析商品名称和价格
  tlist:商品名称列表
  plist:商品价格列表"""
  tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)
  plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
  for i in range(len(tlist)):
    title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
    price = eval(plist[i].split(':')[1])
    goodlist.append([title, price])


def write_data(list, num):
  # with open('E:/Crawler/case/taob2.txt', 'a') as data:
  #  print(list, file=data)
  for i in range(num): # num控制把爬取到的商品写进多少到文本中
    u = list[i]
    with open('E:/Crawler/case/taob.txt', 'a') as data:
      print(u, file=data)


def main():
  goods = '水杯'
  depth = 3  # 定义爬取深度,即翻页处理
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList = []
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44 * i) # 因为淘宝显示每页44个商品,第一页i=0,一次递增
      html = get_html(url)
      get_data(html, infoList)
    except:
      continue
  write_data(infoList, len(infoList))
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python调用微信公众平台接口操作示例
Jul 08 Python
python自动裁剪图像代码分享
Nov 25 Python
python执行CMD指令,并获取返回的方法
Dec 19 Python
python实现简单加密解密机制
Mar 19 Python
Python3+Appium实现多台移动设备操作的方法
Jul 05 Python
Python实现微信机器人的方法
Sep 06 Python
Python 取numpy数组的某几行某几列方法
Oct 24 Python
django实现用户注册实例讲解
Oct 30 Python
python+Django+pycharm+mysql 搭建首个web项目详解
Nov 29 Python
pyenv虚拟环境管理python多版本和软件库的方法
Dec 26 Python
Python异步编程之协程任务的调度操作实例分析
Feb 01 Python
4种非常实用的python内置数据结构
Apr 28 Python
基于Python爬取爱奇艺资源过程解析
Mar 02 #Python
python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例
Mar 02 #Python
Python处理mysql特殊字符的问题
Mar 02 #Python
新手入门学习python Numpy基础操作
Mar 02 #Python
python中数据库like模糊查询方式
Mar 02 #Python
python读取文件指定行内容实例讲解
Mar 02 #Python
python GUI库图形界面开发之PyQt5选项卡控件QTabWidget详细使用方法与实例
Mar 01 #Python
You might like
NOT NULL 和NULL
2007/01/15 PHP
PHP 工厂模式使用方法
2010/05/18 PHP
PHP随机生成随机个数的字母组合示例
2014/01/14 PHP
destoon复制新模块的方法
2014/06/21 PHP
Codeigniter校验ip地址的方法
2015/03/21 PHP
cakephp2.X多表联合查询join及使用分页查询的方法
2017/02/23 PHP
js下获得客户端操作系统的函数代码(1:vista,2:windows7,3:2000,4:xp,5:2003,6:2008)
2011/10/31 Javascript
使用jquery修改表单的提交地址基本思路
2014/06/04 Javascript
js判断当前页面用什么浏览器打开的方法
2016/01/06 Javascript
微信小程序 教程之引用
2016/10/18 Javascript
基于Bootstrap仿淘宝分页控件实现代码
2016/11/07 Javascript
微信小程序使用navigateTo数据传递的实例
2017/09/26 Javascript
Node.js中环境变量process.env的一些事详解
2017/10/26 Javascript
Angular4集成ng2-file-upload的上传组件
2018/03/14 Javascript
JavaScript实现正则去除a标签并保留内容的方法【测试可用】
2018/07/18 Javascript
Element UI 自定义正则表达式验证方法
2018/09/04 Javascript
javascript中的数据类型检测方法详解
2019/08/07 Javascript
layui 点击重置按钮, select 并没有被重置的解决方法
2019/09/03 Javascript
微信小程序转发事件实现解析
2019/10/22 Javascript
js计时事件实现圆形时钟
2020/03/25 Javascript
使用Karma做vue组件单元测试的实现
2020/01/16 Javascript
JS实现时间校验的代码
2020/05/25 Javascript
python实现探测socket和web服务示例
2014/03/28 Python
python抓取网页图片示例(python爬虫)
2014/04/27 Python
python 画三维图像 曲面图和散点图的示例
2018/12/29 Python
Python实现的拉格朗日插值法示例
2019/01/08 Python
Django的用户模块与权限系统的示例代码
2019/07/24 Python
Numpy之将矩阵拉成向量的实例
2019/11/30 Python
弄清Pytorch显存的分配机制
2020/12/10 Python
python中reload重载实例用法
2020/12/15 Python
2014年高三毕业生自我评价
2014/01/11 职场文书
会计员岗位职责
2014/03/15 职场文书
优秀工会工作者事迹材料
2014/06/02 职场文书
学校推普周活动总结
2015/05/07 职场文书
python套接字socket通信
2022/04/01 Python
python神经网络 使用Keras构建RNN训练
2022/05/04 Python