编程 Python

Python爬取阿拉丁统计信息过程图解

Posted in Python onMay 12, 2020

背景

目前项目在移动端上，首推使用微信小程序。各项目的小程序访问数据有必要进行采集入库，方便后续做统计分析。虽然阿拉丁后台也提供了趋势分析等功能，但一个个的获取数据做数据分析是很痛苦的事情。通过将数据转换成sql持久化到数据库上，为后面的数据分析和展示提供了基础。

实现思路

阿拉丁产品分开放平台和统计平台两个产品线，目前开放平台有api及配套的文档。统计平台api需要收费，而且贼贵。既然没有现成的api可以获取数据，那么我们尝试一下用python抓取页面上的数据，毕竟python擅长干这种事情。

获取数据流程

1、首先登陆阿拉丁的统计平台，如下图

Python爬取阿拉丁统计信息过程图解

发现实际需要获取的关键数据主要是“新用户数”、“访问人数”、“访问次数”、“打开次数”、“次均停留时长”、“跳出率”、“累计用户”，而且这里有现成的昨日数据，那么我们一天爬一次这个页面然后格式化昨日数据入库就可以了。

2、打开浏览器F12，发现这个页面的数据主要来自链接如下图

Python爬取阿拉丁统计信息过程图解

这里隐去敏感信息token，默认是20条数据进行分页显示，那么问题来了，这里的token从哪里获取的呢？猜测这个token应该是用户登录之后生成的，只要有正确的token，就可以获取数据。

Python爬取阿拉丁统计信息过程图解

在preview标签中可以看到实际返回了50条的数据

Python爬取阿拉丁统计信息过程图解

展开详细的数据，这里隐去敏感信息app_key和app_name

Python爬取阿拉丁统计信息过程图解

展开第1条数据，可以看到详细的统计数据信息，现在我们的目标就是如何通过python获取这些信息。

Python爬取阿拉丁统计信息过程图解

登录过程

下面我们来看一下登录过程。浏览器退出账号之后，重新登录（账密方式登录），打开浏览器F12，发现实际登录请求的url地址如下图

Python爬取阿拉丁统计信息过程图解

注意content-type和user-agent参数，这里隐去敏感数据用户名、密码和secretkey, 这个secretkey又是哪里冒出来的呢？

Python爬取阿拉丁统计信息过程图解

不管三七二十一，先用postman请求一下这个地址，的确获取到了token。

Python爬取阿拉丁统计信息过程图解

前面登录url的payload中有code字段，实际用postman请求发现可以忽略。通过F12发现，验证码的url是通过拼接实现的，具体如下图。

Python爬取阿拉丁统计信息过程图解

如果验证码是强制需要的，我们可以先拼接好url获取图片，通过pytesseract进行识别，当然这里面可能存在准确率问题，不过既然这个目前是非必须的，咋们就忽略吧。

网页上退出登录，发现页面请求了token地址如下

Python爬取阿拉丁统计信息过程图解

直接用浏览器访问，可以看到secretKey

Python爬取阿拉丁统计信息过程图解

梳理一下：

1、目前我们已经有了登录的url、获取统计数据的url、用户名密码、secretKey等信息，code可忽略

2、登录完可以获取到token信息

3、可以通过token请求获取统计数据的url来获取数据

代码实现

1、login.py

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import requests
import json

#钉钉告警函数
def dingtalk(content):
  dingtalk_url = 'https://oapi.dingtalk.com/robot/send?access_token="请输入钉钉token"'
  dingtalk_header ={"Content-Type": "application/json"}
  dingtalk_payload = {"msgtype": "text","text": {"content": "%s" %content}}
  requests.post(dingtalk_url, data=json.dumps(dingtalk_payload), headers=dingtalk_header)

#获取secretkey函数
def get_secretkey():
  token_url = 'http://betaapi.aldwx.com/m/Login_reg/Login/token'
  header = {"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
       "user-agent": "User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}
  req = requests.post(token_url,headers=header).text
  return json.loads(req).get("secretKey")

#获取token函数
def get_token(secretkey):
  s = requests.Session()
  login_url = 'https://betaapi.aldwx.com/Main/action/Login_reg/Login/login'
  header = {"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
       "user-agent": "User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}

  payload = {"phone": "用户名",
        "password": "密码",
        "source": "0",
        "plan": "0",
        "creative": "0",
        "keyword1": "0",
        "secretKey": secretkey}
  req = s.post(login_url, data=payload, headers=header).text
  if json.loads(req).get("code") == 200:
    return json.loads(req).get("data").get("token")
  else:
    dingtalk("获取阿拉丁登录token失败，请检查!")
    return None

2、aldwx.py

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import requests
import json
from common.mysql_conn import DBAPI
from conf import settings
from login import get_token,get_secretkey,dingtalk

#定义写数据库函数
def exec_sql(sql):
  my_conn = DBAPI(settings.Params['host'], settings.Params['user'], settings.Params['password'], int(settings.Params['port']), settings.Params['database'], settings.Params['charset'])
  my_conn.conn_dml(sql)

#获取统计数据拼接成列表
def get_data(token):
  header = {"Content-Type": "application/x-www-form-urlencoded",
       "user-agent": "User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}
  url = 'http://betaapi.aldwx.com/upgrade/api/applet_homepage'
  payload = {'currentpage': '1', 'total': '80', 'token': token, 'appkey': '', 'is_demo': '0'}
  try:
      req = requests.post(url, data=payload, headers=header).text
      data = (json.loads(req).get("data"))
      sql_value = []
      for i in data:
        app_name = i.get('app_name')
        yesterday_data = i.get('countList')[1]
        create_time = yesterday_data.get('day')
        new_comer_count = yesterday_data.get('new_comer_count')
        visitor_count = yesterday_data.get('visitor_count')
        open_count = yesterday_data.get('open_count')
        total_page_count = yesterday_data.get('total_page_count')
        secondary_avg_stay_time = yesterday_data.get('secondary_avg_stay_time')
        bounce_rate = yesterday_data.get('bounce_rate')
        total_visitor_count = yesterday_data.get('total_visitor_count')
        value = "(\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\")" % (app_name, create_time, new_comer_count, visitor_count, open_count, total_page_count,secondary_avg_stay_time,bounce_rate, total_visitor_count)
        sql_value.append(value)
      if sql_value != 'None':
        return sql_value
      else:
        dingtalk("获取微信小程序统计信息失败,token: %s" %token)
  except Exception as e:
    dingtalk("获取微信小程序%s统计信息失败，%s" %e)

if __name__ == '__main__':
  secretkey=get_secretkey()
  token = get_token(secretkey)
  sql = """INSERT INTO operations_db.aldwx_stat (APP_NAME,CREATE_TIME,NEW_COMER_COUNT,VISITOR_COUNT,OPEN_COUNT,TOTAL_PAGE_COUNT,SECONDARY_AVG_STAY_TIME,BOUNCE_RATE,TOTAL_VISITOR_COUNT) VALUES"""
  value = get_data(token)
  #拼接并转换sql
  value = str(value).strip("'[").strip("]'").strip().replace("', '",",")
  sql = "%s%s;" % (sql, value)
  print(sql)
  exec_sql(sql)

3、入库效果

Python爬取阿拉丁统计信息过程图解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬取阿拉丁统计信息过程图解

- Author -

ylw6006

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现获取某天是某个月中的第几周

Feb 11 Python

python with提前退出遇到的坑与解决方案

Jan 05 Python

Python多继承顺序实例分析

May 26 Python

Pandas的read_csv函数参数分析详解

Jul 02 Python

在django admin中添加自定义视图的例子

Jul 26 Python

Python 函数list&read&seek详解

Aug 28 Python

python实现图像拼接功能

Mar 23 Python

Python接口测试文件上传实例解析

May 22 Python

python实现时间序列自相关图(acf)、偏自相关图(pacf)教程

Jun 03 Python

如何验证python安装成功

Jul 06 Python

python 使用递归的方式实现语义图片分割功能

Jul 16 Python

Django用内置方法实现简单搜索功能的方法

Dec 18 Python

PyPDF2读取PDF文件内容保存到本地TXT实例

May 12 #Python

Python3.7下安装pyqt5的方法步骤(图文)

May 12 #Python

小 200 行 Python 代码制作一个换脸程序

May 12 #Python

python3用PyPDF2解析pdf文件,用正则匹配数据方式

May 12 #Python

Python如何根据时间序列数据作图

May 12 #Python

python logging.info在终端没输出的解决

May 12 #Python

你应该知道的Python3.6、3.7、3.8新特性小结

May 12 #Python

You might like

php学习之简单计算器实现代码

2011/06/09 PHP

探讨:web上存漏洞及原理分析、防范方法

2013/06/29 PHP

php的hash算法介绍

2014/02/13 PHP

如何使用GDB调试PHP程序

2015/12/08 PHP

php empty 函数判断结果为空但实际值却为非空的原因解析

2018/05/28 PHP

Laravel使用模型实现like模糊查询的例子

2019/10/24 PHP

PHP实现简易图形计算器

2020/08/28 PHP

关于js中window.location.href,location.href,parent.location.href,top.location.href的用法与区别

2010/10/18 Javascript

分享一个自己动手写的jQuery分页插件

2014/08/28 Javascript

Javascript检查图片大小不要让大图片撑破页面

2014/11/04 Javascript

JavaScript中诡异的delete操作符

2015/03/12 Javascript

JQuery中DOM实现事件移除的方法

2015/06/13 Javascript

跨域请求的完美解决方法(JSONP, CORS)

2016/06/12 Javascript

jQuery ready()和onload的加载耗时分析

2016/09/08 Javascript

探索Vue.js component内容实现

2016/11/03 Javascript

jquery实现简单的瀑布流布局

2016/12/11 Javascript

jQuery EasyUI 组件加上“清除”功能实例详解

2017/04/11 jQuery

深入理解node.js http模块

2018/01/24 Javascript

微信小程序实现树莓派（raspberry pi）小车控制

2020/02/12 Javascript

Vue2.4+新增属性.sync、$attrs、$listeners的具体使用

2020/03/08 Javascript

js实现鼠标点击飘爱心效果

2020/08/19 Javascript

[46:38]完美世界DOTA2联赛PWL S2 Magma vs PXG 第三场 11.28

2020/12/02 DOTA

python的Template使用指南

2014/09/11 Python

python中使用mysql数据库详细介绍

2015/03/27 Python

python实现class对象转换成json/字典的方法

2016/03/11 Python

python检测主机的连通性并记录到文件的实例

2018/06/21 Python

你还在@微信官方？聊聊Python生成你想要的微信头像

2019/09/25 Python

Python matplotlib画图时图例说明(legend)放到图像外侧详解

2020/05/16 Python

基于Python-Pycharm实现的猴子摘桃小游戏(源代码)

2021/02/20 Python

使用HTML5 Canvas绘制直线或折线等线条的方法讲解

2016/03/14 HTML / CSS

瑜伽服装品牌：露露柠檬（lululemon athletica）

2017/06/04 全球购物

比利时香水网上商店：NOTINO

2018/03/28 全球购物

团队激励口号

2014/06/06 职场文书

2016元旦晚会主持词开场白和结束语

2015/12/04 职场文书

机关干部纪律作风整顿心得体会

2016/01/23 职场文书

Python手拉手教你爬取贝壳房源数据的实战教程

2021/05/21 Python