编程 Python

Python爬虫之自动爬取某车之家各车销售数据

Posted in Python onJune 02, 2021

一、目标网页分析

目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面如下：

https://k.autohome.com.cn/4851/#pvareaid=3311678

为了演示方式，大家可以直接打开上面这个网址，然后拖到全部口碑位置，找到我们本次采集需要的字段如下图所示：

Python爬虫之自动爬取某车之家各车销售数据

采集字段

我们进行翻页发现，浏览器网址发生了变化，大家可以对下如下几页的网址找出规律：

https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

对于上面写网址，我们发现可变部分是车型（如4851）以及页码（如2,3,4），于是我们可以构建url参数如下：

# typeid是车型，page是页码
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、数据请求

通过简单的测试，发现似乎不存在反爬，那就简单了。

我们先引入需要用到的库：

import requests
import pandas as pd
import html
from lxml import etree
import re

然后创建一个数据请求的函数备用：

# 获取网页数据（传递参数 车型typeid和页码数）
def get_html(typeid,page):
    # 组合出请求地址
    url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
    # 请求数据（因为没有反爬，这里没有设置请求头和其他参数）
    r = requests.get(url)
    # 请求的网页数据中有网页特殊字符，通过以下方法进行解析
    r = html.unescape(r.text)
    # 返回网页数据
    return r

请求来的数据就是网页html文本，我们接下来采用re解析出一共多少页码，再用xpath进行采集字段的解析。

三、数据解析

由于需要进行翻页，这里我们可以先通过re正则表达式获取总页码。通过查看网页数据，我们发现总页码可以通过如下方式获取：

try:
    pages = int(re.findall(r'共(\d+)页',r)[0])
# 如果请求不到页数，则表示该车型下没有口碑数据
except :
    print(f'{name} 没有数据！')
    continue

Python爬虫之自动爬取某车之家各车销售数据

总页码采集

关于待采集字段信息，我们发现都在节点div[@class="mouthcon-cont-left"]里，可以先定位这个节点数据，然后再进行逐一解析。

Python爬虫之自动爬取某车之家各车销售数据

待采集字段信息所在节点

此外，我们发现每一页最多15个车型口碑数据，因此我们每页可以定位15个待采集信息数据集，遍历采集代码：

divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍历每个全部的车辆销售信息
for div in divs:
    # 找到车辆销售信息所在的地方
    mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
    # 找到所需字段
    infos = mt.xpath('./dl[@class="choose-dl"]')
    # 设置空的字典，用于存储单个车辆信息
    item = {}
    # 遍历车辆信息字段
    for info in infos:
        key = info.xpath('.//dt/text()')[0]
        # 当字段为购买车型时，进行拆分为车型和配置
        if key == '购买车型':
            item[key] = info.xpath('.//dd/a/text()')[0]
            item['购买配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
        # 当字段为购车经销商时，需要获取经销商的id参数，再调用api获取其真实经销商信息（这里有坑）
        elif key == '购车经销商':
            # 经销商id参数
            经销商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
            # 组合经销商信息请求地址
            jxs_url = base_jxs_url+经销商id+'|'
            # 请求数据（为json格式）
            data = requests.get(jxs_url)
            j = data.json()
            # 获取经销商名称
            item[key] = j['result']['List'][0]['CompanySimple']
        else:
            # 其他字段时，替换转义字符和空格等为空
            item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')

四、数据存储

由于没啥反爬，这里直接将采集到的数据转化为pandas.DataFrame类型，然后存储为xlsx文件即可。

df = pd.DataFrame(items)
df = df[['购买车型', '购买配置', '购买地点', '购车经销商', '购买时间', '裸车购买价']]
# 数据存储在本地
df.to_excel(r'车辆销售信息.xlsx',index=None,sheet_name='data')

五、采集结果预览

整个爬虫过程比较简单，采集下来的数据也比较规范，以本文案例奥迪Q5L示例如下：

Python爬虫之自动爬取某车之家各车销售数据

到此这篇关于Python爬虫之自动采集某车之家各车销售数据的文章就介绍到这了,更多相关Python采集汽车销售数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫之自动爬取某车之家各车销售数据

- Author -

程序员启航

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python判断操作系统类型代码分享

Nov 22 Python

在Python的Flask框架中实现单元测试的教程

Apr 20 Python

使用Python+Splinter自动刷新抢12306火车票

Jan 03 Python

200 行python 代码实现 2048 游戏

Jan 12 Python

Python微信公众号开发平台

Jan 25 Python

python使用Flask操作mysql实现登录功能

May 14 Python

python 请求服务器的实现代码(http请求和https请求)

May 25 Python

Pandas库之DataFrame使用的学习笔记

Jun 21 Python

Python求平面内点到直线距离的实现

Jan 19 Python

如何在django中实现分页功能

Apr 22 Python

windows下的pycharm安装及其设置中文菜单

Apr 23 Python

单身狗福利?Python爬取某婚恋网征婚数据

Jun 03 Python

从np.random.normal()到正态分布的拟合操作

golang特有程序结构入门教程

Jun 02 #Python

Python中的np.argmin()和np.argmax()函数用法

Jun 02 #Python

python之np.argmax()及对axis=0或者1的理解

Python import模块的缓存问题解决方案

Jun 02 #Python

Python3 类型标注支持操作

Jun 02 #Python

python 实现两个变量值进行交换的n种操作

You might like

ubuntu下编译安装xcache for php5.3 的具体操作步骤

2013/06/18 PHP

PHP变量内存分配问题记录整理

2013/11/27 PHP

PHP类的特性实例分析

2016/09/28 PHP

JavaScript中获取元素索引的函数

2010/09/10 Javascript

JavaScript 操作键盘的Enter事件（键盘任何事件），兼容多浏览器

2010/10/11 Javascript

jquery怎样实现ajax联动框(二)

2013/03/08 Javascript

caller和callee的区别介绍及演示结果

2013/03/10 Javascript

用js读、写、删除Cookie代码续篇

2014/12/03 Javascript

jquery实现右侧栏菜单选择操作

2016/03/04 Javascript

聊一聊JavaScript作用域和作用域链

2016/05/03 Javascript

js不间断滚动的简单实现

2016/06/03 Javascript

url传递的参数值中包含&时,url自动截断问题的解决方法

2016/08/02 Javascript

Iphone手机、安卓手机浏览器控制默认缩放大小的方法总结（附代码）

2017/08/18 Javascript

JS实现标签滚动切换效果

2017/12/25 Javascript

vuex与组件联合使用的方法

2018/05/10 Javascript

element ui 表格动态列显示空白bug 修复方法

2018/09/04 Javascript

vue-cli V3.0版本的使用详解

2018/10/24 Javascript

element-ui树形控件后台返回的数据+生成组织树的工具类

2020/03/05 Javascript

centos下更新Python版本的步骤

2013/02/12 Python

python实现的简单文本类游戏实例

2015/04/28 Python

Python实现查询某个目录下修改时间最新的文件示例

2018/08/29 Python

python3.6.3安装图文教程 TensorFlow安装配置方法

2020/06/24 Python

python dataframe NaN处理方式

2019/12/26 Python

python 实现从高分辨图像上抠取图像块

2020/01/02 Python

PyTorch中topk函数的用法详解

2020/01/02 Python

在tensorflow中实现去除不足一个batch的数据

2020/01/20 Python

django haystack实现全文检索的示例代码

2020/06/24 Python

python语言time库和datetime库基本使用详解

2020/12/25 Python

使用sublime text3搭建Python编辑环境的实现

2021/01/12 Python

python 合并多个excel中同名的sheet

2021/01/22 Python

使用CSS3实现圆角,阴影,透明

2014/12/23 HTML / CSS

Lands’ End官网：经典的美国生活方式品牌

2016/08/14 全球购物

Probikekit日本：自行车套件，跑步和铁人三项装备

2017/04/03 全球购物

介绍一下Ruby中的对象，属性和方法

2012/07/11 面试题

Python实现猜拳与猜数字游戏的方法详解

2022/04/06 Python

关于MySQL中explain工具的使用

2023/05/08 MySQL