编程 Python

Python 爬取淘宝商品信息栏目的实现

Posted in Python onFebruary 06, 2021

一、相关知识点

1.1、Selenium

Selenium是一个强大的开源Web功能测试工具系列，可进行读入测试套件、执行测试和记录测试结果，模拟真实用户操作，包括浏览页面、点击链接、输入文字、提交表单、触发鼠标事件等操作，并且能够对页面结果进行种种验证。也就是说，只要在测试用例中把预期的用户行为与结果都描述出来，我们就得到了一个可以自动化运行的功能测试套件。

1.2、ActionChains
Actionchains是selenium里面专门处理鼠标相关的操作如：鼠标移动，鼠标按钮操作，按键和上下文菜单（鼠标右键）交互。这对于做更复杂的动作非常有用，比如悬停和拖放。

1.3、time
返回当前时间的时间戳

1.4、lxml
lxml是一个Python库，使用它可以轻松处理XML和HTML文件，还可以用于web爬取。市面上有很多现成的XML解析器，但是为了获得更好的结果，开发人员有时更愿意编写自己的XML和HTML解析器。这时lxml库就派上用场了。这个库的主要优点是易于使用，在解析大型文档时速度非常快，归档的也非常好，并且提供了简单的转换方法来将数据转换为Python数据类型，从而使文件操作更容易。

1.5、csv
csv文件格式是一种通用的电子表格和数据库导入导出格式。最近我调用RPC处理服务器数据时，经常需要将数据做个存档便使用了这一方便的格式。

1.6、requests
Requests 库是一个优雅而简单的 Python HTTP 库，主要用于发送和处理 HTTP 请求

二、部分代码解析

加载Chrome驱动，动态解析爬取的网址

#提取公共的爬取信息的api
 def commonsdk(self,url):
 browser = webdriver.Chrome('D:/chromedriver.exe')
 try:
 browser.get(url)
 except Exception as e:
 browser.execute_script('window.stop()') # 超出时间则不加载
 print(e, 'dynamic web load timeout')
 return browser;

实现模拟登录

通过定位淘宝登陆界面的url的表单框，然后输入自己的用户名及密码，再模拟鼠标点击事件，继而提交表单信息实现用户登录。

#模拟登录
 def logon(self,url,a_href_list_next):
 username = "淘宝账户名"
 password = "密码"
 browser1 = self.commonsdk(url)
 #登录账号
 browser1.find_element_by_id('fm-login-id').send_keys(username)
 browser1.find_element_by_id('fm-login-password').send_keys(password)
 #模拟用户点击登录
 browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
 #解析商品信息
 self.Buy_information(a_href_list_next,browser1)

爬取侧边栏目录
1、首先定位到目录分类栏，鼠标光标移动到需要选中的那一栏，继而会出现隐藏的div，（这里需要实现鼠标悬停事件）action.move_to_element(li_list).perform()实现了这一功能。
2、然后定位自己所需要爬取的侧边栏的那一行或多行，通过实现鼠标悬停事件后获取其中内容。
3、获取其超链接进入下一界面

Python 爬取淘宝商品信息栏目的实现

#爬取目录
 def List(self,url):
 browser = self.commonsdk(url)
 #ActionChains类实现鼠标的单击、双击、拖拽等功能
 action = ActionChains(browser)
 li_list = browser.find_elements_by_css_selector('.service-bd li')[1]
 #实现执行鼠标悬停,便于爬取悬停内容
 action.move_to_element(li_list).perform()
 time.sleep(5)

 #爬取整个目录的div
 div_list = browser.find_element_by_css_selector('.service-fi-links')
 #爬取其中的总的名称
 h5_list = div_list.find_elements_by_css_selector('h5')
 #爬取小标题的名称
 p_list = div_list.find_elements_by_css_selector('p')
 #获取a标签
 a_href_list = div_list.find_elements_by_css_selector('a')
 #获取a标签的超链接
 a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href')

 print(li_list.text)
 for j in range(len(p_list)):
 if j<len(p_list):
 print(h5_list[j].text)
 print(p_list[j].text)
 for i in range(len(a_href_list)):
 print(a_href_list[i].get_attribute('href'))

 #获取登录框
 logon = browser.find_element_by_id('J_SiteNavBd')
 #获取登录框的超链接
 logon_url = logon.find_element_by_css_selector('a').get_attribute('href')
 #先关闭第一个网页
 browser.close()
 self.logon(logon_url,a_href_list_next)

获取商品信息

1、这里使用的定位方式是Xpath方式，使用了绝对定位来获取标签的位置。

#爬取商品信息
 def Buy_information(self,url,browser):
 browser.get(url)
 div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')
 img = div_list.find_element_by_css_selector('img')
 img_url = "https:"+img.get_attribute('data-src')
 price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').text
 number = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').text
 shoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').text
 shop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').text
 adress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').text
 path = self.img_baocun(img_url)
 data={
 '图片路径':path,
 '价格':price,
 '购买人数':number,
 '商品信息':shoping_information,
 '商家':shop,
 '籍贯':adress
 }
 self.write_dictionary_to_csv(data,'information')

下载图片

通过获取到的图片的url，然后将图片下载到指定的文件夹内

#下载照片
 def img_baocun(self,url):
 root = "文件夹下载的路径"//电脑上的绝对路径
 path = root + url.split('?')[0].split('/')[-1].strip('')#获取jpg的名称
 #判断是否存在该路径，不存在则创建
 if not os.path.exists(root):
 os.mkdir(root)
 #判断是否存在该图片，存在则不下载
 if not os.path.exists(path):
 r = requests.get(url)
 r.raise_for_status()
 with open(path,'wb') as f:
 f.write(r.content)
 return path

将需要爬取的信息写入到csv文件中，便于查看
1、商品信息以字典的形式写入csv文件中方便查看。

#将解析得到的内容（字典格式）逐行写入csv文件
 def write_dictionary_to_csv(self,dict,filename):
 #格式化文件名
 file_name='{}.csv'.format(filename)
 with open(file_name, 'a',encoding='utf-8') as f: 
 file_exists = os.path.isfile(filename)
 #delimiter(定界符) 
 w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True)
 if not file_exists :
 w.writeheader()
 w.writerow(dict)
 print('当前行写入csv成功！')

三、程序思路

1、首先定位到侧边栏的位置，然后使用action.move_to_element(li_list).perform()的方法实现鼠标的动态悬停，让隐藏的div显示出来，再获取其中的信息。
2、然后再实现模拟登录的功能，登录账号，获取其中的商品信息（由于淘宝的反扒机制，多次登录会让用户扫码登录，此功能暂未实现）
3、商品信息的获取使用Xpath的绝对定位方式来获取。

Xpath的使用方式：
右键需要定位的标签->选中Copy选项->Copy Xpath

四、发展空间

1、解决淘宝反扒机制的问题。传送门，解决问题
2、文件的写入换用其他方式。

到此这篇关于Python 爬取淘宝商品信息栏目的实现的文章就介绍到这了,更多相关Python 爬取淘宝商品信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python 爬取淘宝商品信息栏目的实现

- Author -

qq_45893626

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中zip和unzip数据的方法

May 27 Python

浅谈Python实现2种文件复制的方法

Jan 19 Python

python中将一个全部为int的list 转化为str的list方法

Apr 09 Python

Python实现的本地文件搜索功能示例【测试可用】

May 30 Python

基于anaconda下强大的conda命令介绍

Jun 11 Python

利用Python如何批量更新服务器文件

Jul 29 Python

Python3爬虫学习之MySQL数据库存储爬取的信息详解

Dec 12 Python

对Python闭包与延迟绑定的方法详解

Jan 07 Python

python视频按帧截取图片工具

Jul 23 Python

在macOS上搭建python环境的实现方法

Aug 13 Python

Python unittest如何生成HTMLTestRunner模块

Sep 08 Python

python 30行代码实现蚂蚁森林自动偷能量

Feb 08 Python

解决pytorch下出现multi-target not supported at的一种可能原因

Feb 06 #Python

pytorch下的unsqueeze和squeeze的用法说明

Feb 06 #Python

一文带你掌握Pyecharts地理数据可视化的方法

Feb 06 #Python

解决pycharm不能自动保存在远程linux中的问题

Feb 06 #Python

Python第三方库安装缓慢的解决方法

Feb 06 #Python

python中threading和queue库实现多线程编程

Feb 06 #Python

Python3爬虫ChromeDriver的安装实例

Feb 06 #Python

You might like

文件上传类

2006/10/09 PHP

php中的MVC模式运用技巧

2007/05/03 PHP

改进UCHOME的记录发布，增强可访问性用户体验

2011/01/17 Javascript

查看源码的工具学习jQuery源码不错的工具

2011/12/26 Javascript

Jquery 获取指定标签的对象及属性的设置与移除

2014/05/29 Javascript

jQuery 隐藏和显示 input 默认值示例

2014/06/03 Javascript

node.js中的fs.realpath方法使用说明

2014/12/16 Javascript

jQuery实现ajax调用WCF服务的方法(附带demo下载)

2015/12/04 Javascript

AngularJs E2E Testing 详解

2016/09/02 Javascript

用jquery的attr方法实现图片切换效果

2017/02/05 Javascript

Vue插件写、用详解（附demo）

2017/03/20 Javascript

NodeJS、NPM安装配置步骤(windows版本) 以及环境变量详解

2017/05/13 NodeJs

JS设计模式之访问者模式定义与用法分析

2018/02/05 Javascript

vue.js使用v-model指令实现的数据双向绑定功能示例

2018/05/22 Javascript

使用webpack3.0配置webpack-dev-server教程

2018/05/29 Javascript

js获取url页面id，也就是最后的数字文件名

2020/09/25 Javascript

[47:20]DAC2018 4.4 淘汰赛 Optic vs Mineski 第一场

2018/04/05 DOTA

初步理解Python进程的信号通讯

2015/04/09 Python

python生成IP段的方法

2015/07/07 Python

Python爬虫实例_利用百度地图API批量获取城市所有的POI点

2018/01/10 Python

Django上使用数据可视化利器Bokeh解析

2019/07/31 Python

Django 1.10以上版本 url 配置注意事项详解

2019/08/05 Python

django将网络中的图片,保存成model中的ImageField的实例

2019/08/07 Python

python fuzzywuzzy模块模糊字符串匹配详细用法

2019/08/29 Python

移动端html5判断是否滚动到底部并且下拉加载

2019/11/19 HTML / CSS

伊莱克斯阿根廷网上商店：Tienda Electrolux

2021/03/08 全球购物

英国珠宝和手表专家：Pleasance & Harper

2020/10/21 全球购物

Can a struct inherit from another class? (结构体能继承类吗)

2014/07/22 面试题

销售人员职业生涯规划范文

2014/03/01 职场文书

业务员岗位职责

2015/02/03 职场文书

食堂卫生管理制度

2015/08/04 职场文书

培训感想范文

2015/08/07 职场文书

Nginx反爬虫策略，防止UA抓取网站

2021/03/31 Servers

如何用RabbitMQ和Swoole实现一个异步任务系统

2021/05/29 PHP

MySQL transaction事务安全示例讲解

2022/06/21 MySQL

python数据分析之单因素分析线性拟合及地理编码

2022/06/25 Python