Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
django批量导入xml数据
Oct 16 Python
python+pandas+时间、日期以及时间序列处理方法
Jul 10 Python
Sanic框架基于类的视图用法示例
Jul 18 Python
Django Rest framework解析器和渲染器详解
Jul 25 Python
Python常用模块logging——日志输出功能(示例代码)
Nov 20 Python
python groupby 函数 as_index详解
Dec 16 Python
Python基于paramunittest模块实现excl参数化
Apr 26 Python
python db类用法说明
Jul 07 Python
python字典key不能是可以是啥类型
Aug 04 Python
python中温度单位转换的实例方法
Dec 27 Python
python flask开发的简单基金查询工具
Jun 02 Python
Python获取字典中某个key的value
Apr 13 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php 二维数组时间排序实现代码
2016/11/19 PHP
Laravel框架模板继承操作示例
2018/06/11 PHP
jQuery的一些注意
2006/12/06 Javascript
UI Events 用户界面事件
2012/06/27 Javascript
简单谈谈jQuery(function(){})与(function(){})(jQuery)
2014/12/19 Javascript
Jquery 实现table样式的设定
2015/01/28 Javascript
jQuery实现文本框邮箱输入自动补全效果
2015/11/17 Javascript
js倒计时抢购实例
2015/12/20 Javascript
js判断空对象的实例(超简单)
2016/07/26 Javascript
Vue.js实现无限加载与分页功能开发
2016/11/03 Javascript
AngularJS实现给动态生成的元素绑定事件的方法
2016/12/14 Javascript
各种选择框jQuery的选中方法(实例讲解)
2017/06/27 jQuery
angularjs实现天气预报功能
2020/06/16 Javascript
详解webpack中的hash、chunkhash、contenthash区别
2018/01/05 Javascript
详解Chart.js轻量级图表库的使用经验
2018/05/22 Javascript
在vue-cli创建的项目中使用sass操作
2020/08/10 Javascript
JS获取一个字符串中指定字符串第n次出现的位置
2021/02/10 Javascript
python获取beautifulphoto随机某图片代码实例
2013/12/18 Python
视觉直观感受若干常用排序算法
2017/04/13 Python
pycharm安装和首次使用教程
2018/08/27 Python
解决在pycharm中显示额外的 figure 窗口问题
2019/01/15 Python
Python快速转换numpy数组中Nan和Inf的方法实例说明
2019/02/21 Python
Python 中@property的用法详解
2020/01/15 Python
PyTorch笔记之scatter()函数的使用
2020/02/12 Python
如何搭建pytorch环境的方法步骤
2020/05/06 Python
Python3爬虫中Ajax的用法
2020/07/10 Python
Pycharm如何自动生成头文件注释
2020/11/14 Python
css3 iphone玻璃透明气泡完美实现
2013/03/20 HTML / CSS
HTML5教程之html 5 本地数据库(Web Sql Database)
2014/04/03 HTML / CSS
Ted Baker英国官网:男士和女士服装及配件
2017/03/13 全球购物
体育教育毕业生自荐信
2013/11/21 职场文书
上课看小说检讨书
2014/02/22 职场文书
保险公司开门红口号
2014/06/21 职场文书
民间借贷纠纷案件代理词
2015/05/26 职场文书
简短的36句中秋节祝福信息语句
2019/09/09 职场文书
cypress测试本地web应用
2022/06/01 Javascript