Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python网络编程学习笔记(六):Web客户端访问
Jun 09 Python
Python for Informatics 第11章之正则表达式(二)
Apr 21 Python
python中PIL安装简单教程
Apr 21 Python
Python如何快速实现分布式任务
Jul 06 Python
python利用socketserver实现并发套接字功能
Jan 26 Python
python与C、C++混编的四种方式(小结)
Jul 15 Python
pandas数据拼接的实现示例
Apr 16 Python
Python爬虫教程知识点总结
Oct 19 Python
在pycharm创建scrapy项目的实现步骤
Dec 01 Python
解决pycharm修改代码后第一次运行不生效的问题
Feb 06 Python
我对PyTorch dataloader里的shuffle=True的理解
May 20 Python
总结python多进程multiprocessing的相关知识
Jun 29 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
漂亮但不安全的CTB
2006/10/09 PHP
PHP JSON 数据解析代码
2010/05/26 PHP
PHP文章采集URL补全函数(FormatUrl)
2012/08/02 PHP
解析php中call_user_func_array的作用
2013/06/07 PHP
ThinkPHP缓存方法S()概述
2014/06/13 PHP
PHP中ini_set与ini_get用法实例
2014/11/04 PHP
Yii 框架控制器创建使用及控制器响应操作示例
2019/10/14 PHP
Laravel 修改默认日志文件名称和位置的例子
2019/10/17 PHP
js 模拟气泡屏保效果代码
2010/07/10 Javascript
精通Javascript系列之数据类型 字符串
2011/06/08 Javascript
jquery datepicker参数介绍和示例
2014/04/15 Javascript
JS实现点击颜色块切换指定区域背景颜色的方法
2015/02/25 Javascript
JavaScript 事件入门知识
2015/04/13 Javascript
jquery+css3实现会动的小圆圈效果
2016/01/27 Javascript
全面解析jQuery中的$(window)与$(document)的用法区别
2017/08/15 jQuery
使用npm安装最新版本nodejs
2018/01/18 NodeJs
深入理解JavaScript和TypeScript中的class
2018/04/22 Javascript
vue服务端渲染添加缓存的方法
2018/09/18 Javascript
Vue实现一个无限加载列表功能
2018/11/13 Javascript
vue 2.5.1 源码学习 之Vue.extend 和 data的合并策略
2019/06/04 Javascript
vue中datepicker的使用教程实例代码详解
2019/07/08 Javascript
uni app仿微信顶部导航条功能
2019/09/17 Javascript
怎么理解wx.navigateTo的events参数使用详情
2020/05/18 Javascript
基于openlayers实现角度测量功能
2020/09/28 Javascript
在Python的web框架中中编写日志列表的教程
2015/04/30 Python
Python找出list中最常出现元素的方法
2016/06/14 Python
使用 Python 实现文件递归遍历的三种方式
2018/07/18 Python
Python wxPython库消息对话框MessageDialog用法示例
2018/09/03 Python
详解如何为eclipse安装合适版本的python插件pydev
2018/11/04 Python
完美解决pyinstaller打包报错找不到依赖pypiwin32或pywin32-ctypes的错误
2020/04/01 Python
Python字典实现伪切片功能
2020/10/28 Python
英国设计的甲板鞋和船鞋:Chatham
2018/12/06 全球购物
升国旗演讲稿
2014/09/05 职场文书
公司领导班子对照检查存在问题整改措施
2014/10/02 职场文书
安徽导游词
2015/02/12 职场文书
2016年全国爱牙日宣传活动总结
2016/04/05 职场文书