Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python中文分词实现方法(安装pymmseg)
Jun 14 Python
Python模拟登陆实现代码
Jun 14 Python
python3.6连接MySQL和表的创建与删除实例代码
Dec 28 Python
Python实现KNN邻近算法
Jan 28 Python
Python中pandas模块DataFrame创建方法示例
Jun 20 Python
详解Django中间件的5种自定义方法
Jul 26 Python
在IPython中进行Python程序执行时间的测量方法
Nov 01 Python
python添加模块搜索路径和包的导入方法
Jan 19 Python
python给微信好友定时推送消息的示例
Feb 20 Python
python re.sub()替换正则的匹配内容方法
Jul 22 Python
Django时区详解
Jul 24 Python
python绘图subplots函数使用模板的示例代码
Apr 30 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php 根据url自动生成缩略图并处理高并发问题
2014/01/23 PHP
PHP批量生成图片缩略图的方法
2015/06/18 PHP
php轻量级的性能分析工具xhprof的安装使用
2015/08/12 PHP
谈谈你对Zend SAPIs(Zend SAPI Internals)的理解
2015/11/10 PHP
PHP排序算法之冒泡排序(Bubble Sort)实现方法详解
2018/04/20 PHP
jQuery中的常用事件总结
2009/12/27 Javascript
javascript for循环设法提高性能
2010/02/24 Javascript
js防止表单重复提交实现代码
2012/09/05 Javascript
Jquery带搜索框的下拉菜单
2013/05/06 Javascript
得到form下的所有的input的js代码
2013/11/07 Javascript
JavaScript实现的in_array函数
2014/08/27 Javascript
jQuery子属性过滤选择器用法分析
2015/02/10 Javascript
浅析JS原型继承与类的继承
2016/04/07 Javascript
输入法的回车与消息发送快捷键回车的冲突解决方法
2016/08/09 Javascript
JavaScript拖动层Div代码
2017/03/01 Javascript
vue双向绑定简要分析
2017/03/23 Javascript
JavaScript中的遍历详解(多种遍历)
2017/04/07 Javascript
详解vue渲染函数render的使用
2017/12/12 Javascript
React性能优化系列之减少props改变的实现方法
2019/01/17 Javascript
JavaScript惰性载入函数实例分析
2019/03/27 Javascript
js实现web调用摄像头 js截取视频画面
2019/04/21 Javascript
[50:59]2018DOTA2亚洲邀请赛 4.7 总决赛 LGD vs Mineski第四场
2018/04/10 DOTA
python3.6连接MySQL和表的创建与删除实例代码
2017/12/28 Python
win10下python3.5.2和tensorflow安装环境搭建教程
2018/09/19 Python
Python线性拟合实现函数与用法示例
2018/12/13 Python
Python3 导入上级目录中的模块实例
2019/02/16 Python
Python Django 前后端分离 API的方法
2019/08/28 Python
Pandas时间序列基础详解(转换,索引,切片)
2020/02/26 Python
Python Http请求json解析库用法解析
2020/11/28 Python
德国网上花店:Valentins
2018/08/15 全球购物
大学班级学风建设方案
2014/05/01 职场文书
做一个有道德的人演讲稿
2014/05/14 职场文书
幼儿园个人总结
2015/02/28 职场文书
中学感恩教育活动总结
2015/05/05 职场文书
Windows环境下实现批量执行Sql文件
2021/10/05 SQL Server
排查并解决Oracle sysaux表空间异常增长
2022/04/20 Oracle