Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
说一说Python logging
Apr 15 Python
python正则表达式的使用
Jun 12 Python
Python实现翻转数组功能示例
Jan 12 Python
对python中的xlsxwriter库简单分析
May 04 Python
flask入门之表单的实现
Jul 18 Python
在ubuntu16.04中将python3设置为默认的命令写法
Oct 31 Python
python调用java的jar包方法
Dec 15 Python
只需7行Python代码玩转微信自动聊天
Jan 27 Python
python模块和包的应用BASE_PATH使用解析
Dec 14 Python
PyTorch在Windows环境搭建的方法步骤
May 12 Python
Django后端按照日期查询的方法教程
Feb 28 Python
python井字棋游戏实现人机对战
Apr 28 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php实现登陆模块功能示例
2016/10/20 PHP
javascript 判断数组是否已包含了某个元素的函数
2010/05/30 Javascript
javascript中用星号表示预录入内容的实现代码
2011/01/08 Javascript
EditPlus注册码生成器(js代码实现)
2013/03/25 Javascript
利用JS来控制键盘的上下左右键(示例代码)
2013/12/14 Javascript
JS弹出层单纯的绝对定位居中示例代码
2014/02/18 Javascript
jquery实现点击弹出带标题栏的弹出层(从右上角飞入)效果
2015/09/19 Javascript
js实现点击图片自动提交action的简单方法
2016/10/16 Javascript
BootStrap CSS全局样式和表格样式源码解析
2017/01/20 Javascript
jQuery实现单击按钮遮罩弹出对话框效果(2)
2017/02/20 Javascript
vue的无缝滚动组件vue-seamless-scroll实例
2017/12/18 Javascript
使用mock.js随机数据和使用express输出json接口的实现方法
2018/01/07 Javascript
node中间层实现文件上传功能
2018/06/11 Javascript
JavaScript设计模式之职责链模式应用示例
2018/08/07 Javascript
Vue开发之封装分页组件与使用示例
2019/04/25 Javascript
layui按条件隐藏表格列的实例
2019/09/19 Javascript
layui switch 开关监听 弹出确定状态转换的例子
2019/09/21 Javascript
基于layui的下拉列表的数据回显方法
2019/09/24 Javascript
JavaScript原型继承和原型链原理详解
2020/02/04 Javascript
python在Windows8下获取本机ip地址的方法
2015/03/14 Python
python实现网页自动签到功能
2019/01/21 Python
详解Python用户登录接口的方法
2019/04/17 Python
解决django后台管理界面添加中文内容乱码问题
2019/11/15 Python
使用 Python 遍历目录树的方法
2020/02/29 Python
iHerb香港:维生素、补充剂和天然保健品
2017/08/01 全球购物
Sephora丝芙兰泰国官方网站:国际知名化妆品购物
2017/11/15 全球购物
联谊会主持词
2014/03/26 职场文书
团支书竞选演讲稿
2014/04/28 职场文书
学校学习雷锋活动总结
2014/07/03 职场文书
总经理岗位职责
2015/02/04 职场文书
贷款工作证明模板
2015/06/12 职场文书
校园运动会广播稿
2015/08/19 职场文书
学会掌握自己命运的十条黄金法则:
2019/08/08 职场文书
100句人生哲理语录集锦:强者征服今天,懒汉坐等明天
2019/10/18 职场文书
Python爬取科目四考试题库的方法实现
2021/03/30 Python
SQL Server2019数据库备份与还原脚本,数据库可批量备份
2021/11/20 SQL Server