python使用pandas实现数据分割实例代码


Posted in Python onJanuary 25, 2018

本文研究的主要是Python编程通过pandas将数据分割成时间跨度相等的数据块的相关内容,具体如下。

先上数据,有如下dataframe格式的数据,列名分别为date、ip,我需要统计每5s内出现的ip,以及这些ip出现的频数。

ip   date
0 127.0.0.21 15/Jul/2017:18:22:16
1 127.0.0.13 15/Jul/2017:18:22:16
2 127.0.0.11 15/Jul/2017:18:22:17
3 127.0.0.11 15/Jul/2017:18:22:20
4 127.0.0.21 15/Jul/2017:18:22:21
5 127.0.0.13 15/Jul/2017:18:22:22
6 127.0.0.14 15/Jul/2017:18:26:36
7 127.0.0.16 15/Jul/2017:18:32:15
8 127.0.0.11 15/Jul/2017:18:36:03

在网上找了很久但是没看到python的相关答案,但在stackoverflow找到了R语言的解法,有兴趣可以看看。

受它的启发,我用不太优雅的方式实现了我的需求,有更好解决方法的请不吝赐教:

step1: 将数据中日期格式变为标准格式

#date_ip为我的dataframe数据
date_ip['date'] = pd.to_datetime(date_ip['date'], format='%d/%b/%Y:%H:%M:%S')

step2: 将数据的开始时间、结束时间,按5s分割(由于时间段可能不是恰好是5s的倍数,为避免最后一个时间丢失,因此在最后加上5s)

frequency = 5
time_range = pd.date_range(date_ip['date'][0],
    date_ip['date'][date_ip.shape[0]-1]
    +frequency*Second(), freq='%sS'%frequency)

step3: 将date变为索引

date_ip = date_ip.set_index('date')

step4: 对每个时间段内的数据进行频数计算(由于通过标签切片时会包含头、尾数据,为避免重复计算,因此在尾部减1s)

for i in xrange(0,len(time_range)-1):
 print get_frequency(date_ip.loc[time_range[i]:time_range[i+1]-1*Second()])

完整的代码

import pandas as pd
from pandas.tseries.offsets import Second
def get_frequency(date_ip):
 ip_frequency = {}
 for i in xrange(0,date_ip.shape[0]):
 ip_frequency[date_ip['ip'][i]] = ip_frequency.get(date_ip['ip'][i], 0) + 1
 return ip_frequency,date_ip.shape[0]

if __name__ == '__main__': 
 date_ip['date'] = pd.to_datetime(date_ip['date'], format='%d/%b/%Y:%H:%M:%S')

 frequency = 5
 time_range = pd.date_range(date_ip['date'][0], date_ip['date'][date_ip.shape[0]-1]
    +frequency*Second(), freq='%sS'%frequency) 
 date_ip = date_ip.set_index('date')
 for i in xrange(0, len(time_range) - 1):
 print get_frequency(date_ip.loc[time_range[i]:time_range[i + 1]-1*Second()])

文章开头数据运行结果:

({'127.0.0.21' : 1, '127.0.0.13' : 1, '127.0.0.11' : 2}, 4)
({'127.0.0.21': 1, '127.0.0.13': 1}, 2)
({'127.0.0.14': 1}, 1)
({'127.0.0.16': 1}, 1)
({'127.0.0.11': 1}, 1)

总结

以上就是本文关于python使用pandas实现数据分割实例代码的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python实现定时播放mp3
Mar 29 Python
遗传算法之Python实现代码
Oct 10 Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 Python
python:pandas合并csv文件的方法(图书数据集成)
Apr 12 Python
python实现排序算法解析
Sep 08 Python
pytorch permute维度转换方法
Dec 14 Python
Python3爬虫之urllib携带cookie爬取网页的方法
Dec 28 Python
用Cython加速Python到“起飞”(推荐)
Aug 01 Python
在pytorch中对非叶节点的变量计算梯度实例
Jan 10 Python
Pandas之read_csv()读取文件跳过报错行的解决
Apr 21 Python
django template实现定义临时变量,自定义赋值、自增实例
Jul 12 Python
详解Python中如何将数据存储为json格式的文件
Nov 18 Python
python实现闹钟定时播放音乐功能
Jan 25 #Python
python实现壁纸批量下载代码实例
Jan 25 #Python
python命令行解析之parse_known_args()函数和parse_args()使用区别介绍
Jan 24 #Python
Python动刷新抢12306火车票的代码(附源码)
Jan 24 #Python
python中的set实现不重复的排序原理
Jan 24 #Python
详解Python之unittest单元测试代码
Jan 24 #Python
python爬取拉勾网职位数据的方法
Jan 24 #Python
You might like
PHP人民币金额数字转中文大写的函数代码
2013/02/27 PHP
Ubuntu中支持PHP5与PHP7双版本的简单实现
2018/08/19 PHP
laravel实现上传图片并在页面显示的例子
2019/10/14 PHP
javascript Object与Function使用
2010/01/11 Javascript
js中window.open()的所有参数详细解析
2014/01/09 Javascript
javascript使用正则控制input输入框允许输入的值方法大全
2014/06/19 Javascript
jQuery中:not选择器用法实例
2014/12/30 Javascript
JavaScript获取网页支持表单字符集的方法
2015/04/02 Javascript
jQuery三级下拉列表导航菜单代码分享
2020/04/15 Javascript
JS实现按比例缩放图片的方法(附C#版代码)
2015/12/08 Javascript
jQuery Easy UI中根据第一个下拉框选中的值设置第二个下拉框是否可以编辑
2016/11/29 Javascript
webpack3+React 的配置全解
2017/08/21 Javascript
JS生成随机打乱数组的方法示例
2017/12/23 Javascript
jquery根据name取得select选中的值实例(超简单)
2018/01/25 jQuery
js循环map 获取所有的key和value的实现代码(json)
2018/05/09 Javascript
微信小程序canvas开发水果老虎机的思路详解
2020/02/07 Javascript
echarts实现获取datazoom的起始值(包括x轴和y轴)
2020/07/20 Javascript
python脚本实现xls(xlsx)转成csv
2016/04/10 Python
Django入门使用示例
2017/12/12 Python
python应用文件读取与登录注册功能
2019/09/23 Python
使用tqdm显示Python代码执行进度功能
2019/12/08 Python
Python xlwt模块使用代码实例
2020/06/10 Python
python 爬虫之selenium可视化爬虫的实现
2020/12/04 Python
CSS 3.0 结合video视频实现的创意开幕效果
2020/06/01 HTML / CSS
HTML5 拖放功能实现代码
2016/07/14 HTML / CSS
英国家喻户晓的高街品牌:River Island
2017/11/28 全球购物
Bulk Powders意大利:运动补充在线商店
2019/02/09 全球购物
测试驱动开发的主要步骤是什么
2014/12/10 面试题
商场端午节活动方案
2014/01/29 职场文书
服务员岗位职责
2014/01/29 职场文书
政治学求职信
2014/06/03 职场文书
人民调解员培训方案
2014/06/05 职场文书
口才训练演讲稿范文
2014/09/16 职场文书
公司捐书倡议书
2015/04/27 职场文书
mysql如何查询连续记录
2022/05/11 MySQL
Mysql中常用的join连接方式
2022/05/11 MySQL