利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 控制语句
Nov 03 Python
Python内置函数dir详解
Apr 14 Python
python Django批量导入不重复数据
Mar 25 Python
Python基础学习之常见的内建函数整理
Sep 06 Python
基于Django用户认证系统详解
Feb 21 Python
python实现基于信息增益的决策树归纳
Dec 18 Python
python 实现将txt文件多行合并为一行并将中间的空格去掉方法
Dec 20 Python
Python 通过打码平台实现验证码的实现
May 13 Python
Django将默认的SQLite更换为MySQL的实现
Nov 18 Python
python日期与时间戳的各种转换示例
Feb 12 Python
python 生成器需注意的小问题
Sep 29 Python
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
Apr 13 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
用php和MySql来与ODBC数据连接
2006/10/09 PHP
php桌面中心(二) 数据库写入
2007/03/11 PHP
php适配器模式介绍
2012/08/14 PHP
PHP操作MySQL事务实例
2014/11/05 PHP
四个常见html网页乱码问题及解决办法
2015/09/08 PHP
PHP高精确度运算BC函数库实例详解
2017/08/15 PHP
ThinkPHP框架整合微信支付之刷卡模式图文详解
2019/04/10 PHP
XP折叠菜单&仿QQ2006菜单
2006/12/16 Javascript
JS实多级联动下拉菜单类,简单实现省市区联动菜单!
2007/05/03 Javascript
jQuery 对Select的操作备忘记录
2011/07/04 Javascript
js通过googleAIP翻译PHP系统的语言配置的实现代码
2011/10/17 Javascript
基于jQuery实现下拉收缩(展开与折叠)特效
2012/12/25 Javascript
js验证整数加保留小数点的简单实例
2013/12/02 Javascript
JavaScript中的原型链prototype介绍
2014/12/30 Javascript
js实现图片漂浮效果的方法
2015/03/02 Javascript
JS函数的几种定义方式分析
2015/12/17 Javascript
Bootstrap Paginator分页插件使用方法详解
2016/05/30 Javascript
Google 地图事件实例讲解
2016/08/06 Javascript
JS实现HTML标签转义及反转义
2020/04/14 Javascript
jQuery插件FusionWidgets实现的Bulb图效果示例【附demo源码下载】
2017/03/23 jQuery
angularjs实现首页轮播图效果
2017/04/14 Javascript
vue内置组件transition简单原理图文详解(小结)
2018/07/12 Javascript
详解vue中多个有顺序要求的异步操作处理
2019/10/29 Javascript
vue组件中节流函数的失效的原因和解决方法
2020/12/02 Vue.js
利用Python实现Windows下的鼠标键盘模拟的实例代码
2017/07/13 Python
Python整型运算之布尔型、标准整型、长整型操作示例
2017/07/21 Python
Python学习之用pygal画世界地图实例
2017/12/07 Python
Python干货:分享Python绘制六种可视化图表
2018/08/27 Python
对Python发送带header的http请求方法详解
2019/01/02 Python
CSS3实现多背景模拟动态边框的效果
2016/11/08 HTML / CSS
英格兰橄榄球商店:England Rugby Store
2016/12/17 全球购物
Famous Footwear加拿大:美国多品牌运动休闲鞋店
2018/12/05 全球购物
俄罗斯童装网上商店:BebaKids
2020/06/06 全球购物
remote接口和home接口主要作用
2013/05/15 面试题
学校学雷锋活动总结
2014/06/26 职场文书
电子商务专业求职信
2014/07/10 职场文书