Python读取数据集并消除数据中的空行方法


Posted in Python onJuly 12, 2018

如下所示:

# -*- coding: utf-8 -*-
# @ author hulei 2016-5-3
from numpy import *
import operator
from os import listdir
 
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
# x,y=getDataSet_dz('iris.data.txt',4)
 
def getDataSet(filename,numberOfFeature):  #将数据集读入内存 
 fr = open(filename)
 numberOfLines = len(fr.readlines())   #get the number of lines in the file file.readlines()是把文件的全部内容读到内存,并解析成一个list
 returnMat = zeros((numberOfLines,numberOfFeature))  #prepare matrix to return 3代表数据集中特征数目###
 classLabelVector = []      #prepare labels return 
 fr = open(filename)
 index = 0
 for line in fr.readlines():
  line = line.strip()     #strip() 参数为空时,默认删除空白符(包括'\n', '\r', '\t', ' ')
  listFromLine = line.split(',')   #split 以什么为标准分割一次 分成数组中的每个元素
  returnMat[index,:] = listFromLine[0:numberOfFeature] 
  #classLabelVector.append(int(listFromLine[-1])) #append() 方法向列表的尾部添加一个新的元素
  if listFromLine[-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif listFromLine[-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
  index += 1
 return returnMat,classLabelVector
 
def getDataSet_dz(filename,numberOfFeature): #改进版,可以消除数据中的空白行
 numberOfLines = 0
 mx = []  #将数据集 去除空行后存入
 fr = open(filename)
 for line in fr.readlines():  
  line = line.strip() 
  if line != '' : #去除空白行 
   numberOfLines+=1
   mx.append( line.split(',') )
 returnMat = zeros((numberOfLines,numberOfFeature))
 classLabelVector = [] 
 for index in range(numberOfLines) :
  returnMat[index,:] = mx[index][0:numberOfFeature] 
  if mx[index][-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif mx[index][-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
 return returnMat,classLabelVector

以上这篇Python读取数据集并消除数据中的空行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现探测socket和web服务示例
Mar 28 Python
Python实现的检测网站挂马程序
Nov 30 Python
详解Python命令行解析工具Argparse
Apr 20 Python
使用Python的Twisted框架构建非阻塞下载程序的实例教程
May 25 Python
python最长回文串算法
Jun 04 Python
python实现求两个字符串的最长公共子串方法
Jul 20 Python
Django添加feeds功能的示例
Aug 07 Python
TENSORFLOW变量作用域(VARIABLE SCOPE)
Jan 10 Python
tensorflow指定GPU与动态分配GPU memory设置
Feb 03 Python
Python自动化办公Excel模块openpyxl原理及用法解析
Nov 05 Python
Appium+Python实现简单的自动化登录测试的实现
Jan 26 Python
利用Python脚本写端口扫描器socket,python-nmap
Jul 23 Python
Python实现曲线拟合操作示例【基于numpy,scipy,matplotlib库】
Jul 12 #Python
python跳过第一行快速读取文件内容的实例
Jul 12 #Python
python 读取文本文件的行数据,文件.splitlines()的方法
Jul 12 #Python
Python实现的简单读写csv文件操作示例
Jul 12 #Python
用Python分析3天破10亿的《我不是药神》到底神在哪?
Jul 12 #Python
python之文件读取一行一行的方法
Jul 12 #Python
python 读取文件并替换字段的实例
Jul 12 #Python
You might like
php 移除数组重复元素的一点说明
2008/11/27 PHP
php实现的常见排序算法汇总
2014/09/08 PHP
使用PHP连接数据库_实现用户数据的增删改查的整体操作示例
2017/09/01 PHP
use jscript with List Proxy Server Information
2007/06/11 Javascript
js计算任意值之间随机数的方法
2015/01/16 Javascript
深入学习js瀑布流布局
2016/10/14 Javascript
JavaScript实现数组降维详解
2017/01/05 Javascript
JavaScript三种绑定事件方式及相互之间的区别分析
2017/01/10 Javascript
axios基本入门用法教程
2017/03/25 Javascript
Javascript的console['']常用输入方法汇总
2018/04/26 Javascript
CKEditor 4.4.1 添加代码高亮显示插件功能教程【使用官方推荐Code Snippet插件】
2019/06/14 Javascript
微信小程序实现搜索功能
2020/03/10 Javascript
vue+ESLint 配置保存 自动格式化代码
2020/03/17 Javascript
python输出指定月份日历的方法
2015/04/23 Python
python提取字典key列表的方法
2015/07/11 Python
python实现SMTP邮件发送功能
2020/06/16 Python
Python标准库之collections包的使用教程
2017/04/27 Python
Python 基础教程之str和repr的详解
2017/08/20 Python
使用实现XlsxWriter创建Excel文件并编辑
2018/05/04 Python
详解如何在Apache中运行Python WSGI应用
2019/01/02 Python
python设置环境变量的作用和实例
2019/07/09 Python
Python定时发送天气预报邮件代码实例
2019/09/09 Python
TFRecord格式存储数据与队列读取实例
2020/01/21 Python
Django实现将views.py中的数据传递到前端html页面,并展示
2020/03/16 Python
Python爬虫实战案例之爬取喜马拉雅音频数据详解
2020/12/07 Python
Python实现王者荣耀自动刷金币的完整步骤
2021/01/22 Python
外语系毕业生找工作的求职信
2013/11/28 职场文书
数控专业推荐信范文
2013/12/02 职场文书
中学生个人自我评价
2014/02/06 职场文书
新品发布会主持词
2014/04/02 职场文书
幼儿园运动会口号
2014/06/07 职场文书
初中生庆国庆演讲稿范文2014
2014/09/25 职场文书
2015年毕业生自荐信范文
2015/03/24 职场文书
2015年度公共机构节能工作总结
2015/05/26 职场文书
Python爬虫之爬取最新更新的小说网站
2021/05/06 Python
Python 数据可视化工具 Pyecharts 安装及应用
2022/04/20 Python