Python csv文件记录流程代码解析


Posted in Python onJuly 16, 2020

1、合并所有测试集和训练集的文件:

使用cmd到所在盘下,输入copy *.CSV all_***.csv即可

2、单独提取异常数据列作为csv文件:

import csv
import codecs
#coding:utf-8
with open("G:\\data_release\\train1.0\\all_train.csv","rt",encoding="utf-8")as f:
reader=csv.DictReader(f)
column=[row['triggername'] for row in reader]
file_name="G:\\data_release\\train1.0\\triggername.csv"
file_csv = codecs.open(file_name,'w+','utf-8')
writer = csv.writer(file_csv, delimiter=' ', quotechar=' ', quoting=csv.QUOTE_MINIMAL)
for data in column:
 writer.writerow(data)

虽然可以写入,但是出现乱码原因应该为csv的BOM没有更改

解决方法:将encoding='utf8'改为encoding='gb18030'

但是打开文件发现并不是所有内容都在第一列,有一些出现第二列,原因是一句话里面出现了逗号

解决方法:遍历列表将逗号改为空格

i=0
while i < len(column):
column[i].replace(","," ")
i+=1

不知道怎么的不适合我用的csv文件,还在继续检查中

3、删除一些字符,如果知道字符的位置可以在列表的基础上进行操作

去除首部空格 line=line.lstrip()

4、导入一个csv文件的时候 data = pd.read_csv('G:\pytorch\data1.csv',encoding='utf-8')

报错的内容是这样的:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

修改至data = pd.read_csv('F:\data1.csv', encoding='unicode_escape',header=None,sep = '\t',error_bad_lines=False)也没有用

删除整行重复项:

from more_itertools import unique_everseen
with open('F:\data1.csv','r') as f, open('F:\data2.csv','w') as out_file:
    out_file.writelines(unique_everseen(f))

5、unexpected index是代码的缩进出现问题

6、文本文件用rt,二进制文件用rb打开

with open("fer2013.csv", "rt", encoding="utf-8") as vsvfile:
   reader = csv.reader(vsvfile)
   rows = [row for row in reader]
      print(rows)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python生成多个只含0,1元素的随机数组或列表的实例
Nov 12 Python
Python类装饰器实现方法详解
Dec 21 Python
python安装pywin32clipboard的操作方法
Jan 24 Python
python使用thrift教程的方法示例
Mar 21 Python
基于python二叉树的构造和打印例子
Aug 09 Python
Pandas聚合运算和分组运算的实现示例
Oct 17 Python
python向图片里添加文字
Nov 26 Python
Python应用实现双指数函数及拟合代码实例
Jun 19 Python
python之语音识别speech模块
Sep 09 Python
scrapy结合selenium解析动态页面的实现
Sep 28 Python
Python学习之time模块的基本使用
Jan 17 Python
Pytorch 中的optimizer使用说明
Mar 03 Python
Python 抓取数据存储到Redis中的操作
Jul 16 #Python
django filter过滤器实现显示某个类型指定字段不同值方式
Jul 16 #Python
解决python对齐错误的方法
Jul 16 #Python
Python爬虫实例——爬取美团美食数据
Jul 15 #Python
django Model层常用验证器及自定义验证器详解
Jul 15 #Python
浅谈Django前端后端值传递问题
Jul 15 #Python
浅谈python出错时traceback的解读
Jul 15 #Python
You might like
Win2003下APACHE+PHP5+MYSQL4+PHPMYADMIN 的简易安装配置
2006/11/18 PHP
php实现文件下载功能的几个代码分享
2014/05/10 PHP
Symfony2实现在doctrine中内置数据的方法
2016/02/05 PHP
PHP+Ajax无刷新带进度条图片上传示例
2017/02/08 PHP
PHP使用Http Post请求发送Json对象数据代码解析
2020/07/16 PHP
jQuery+.net实现浏览更多内容(改编php版本)
2013/03/28 Javascript
js判断浏览器类型的方法
2013/08/07 Javascript
js中document.write使用过程中的一点疑问解答
2014/03/20 Javascript
在JavaScript中判断整型的N种方法示例介绍
2014/06/18 Javascript
Javascript中的数组常用方法解析
2016/06/17 Javascript
jQuery dataTables与jQuery UI 对话框dialog的使用教程
2016/09/02 Javascript
JavaScript中apply方法的应用技巧小结
2016/09/29 Javascript
js实现非常棒的弹出div
2016/10/06 Javascript
AngularJS的ng-click传参的方法
2017/06/19 Javascript
webpack3+React 的配置全解
2017/08/21 Javascript
基于vue.js快速搭建图书管理平台
2017/10/29 Javascript
详解Vue底部导航栏组件
2019/05/02 Javascript
VSCode写vue项目一键生成.vue模版,修改定义其他模板的方法
2020/04/17 Javascript
Python中表示字符串的三种方法
2017/09/06 Python
3分钟学会一个Python小技巧
2018/11/23 Python
python中的tcp示例详解
2018/12/09 Python
python print出共轭复数的方法详解
2019/06/25 Python
Python数据可视化 pyecharts实现各种统计图表过程详解
2019/08/15 Python
python3 mmh3安装及使用方法
2019/10/09 Python
详解python内置常用高阶函数(列出了5个常用的)
2020/02/21 Python
Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境
2020/04/08 Python
2014年入党积极分子学习三中全会思想汇报
2014/09/13 职场文书
小学生国庆65周年演讲稿范文(2篇)
2014/09/21 职场文书
国庆横幅标语
2014/10/08 职场文书
出差报告格式模板
2014/11/06 职场文书
专职安全员岗位职责
2015/04/11 职场文书
2015年安全员工作总结范文
2015/04/22 职场文书
追讨欠款律师函
2015/05/27 职场文书
2016年“七一建党节”广播稿
2015/12/18 职场文书
php 原生分页
2021/04/01 PHP
vue实现同时设置多个倒计时
2021/05/20 Vue.js