编程 Python

django批量导入xml数据

Posted in Python onOctober 16, 2016

django后台批量导入数据

在生产环境中，往往数据不是几条或者几百条，那么举个例子，将公司所有员工员工号或者帐号密码导入进后台，那就不建议你去后台一条条记录去添加了

如何从xml中批量导入svn记录

第一步：

为数据建立模型

@python_2_unicode_compatible
class SVNLog(models.Model):

  vision = models.IntegerField(verbose_name=u"修订版本", blank=False, null=False,)
  author = models.CharField(verbose_name=u"作者", max_length=60, blank=True, null=True)
  date = models.DateTimeField(verbose_name=u"修订时间",null=True )
  msg = models.TextField(verbose_name=u"注释消息", blank=False, null=False, default=u"")
  paths = models.TextField(verbose_name=u"影响的文件", blank=False, null=False, default=u"")
  created_time = models.DateTimeField(verbose_name=u"创建时间", auto_now_add=True, )
  update_time = models.DateTimeField(verbose_name=u"修改时间", auto_now=True, )

  class Meta:
    ordering = ['revision']

  def __str__(self):
    return u'r%s' % (self.revision or u"", )

既然建立好了模型，那我们再去建立接受我们xml文件的models

@python_2_unicode_compatible
class ImportLogFile(models.Model):

  LogFile = models.FileField(upload_to='LogFile')
  FileName = models.CharField(max_length=50, verbose_name=u'文件名')

  class Meta:
    ordering = ['FileName']

  def __str__(self):
    return self.FileName

ok,以上代码我们定义好了数据和上传文件的model

同步数据库

python manage.py makemigrations
python manage.py migrate

接着我们去修改admin.py 让我们可以从后台上传文件，

class ImportLogAdmin(admin.ModelAdmin):

  list_display = ('LogFile','FileName',)
  list_filter = ['FileName',]

  def save_model(self, request, obj, form, change):

    re = super(YDImportLogAdmin,self).save_model(request, obj, form, change)
    update_svn_log(self, request, obj, change)
    return re

注意上面代码里的save_model,这里才是关键，在这里我重写了ModelAdmin里的save_model方法
因为我们要把上传文件，读取文件，解析文件，操作数据库合为一步来操作，大家可以打开debug，在上传文件的时候，返回参数的obj里包括了文件上传的路径，这个路径也是下一步我们操作解析文件的关键，好了我们在这个app文件夹下新建一个utils.py 用来操作我们操作文件和数据库的工具类，为了简单我写成了函数如下
先贴一下我们要测试的xml文件

<?xml version="1.0" encoding="UTF-8"?>
<log>
<logentry
  revision="2">
<author>qwert</author>
<date>2016-09-27T07:16:37.396449Z</date>
<paths>
<path
  action="A"
  prop-mods="false"
  text-mods="true"
  kind="file">/aaa/README
  </path>
</paths>
<msg>20160927 151630</msg>
</logentry>


<logentry
  revision="1">
<author>VisualSVN Server</author>
<date>2016-09-20T05:03:12.861315Z</date>
<paths>
<path
  action="A"
  prop-mods="false"
  text-mods="false"
  kind="dir">/branches</path>
<path
  action="A"
  prop-mods="false"
  text-mods="false"
  kind="dir">/tags</path>
<path
  action="A"
  prop-mods="false"
  text-mods="false"
  kind="dir">/trunk</path>
</paths>
<msg>hello word</msg>
</logentry>
</log>

输出结果格式

r2 | qwer | 2016-09-27 15:16:37 +0800 (二, 27 9 2016) | 1 line
Changed paths:
  A /xxx/README

20160927 151630
------------------------------------------------------------------------
r1 | VisualSVN Server | 2016-09-20 13:03:12 +0800 (二, 20 9 2016) | 1 line
Changed paths:
  A /branches
  A /tags
  A /trunk

Initial structure.
from .models import SVNLog
import xmltodict
def update_svn_log(self, request, obj, change):

  headers = ['r','a','d','m','p']
  filepath = obj.LogFile.path
  xmlfile = xmltodict.parse(open(filepath, 'r'))
  xml_logentry = xml.get('log').get('logentry')
  info_list = []
  pathlist = []
  sql_insert_list = []
  sql_update_list = []
  for j in xml:
    data_dict = {}
    # get path
    paths = j.get('paths').get('path')
    if isinstance(paths,list):
      for path in paths:
        action = path.get('@action')
        pathtext = path.get('#text')
        pathtext = action + ' ' + pathtext
        pathlist.append(pathtext)
        
      _filelist = u'\n'.join(pathlist)
      _paths = u"Changed paths:\n {}".format(_filelist)
      print _paths
    else:
      _filelist = paths.get('@action') + ' ' + paths.get('#text')
      _paths = u"Changed paths:\n {}".format(_filelist)
      print _paths
    # get revision
    vision = j.get('@vision')
    # get auth
    author = j.get('author')
    #get date
    date = j.get('date')
    #get msg
    msg = j.get('msg')

    data_dict[headers[0]] = int(vision)
    data_dict[headers[1]] = author
    data_dict[headers[2]] = date
    data_dict[headers[3]] = msg
    data_dict[headers[4]] = _paths
    info_list.append(data_dict)

  _svnlog = SVNLog.objects.filter().order_by('-vision').first()
  _last_version = _svnlog.vision if _svnlog else 0

  for value in info_list:
    vision = value['r']
    author = value['a']
    date = value['d']
    msg = value['m']
    paths = value['p']
    print vision,author
    _svnlog = YDSVNLog.objects.filter().order_by('-revision').first()
    _last_version = _svnlog.revision if _svnlog else 0
    if vision > _last_version:
      sql_insert_list.append(SVNLog(revision=revision, author=author, date=date, msg = msg, paths = paths))
    else:
      sql_update_list.append(SVNLog(revision=revision, author=author, date=date, msg = msg, paths = paths))

  SVNLog.objects.bulk_create(sql_insert_list)
  SVNLog.objects.bulk_create(sql_update_list)

我们使用的xmltodict这个第三方库来解析xml，他把内容解析成了高效率的orderdict类型，就是有序列的字典
这个xml中比较复杂的是那个paths里的path，因为这个xml中包含两个元素，第一个元素的path只含有一个path，第二个元素中的paths包含有三个path，因此我们在解析获取的时候需要判断一下

paths = j.get('paths').get('path')
if isinstance(paths,list):
  pass

我们判断这个path是不是一个list类型的，如果是，那我们就按照list的方式来处理，如果不是，那我们就按单个的方式来处理,获取之后按照输出结果格式处理下结果然后获取其他内容

revision = j.get('@vision')
# get auth
author = j.get('author')
#get date
date = j.get('date')
#get msg
msg = j.get('msg')

最后我们将获取到的元素存在字典里
在循环中判断当前的版本号和数据库中的版本号，
如果比原来的小，那么我们执行更新操作，反之执行插入操作

最后使用了bulk_create来操作数据库，这样避免了循环中每次都进行数据库操作造成的资源浪费

django批量导入xml数据

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

教你如何在Django 1.6中正确使用 Signal

Jun 22 Python

python实现在每个独立进程中运行一个函数的方法

Apr 23 Python

Python捕捉和模拟鼠标事件的方法

Jun 03 Python

python生成随机图形验证码详解

Nov 08 Python

Python3解决棋盘覆盖问题的方法示例

Dec 07 Python

利用Python暴力破解zip文件口令的方法详解

Dec 21 Python

Django项目中包含多个应用时对url的配置方法

May 30 Python

Pyqt5 实现跳转界面并关闭当前界面的方法

Jun 19 Python

Pycharm+Python+PyQt5使用详解

Sep 25 Python

Python实现CNN的多通道输入实例

Jan 17 Python

利用pyecharts读取csv并进行数据统计可视化的实现

Apr 17 Python

python中的random模块和相关函数详解

Apr 22 Python

python中os模块详解

Oct 14 #Python

python append、extend与insert的区别

Oct 13 #Python

CentOS6.5设置Django开发环境

Oct 13 #Python

Python判断某个用户对某个文件的权限

Oct 13 #Python

python使用str & repr转换字符串

Oct 13 #Python

PYTHON 中使用 GLOBAL引发的一系列问题

Oct 12 #Python

CentOS 6.X系统下升级Python2.6到Python2.7 的方法

Oct 12 #Python

You might like

php 获取完整url地址

2008/12/20 PHP

PHP SPL使用方法和他的威力

2013/11/12 PHP

PHP学习笔记（一）：基本语法之标记、空白、和注释

2015/04/17 PHP

thinkPHP简单遍历数组方法分析

2016/05/16 PHP

php微信公众号开发之秒杀

2018/10/20 PHP

PHP PDOStatement::errorInfo讲解

2019/01/31 PHP

javascript URL编码和解码使用说明

2010/04/12 Javascript

基于JavaScript 数据类型之Boolean类型分析介绍

2013/04/19 Javascript

用原生JavaScript实现jQuery的$.getJSON的解决方法

2013/05/03 Javascript

JS+CSS实现一个气泡提示框

2013/08/18 Javascript

js获取url中"?"后面的字串方法

2014/05/15 Javascript

JavaScript实现自动消除按钮功能的方法

2015/08/05 Javascript

javascript针对不确定函数的执行方法

2015/12/16 Javascript

jQuery实现简洁的轮播图效果实例

2016/09/07 Javascript

JavaScrpt中如何使用 cookie 设置查看与删除功能

2017/07/09 Javascript

JavaScript实现删除数组重复元素的5种常用高效算法总结

2018/01/18 Javascript

聊聊JS动画库 Velocity.js的使用

2018/03/13 Javascript

如何解决webpack-dev-server代理常切换问题

2019/01/09 Javascript

微信小程序页面滚动到指定位置代码实例

2019/09/07 Javascript

Python中splitlines()方法的使用简介

2015/05/20 Python

使用Python脚本实现批量网站存活检测遇到问题及解决方法

2016/10/11 Python

完美解决python中ndarray 默认用科学计数法显示的问题

2018/07/14 Python

Python批量启动多线程代码实例

2020/02/18 Python

Python进行特征提取的示例代码

2020/10/15 Python

全球高级音频和视频专家：HiDef Lifestyle

2019/08/02 全球购物

德国的各种媒体在线商店：Thalia.de（书籍、电子书、玩具等）

2020/10/08 全球购物

毕业自我鉴定

2013/11/05 职场文书

法学专业自我鉴定

2014/02/05 职场文书

五一劳动节活动记录

2014/03/23 职场文书

教师新年寄语

2014/04/03 职场文书

道德演讲稿

2014/05/21 职场文书

专科生就业求职信

2014/06/22 职场文书

布达拉宫导游词

2015/02/02 职场文书

交通事故被告代理词

2015/05/23 职场文书

结婚幸福感言

2015/08/01 职场文书

MySQL里面的子查询的基本使用

2021/08/02 MySQL