编程 Python

python:批量统计xml中各类目标的数量案例

Posted in Python onMarch 10, 2020

之前写了一个matlab的，越用越觉得麻烦，如果不同数据集要改类别数目，而且运行速度慢。所以重新写了一个Python的，直接读取xml文件夹路径就可以，不用预先知道类别，直接能够检测出所有类别的目标名称及其对应的数量。

分享出来给大家。

代码如下：

# -*- coding:utf-8 -*-
import os
import xml.etree.ElementTree as ET
import numpy as np
np.set_printoptions(suppress=True, threshold=np.nan)
import matplotlib
from PIL import Image
 
def parse_obj(xml_path, filename):
 tree=ET.parse(xml_path+filename)
 objects=[]
 for obj in tree.findall('object'):
 obj_struct={}
 obj_struct['name']=obj.find('name').text
 objects.append(obj_struct)
 return objects
 
 
def read_image(image_path, filename):
 im=Image.open(image_path+filename)
 W=im.size[0]
 H=im.size[1]
 area=W*H
 im_info=[W,H,area]
 return im_info
 
 
if __name__ == '__main__':
 xml_path='C:/Users/nansbas/Desktop/hebin/03/'
 filenamess=os.listdir(xml_path)
 filenames=[]
 for name in filenamess:
 name=name.replace('.xml','')
 filenames.append(name)
 recs={}
 obs_shape={}
 classnames=[]
 num_objs={}
 obj_avg={}
 for i,name in enumerate(filenames):
 recs[name]=parse_obj(xml_path, name+ '.xml' )
 for name in filenames:
 for object in recs[name]:
 if object['name'] not in num_objs.keys():
  num_objs[object['name']]=1
 else:
  num_objs[object['name']]+=1
 if object['name'] not in classnames:
  classnames.append(object['name'])
 for name in classnames:
 print('{}:{}个'.format(name,num_objs[name]))
 print('信息统计算完毕。')

python:批量统计xml中各类目标的数量案例

补充知识：Python对目标检测数据集xml文件操作（统计目标种类、数量、面积、比例等&修改目标名字）

1. 根据xml文件统计目标种类以及数量

# -*- coding:utf-8 -*-
#根据xml文件统计目标种类以及数量
import os
import xml.etree.ElementTree as ET
import numpy as np
np.set_printoptions(suppress=True, threshold=np.nan)
import matplotlib
from PIL import Image
 
def parse_obj(xml_path, filename):
 tree=ET.parse(xml_path+filename)
 objects=[]
 for obj in tree.findall('object'):
 obj_struct={}
 obj_struct['name']=obj.find('name').text
 objects.append(obj_struct)
 return objects
 
 
def read_image(image_path, filename):
 im=Image.open(image_path+filename)
 W=im.size[0]
 H=im.size[1]
 area=W*H
 im_info=[W,H,area]
 return im_info
 
 
if __name__ == '__main__':
 xml_path='/home/dlut/网络/make_database/数据集——合集/VOCdevkit/VOC2018/Annotations/'
 filenamess=os.listdir(xml_path)
 filenames=[]
 for name in filenamess:
 name=name.replace('.xml','')
 filenames.append(name)
 recs={}
 obs_shape={}
 classnames=[]
 num_objs={}
 obj_avg={}
 for i,name in enumerate(filenames):
 recs[name]=parse_obj(xml_path, name+ '.xml' )
 for name in filenames:
 for object in recs[name]:
  if object['name'] not in num_objs.keys():
   num_objs[object['name']]=1
  else:
   num_objs[object['name']]+=1
  if object['name'] not in classnames:
   classnames.append(object['name'])
 for name in classnames:
 print('{}:{}个'.format(name,num_objs[name]))
 print('信息统计算完毕。')

python:批量统计xml中各类目标的数量案例

2.根据xml文件统计目标的平均长度、宽度、面积以及每一个目标在原图中的占比

# -*- coding:utf-8 -*-
#统计
# 计算每一个目标在原图中的占比
# 计算目标的平均长度、
# 计算平均宽度，
# 计算平均面积、
# 计算目标平均占比

import os
import xml.etree.ElementTree as ET
import numpy as np

#np.set_printoptions(suppress=True, threshold=np.nan) #10,000,000
np.set_printoptions(suppress=True, threshold=10000000) #10,000,000
import matplotlib
from PIL import Image


def parse_obj(xml_path, filename):
 tree = ET.parse(xml_path + filename)
 objects = []
 for obj in tree.findall('object'):
  obj_struct = {}
  obj_struct['name'] = obj.find('name').text
  bbox = obj.find('bndbox')
  obj_struct['bbox'] = [int(bbox.find('xmin').text),
        int(bbox.find('ymin').text),
        int(bbox.find('xmax').text),
        int(bbox.find('ymax').text)]
  objects.append(obj_struct)
 return objects


def read_image(image_path, filename):
 im = Image.open(image_path + filename)
 W = im.size[0]
 H = im.size[1]
 area = W * H
 im_info = [W, H, area]
 return im_info


if __name__ == '__main__':
 image_path = '/home/dlut/网络/make_database/数据集——合集/VOCdevkit/VOC2018/JPEGImages/'
 xml_path = '/home/dlut/网络/make_database/数据集——合集/VOCdevkit/VOC2018/Annotations/'
 filenamess = os.listdir(xml_path)
 filenames = []
 for name in filenamess:
  name = name.replace('.xml', '')
  filenames.append(name)
 print(filenames)
 recs = {}
 ims_info = {}
 obs_shape = {}
 classnames = []
 num_objs={}
 obj_avg = {}
 for i, name in enumerate(filenames):
  print('正在处理 {}.xml '.format(name))
  recs[name] = parse_obj(xml_path, name + '.xml')
  print('正在处理 {}.jpg '.format(name))
  ims_info[name] = read_image(image_path, name + '.jpg')
 print('所有信息收集完毕。')
 print('正在处理信息......')
 for name in filenames:
  im_w = ims_info[name][0]
  im_h = ims_info[name][1]
  im_area = ims_info[name][2]
  for object in recs[name]:
   if object['name'] not in num_objs.keys():
    num_objs[object['name']] = 1
   else:
    num_objs[object['name']] += 1
   #num_objs += 1
   ob_w = object['bbox'][2] - object['bbox'][0]
   ob_h = object['bbox'][3] - object['bbox'][1]
   ob_area = ob_w * ob_h
   w_rate = ob_w / im_w
   h_rate = ob_h / im_h
   area_rate = ob_area / im_area
   if not object['name'] in obs_shape.keys():
    obs_shape[object['name']] = ([[ob_w,
            ob_h,
            ob_area,
            w_rate,
            h_rate,
            area_rate]])
   else:
    obs_shape[object['name']].append([ob_w,
             ob_h,
             ob_area,
             w_rate,
             h_rate,
             area_rate])
  if object['name'] not in classnames:
   classnames.append(object['name']) # 求平均

 for name in classnames:
  obj_avg[name] = (np.array(obs_shape[name]).sum(axis=0)) / num_objs[name]
  print('{}的情况如下：*******\n'.format(name))
  print(' 目标平均W={}'.format(obj_avg[name][0]))
  print(' 目标平均H={}'.format(obj_avg[name][1]))
  print(' 目标平均area={}'.format(obj_avg[name][2]))
  print(' 目标平均与原图的W比例={}'.format(obj_avg[name][3]))
  print(' 目标平均与原图的H比例={}'.format(obj_avg[name][4]))
  print(' 目标平均原图面积占比={}\n'.format(obj_avg[name][5]))
 print('信息统计计算完毕。')

python:批量统计xml中各类目标的数量案例

3.修改xml文件中某个目标的名字为另一个名字

#修改xml文件中的目标的名字，
import os, sys
import glob
from xml.etree import ElementTree as ET

# 批量读取Annotations下的xml文件
# per=ET.parse(r'C:\Users\rockhuang\Desktop\Annotations\000003.xml')
xml_dir = r'/home/dlut/网络/make_database/数据集——合集/VOCdevkit/VOC2018/Annotations'
xml_list = glob.glob(xml_dir + '/*.xml')
for xml in xml_list:
 print(xml)
 per = ET.parse(xml)
 p = per.findall('/object')

 for oneper in p: # 找出person节点
  child = oneper.getchildren()[0] # 找出person节点的子节点
  if child.text == 'PinNormal': #需要修改的名字
   child.text = 'normal bolt' #修改成什么名字
  if child.text == 'PinDefect': #需要修改的名字
   child.text = 'defect bolt-1' #修改成什么名字

 per.write(xml)
 print(child.tag, ':', child.text)

python:批量统计xml中各类目标的数量案例

以上这篇python:批量统计xml中各类目标的数量案例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python:批量统计xml中各类目标的数量案例

- Author -

南石北岸生

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

部署Python的框架下的web app的详细教程

Apr 30 Python

Python常用的文件及文件路径、目录操作方法汇总介绍

May 21 Python

Python爬虫框架Scrapy实战之批量抓取招聘信息

Aug 07 Python

对python3中pathlib库的Path类的使用详解

Oct 14 Python

对Pycharm创建py文件时自定义头部模板的方法详解

Feb 12 Python

Python处理session的方法整理

Aug 29 Python

python 变量初始化空列表的例子

Nov 28 Python

Pytorch 神经网络—自定义数据集上实现教程

Jan 07 Python

SpringBoot实现登录注册常见问题解决方案

Mar 04 Python

Python基于codecs模块实现文件读写案例解析

May 11 Python

Python基于gevent实现高并发代码实例

May 15 Python

Python实现迪杰斯特拉算法并生成最短路径的示例代码

Dec 01 Python

学习Python列表的基础知识汇总

Mar 10 #Python

在PyCharm中遇到pip安装失败问题及解决方案(pip失效时的解决方案)

Mar 10 #Python

python 成功引入包但无法正常调用的解决

Mar 09 #Python

python 中不同包类方法之间的调用详解

Mar 09 #Python

PyCharm 无法 import pandas 程序卡住的解决方式

Mar 09 #Python

python3 使用traceback定位异常实例

Mar 09 #Python

基于Python3.7.1无法导入Numpy的解决方式

Mar 09 #Python

You might like

PHP把网页保存为word文件的三种方法

2014/04/01 PHP

php过滤html中的其他网站链接的方法(域名白名单功能)

2014/04/24 PHP

PHP遍历数组的三种方法及效率对比分析

2015/02/12 PHP

TP5框架简单登录功能实现方法示例

2019/10/31 PHP

[对联广告] JS脚本类

2006/08/27 Javascript

9款2014最热门jQuery实用特效推荐

2014/12/07 Javascript

js实现动画特效的文字链接鼠标悬停提示的方法

2015/03/02 Javascript

nodejs实现获取某宝商品分类

2015/05/28 NodeJs

原生javascript实现分享到朋友圈功能支持ios和android

2016/05/11 Javascript

Javascript类型系统之undefined和null浅析

2016/07/13 Javascript

浅谈JavaScript 函数参数传递到底是值传递还是引用传递

2016/08/23 Javascript

jQuery 选择符详细介绍及整理

2016/12/02 Javascript

手机软键盘弹出时影响布局的解决方法

2016/12/15 Javascript

webpack4之SplitChunksPlugin使用指南

2018/06/12 Javascript

vue+element-ui集成随机验证码+用户名+密码的form表单验证功能

2018/08/05 Javascript

详解关于Vue2.0路由开启keep-alive时需要注意的地方

2018/09/18 Javascript

node.js中ws模块创建服务端和客户端,网页WebSocket客户端

2019/03/06 Javascript

在vscode 中设置 vue模板内容的方法

2020/09/02 Javascript

[52:03]Secret vs VG 2018国际邀请赛小组赛BO2 第一场 8.17

2018/08/20 DOTA

python中使用xlrd、xlwt操作excel表格详解

2015/01/29 Python

关于numpy中np.nonzero()函数用法的详解

2017/02/07 Python

python中logging模块的一些简单用法的使用

2019/02/22 Python

python Gunicorn服务器使用方法详解

2019/07/22 Python

Django多层嵌套ManyToMany字段ORM操作详解

2020/05/19 Python

Html5之svg可缩放矢量图形_动力节点Java学院整理

2017/07/17 HTML / CSS

波兰最大的儿童服装连锁店之一：5.10.15.

2018/02/11 全球购物

REN Clean Skincare官网：英国本土有机护肤品牌

2019/02/23 全球购物

兰蔻俄罗斯官方网站：Lancome俄罗斯

2019/12/09 全球购物

学生会竞选自荐信

2013/10/12 职场文书

夫妻房产协议书的格式

2014/10/11 职场文书

2014城乡环境综合治理工作总结

2014/12/19 职场文书

教代会闭幕词

2015/01/28 职场文书

正规借条模板

2015/05/26 职场文书

班干部学习委员竞选稿

2015/11/20 职场文书

解决numpy数组互换两行及赋值的问题

2021/04/17 Python

用Python仅20行代码编写一个简单的端口扫描器

2022/04/08 Python