编程 Python

python 解决动态的定义变量名,并给其赋值的方法(大数据处理)

Posted in Python onNovember 10, 2018

最近消费kafka数据到磁盘的时候遇到了这样的问题：

需求：每天大概有1千万条数据，每条数据包含19个字段信息，需要将数据写到服务器磁盘，以第二个字段作为大类建立目录，第7个字段作为小类配合时间戳作为文件名，临时文件后缀tmp，当每个文件的写入条数（可配置，比如100条）达到要求条数时，将后缀tmp改为out。

问题：大类共有30个，小类不计其数而且未知，比如大类为A,小类为a，时间戳为20180606095835234，则A目录下的文件名为20180606095835234_a.tmp,这样一来需要在此文件写满100条时，更新时间戳生成第二个文件名，如果此时有1000个文件都在写则需要有1000个时间戳，和1000个计数器记录每个文件当前的条数，如果分别定义1000个变量显然是不划算的，

尝试：中间过程想到了动态定义变量名，即

定义第七个字段：seven = data.split('|')[7]

定义文件名：filename = time_stamp + '_' + seven+'.tmp'，

定义文件计数器：seven + ‘_num' = 0

定义文件时间戳：seven + '_stamp' = time.time( )

想法其实是没问题的，但是这里用到了一个不常用的语法：用一个变量名和一个字符串拼接出来一个新的变量名，并继续赋值（不知道我的表述是否清楚），试过了用local（）函数、global（）函数、exec（）函数都没有达到预期效果，也许是把问题想的太复杂了

解决：最后使用三个字典将这个问题完美解决，

定义一个字典用来存计数器，字典的每一个键对应一个文件名，值对应当前计数，并实时更新；

定义一个字典用来存时间戳，键对应一个文件名，值对应时间戳，达到100条就更新一次；

定义一个字典用来存大类，键对应代号，值对应分类；

局部功能代码如下：

def kafka_to_disk():
 print('启动前检测上次运行时是否存在意外中断的数据文件......')
 print('搜索最近一次执行脚本产生的时间目录......')
 # 待处理临时文件列表
 tmp_list = []
 try:
  for category_dir in os.listdir(local_file_path):
   if len(os.listdir(local_file_path+os.sep+category_dir)) > 0:
    for file in os.listdir(local_file_path+os.sep+category_dir):
     if suffix in file:
      tmp_list.append(local_file_path+os.sep+category_dir+os.sep+file)
  # print('上次运行程序产生的临时文件有---{}'.format(tmp_list))
 except Exception as e:
  pass
 if len(tmp_list) == 0:
  print('未扫描任何残留临时文件')
 else:
  print('开始修复残留临时文件......')
 tmp_num = 0
 for tmp in tmp_list:
  os.rename(tmp, tmp.split('.')[0]+'.out')
  tmp_num += 1
 print('本次启动共修复残留临时文件★★★★★-----{}个-----★★★★★'.format(tmp_num))
 
 category_poor = {
  '1': 'news', '2': 'weibo', '3': 'weixin', '4': 'app', '5': 'newspaper', '6': 'luntan',
  '7': 'blog', '8': 'video', '9': 'shangji', '10': 'shangjia', '11': 'gtzy', '12': 'zfztb',
  '13': 'gyfp', '14': 'gjz', '15': 'zfxx', '16': 'ptztb', '17': 'company', '18': 'house',
  '19': 'hospital', '20': 'bank', '21': 'zone', '22': 'express', '23': 'zpgw', '24': 'zscq',
  '25': 'hotel', '26': 'cpws', '27': 'gxqy', '28': 'gpjj', '29': 'dtyy', '30': 'bdbk'}
 
 time_stamp = utils.get_time_stamp() # 初始化毫秒级时间戳 ： 20180509103015125
 consumer = KafkaConsumer(topic, group_id=group_id, auto_offset_reset=auto_offset_reset, bootstrap_servers=eval(bootstrap_servers))
 print('连接kafka成功,数据筛选中......')
 file_poor = {}       # 子类池用于文件计数器
 time_stamp_poor = {}     # 子类时间戳池，用于触发文件切换
 time_stamp = utils.get_time_stamp()  # 初始化毫秒级时间戳 ：20180509103015125
 for message in consumer:
  # 提取第8个字段自动匹配目录进行创建
  if message.value.decode().split('|')[1] in category_poor:
   category = category_poor[message.value.decode().split('|')[1]]
  else:
   print(message.value.decode())
   continue
  category_dir = local_file_path + os.sep + category
  if not os.path.exists(category_dir):
   os.makedirs(category_dir)
  # 提取第2个字段，用于生成文件名
  if message.value.decode().split('|')[7] in time_stamp_poor:
   shot_file_name = time_stamp_poor[message.value.decode().split('|')[7]] + '_' + message.value.decode().split('|')[7]
  else:
   shot_file_name = time_stamp + '_' + message.value.decode().split('|')[7]
  file_name = category_dir + os.sep + shot_file_name + '.tmp'
 
  # 给每一个文件设定一个计数器
  if message.value.decode().split('|')[7] not in file_poor:
   file_poor[message.value.decode().split('|')[7]] = 0
 
  with open(file_name, 'a', encoding='utf-8')as f1:
   f1.write(message.value.decode())
   file_poor[message.value.decode().split('|')[7]] += 1
 
  # 触发切换文件的操作,用时间戳生成第二文件名
  if file_poor[message.value.decode().split('|')[7]] == strip_number:
   time_stamp_poor[message.value.decode().split('|')[7]] = utils.get_time_stamp()
   file_poor[message.value.decode().split('|')[7]] = 0

以上这篇python 解决动态的定义变量名,并给其赋值的方法(大数据处理)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 解决动态的定义变量名,并给其赋值的方法(大数据处理)

- Author -

威震四海

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现二维有序数组查找的方法

Apr 27 Python

Python图片裁剪实例代码(如头像裁剪)

Jun 21 Python

利用Django内置的认证视图实现用户密码重置功能详解

Nov 24 Python

Django 中使用流响应处理视频的方法

Jul 20 Python

Opencv-Python图像透视变换cv2.warpPerspective的示例

Apr 11 Python

python 3.6.7实现端口扫描器

Sep 04 Python

Pytorch .pth权重文件的使用解析

Feb 14 Python

django orm模块中的 is_delete用法

May 20 Python

Python中格式化字符串的四种实现

May 26 Python

运行python提示no module named sklearn的解决方法

Nov 29 Python

matplotlib绘制鼠标的十字光标的实现(内置方式)

Jan 06 Python

matplotlib事件处理基础(事件绑定、事件属性)

Feb 03 Python

在Python中定义一个常量的方法

Nov 10 #Python

python 定义n个变量方法 (变量声明自动化)

Nov 10 #Python

浅谈python连续赋值可能引发的错误

Nov 10 #Python

Linux下安装python3.6和第三方库的教程详解

Nov 09 #Python

Python2和Python3.6环境解决共存问题

Nov 09 #Python

python3 面向对象__类的内置属性与方法的实例代码

Nov 09 #Python

python 不同方式读取文件速度不同的实例

Nov 09 #Python

You might like

PHP函数shuffle()取数组若干个随机元素的方法分析

2016/04/02 PHP

PHP去除字符串最后一个字符的三种方法实例

2017/03/01 PHP

PHP实现将上传图片自动缩放到指定分辨率，并保持清晰度封装类示例

2019/06/17 PHP

Laravel框架Eloquent ORM简介、模型建立及查询数据操作详解

2019/12/04 PHP

Javascript表格翻页效果实现思路及代码

2013/08/23 Javascript

JS下拉缓冲菜单示例代码

2013/08/30 Javascript

JavaScript获取图片真实大小代码实例

2014/09/24 Javascript

JS控制表单提交的方法

2015/07/09 Javascript

jquery实现漂亮的二级下拉菜单代码

2015/08/26 Javascript

AngularJS入门教程之ng-class 指令用法

2016/08/01 Javascript

BootStrap框架中的data-[ ]自定义属性理解(推荐)

2017/02/14 Javascript

在Js页面通过POST传递参数跳转到新页面详解

2017/08/25 Javascript

详细分析单线程JS执行问题

2017/11/22 Javascript

解决vue中监听input只能输入数字及英文或者其他情况的问题

2018/08/30 Javascript

详解Vue.js v-for不支持IE9的解决方法

2018/12/29 Javascript

vue 判断页面是首次进入还是再次刷新的实例

2020/11/05 Javascript

Vue如何循环提取对象数组中的值

2020/11/18 Vue.js

[05:07]DOTA2英雄梦之声_第14期_暗影恶魔

2014/06/20 DOTA

Python自动化构建工具scons使用入门笔记

2015/03/10 Python

基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解

2017/10/13 Python

python增加矩阵维度的实例讲解

2018/04/04 Python

Python多进程原理与用法分析

2018/08/21 Python

Python 获取中文字拼音首个字母的方法

2018/11/28 Python

python实现七段数码管和倒计时效果

2019/11/23 Python

opencv-python 提取sift特征并匹配的实例

2019/12/09 Python

解决启动django,浏览器显示“服务器拒绝访问”的问题

2020/05/13 Python

ProBikeKit德国：在线公路自行车专家

2018/06/03 全球购物

咖啡店的创业计划书，让你hold不住

2014/01/03 职场文书

优秀管理者事迹材料

2014/05/22 职场文书

新教师培训方案

2014/06/08 职场文书

新闻传播专业求职信

2014/07/22 职场文书

工厂采购员岗位职责

2015/04/07 职场文书

2015年医院科室工作总结范文

2015/05/26 职场文书

教师信息技术学习心得体会

2016/01/21 职场文书

详解Go与PHP的语法对比

2021/05/29 PHP

Python的property属性详细讲解

2022/04/11 Python