python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
python编程通过蒙特卡洛法计算定积分详解
Dec 13 Python
python逆向入门教程
Jan 15 Python
python得到qq句柄,并显示在前台的方法
Oct 14 Python
利用python和ffmpeg 批量将其他图片转换为.yuv格式的方法
Jan 08 Python
使用python实现mqtt的发布和订阅
May 05 Python
关于Python作用域自学总结
Jun 10 Python
python GUI图形化编程wxpython的使用
Jul 19 Python
Python自动化完成tb喵币任务的操作方法
Oct 30 Python
matlab灰度图像调整及imadjust函数的用法详解
Feb 27 Python
Django利用elasticsearch(搜索引擎)实现搜索功能
Nov 26 Python
Python实现PS滤镜中的USM锐化效果
Dec 04 Python
python excel多行合并的方法
Dec 09 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
PHP7.1方括号数组符号多值复制及指定键值赋值用法分析
2016/09/26 PHP
PHP远程连接oracle数据库操作实现方法图文详解
2019/04/11 PHP
CSS中一些@规则的用法小结
2021/03/09 HTML / CSS
20个非常有用的PHP类库 加速php开发
2010/01/15 Javascript
javascript中的循环语句for语句深入理解
2014/04/04 Javascript
JavaScript中双叹号!!作用示例介绍
2014/09/21 Javascript
javascript实现获取浏览器版本、浏览器类型
2015/12/02 Javascript
jquery自定义右键菜单、全选、不连续选择
2016/03/01 Javascript
AngularJs Javascript MVC 框架
2016/06/20 Javascript
jquery延迟对象解析
2016/10/26 Javascript
JavaScript事件用法浅析
2016/10/31 Javascript
mui上拉加载更多下拉刷新数据的封装过程
2017/11/03 Javascript
NodeJs 文件系统操作模块fs使用方法详解
2018/11/26 NodeJs
怎样使你的 JavaScript 代码简单易读(推荐)
2019/04/16 Javascript
vue项目中使用fetch的实现方法
2019/04/25 Javascript
详解Vue2.5+迁移至Typescript指南
2019/08/01 Javascript
python2.7实现邮件发送功能
2018/12/12 Python
Python基于Tkinter模块实现的弹球小游戏
2018/12/27 Python
css3 column实现卡片瀑布流布局的示例代码
2018/06/22 HTML / CSS
英国的一家创新礼品和小工具零售商:Menkind
2019/08/24 全球购物
德国排名第一的主题公园门票网站:Attraction Tickets Direct
2019/09/09 全球购物
Under Armour安德玛意大利官网:美国高端运动科技品牌
2020/01/16 全球购物
什么是属性访问器
2015/10/26 面试题
进程的查看和调度分别使用什么命令
2013/12/14 面试题
简单英文演讲稿
2014/01/01 职场文书
同事吵架检讨书
2014/02/05 职场文书
办公室主任竞聘演讲稿
2014/05/15 职场文书
会计专业自荐书
2014/07/08 职场文书
政协会议宣传标语
2014/10/09 职场文书
2014年党的群众路线活动个人整改措施
2014/10/28 职场文书
三八节祝酒词
2015/08/11 职场文书
党务工作者主要事迹材料
2015/11/03 职场文书
2016年小学生教师节广播稿
2015/12/18 职场文书
《作风建设永远在路上》心得体会
2016/01/21 职场文书
js实现上传图片到服务器
2021/04/11 Javascript
解析redis hash应用场景和常用命令
2021/08/04 Redis