python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
python算法学习之计数排序实例
Dec 18 Python
在Python的Flask框架中实现单元测试的教程
Apr 20 Python
python实现通过代理服务器访问远程url的方法
Apr 29 Python
分析python请求数据
Aug 19 Python
使用python读取.text文件特定行的数据方法
Jan 28 Python
python mac下安装虚拟环境的图文教程
Apr 12 Python
在交互式环境中执行Python程序过程详解
Jul 12 Python
Django在admin后台集成TinyMCE富文本编辑器的例子
Aug 09 Python
python爬虫之爬取百度音乐的实现方法
Aug 24 Python
Django中间件拦截未登录url实例详解
Sep 03 Python
python 内置函数汇总详解
Sep 16 Python
基于python定位棋子位置及识别棋子颜色
Jul 26 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
6种php上传图片重命名的方法实例
2013/11/04 PHP
php提示Warning:mysql_fetch_array() expects的解决方法
2014/12/16 PHP
php抽象类用法实例分析
2015/07/07 PHP
关于PHP转换超过2038年日期出错的问题解决
2017/06/28 PHP
php实现商城购物车的思路和源码分析
2020/07/23 PHP
XP折叠菜单&amp;仿QQ2006菜单
2006/12/16 Javascript
input标签内容改变的触发事件介绍
2014/06/18 Javascript
javascript定义变量时有var和没有var的区别探讨
2014/07/21 Javascript
js实现文章文字大小字号功能完整实例
2014/11/01 Javascript
jquery 插件实现多行文本框[textarea]自动高度
2015/03/04 Javascript
浅谈JavaScript的push(),pop(),concat()方法
2016/06/03 Javascript
JS回调函数简单用法示例
2017/02/09 Javascript
JS实现的模仿QQ头像资料卡显示与隐藏效果
2017/04/07 Javascript
微信小程序自定义prompt组件步骤详解
2018/06/12 Javascript
Vue简单封装axios之解决post请求后端接收不到参数问题
2020/02/16 Javascript
js实现金山打字通小游戏
2020/07/24 Javascript
Python获取脚本所在目录的正确方法
2014/04/15 Python
给Python IDLE加上自动补全和历史功能
2014/11/30 Python
解读Django框架中的低层次缓存API
2015/07/24 Python
Python正则表达式使用经典实例
2016/06/21 Python
Python基于scapy实现修改IP发送请求的方法示例
2017/07/08 Python
Python 私有函数的实例详解
2017/09/11 Python
python自动化测试之如何解析excel文件
2019/06/27 Python
python GUI库图形界面开发之PyQt5下拉列表框控件QComboBox详细使用方法与实例
2020/02/27 Python
浅谈Tensorflow加载Vgg预训练模型的几个注意事项
2020/05/26 Python
牧马人澳大利亚官网:Wrangler澳大利亚
2019/10/08 全球购物
DELPHI中如何调用API,可举例说明
2014/01/16 面试题
两则小学生的自我评价分享
2013/11/14 职场文书
法务专员岗位职责
2014/01/02 职场文书
幼儿教师培训感言
2014/03/08 职场文书
乡镇党的群众路线教育实践活动领导班子对照检查材料
2014/09/25 职场文书
2014年小学教学工作总结
2014/11/13 职场文书
2016年九九重阳节活动总结
2016/04/01 职场文书
2016年“我们的节日·清明节”活动总结
2016/04/01 职场文书
python画条形图的具体代码
2022/04/20 Python
JS实现页面炫酷的时钟特效示例
2022/08/14 Javascript