编程 Python

用 Python 定义 Schema 并生成 Parquet 文件详情

Posted in Python onSeptember 25, 2021

一、简单字段定义

1、定义 Schema 并生成 Parquet 文件

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# 定义 Schema
schema = pa.schema([
    ('id', pa.int32()),
    ('email', pa.string())
])

# 准备数据
ids = pa.array([1, 2], type = pa.int32())
emails = pa.array(['first@example.com', 'second@example.com'], pa.string())

# 生成 Parquet 数据
batch = pa.RecordBatch.from_arrays(
    [ids, emails],
    schema = schema
)
table = pa.Table.from_batches([batch])

# 写 Parquet 文件 plain.parquet
pq.write_table(table, 'plain.parquet')
import pandas as pd

import pyarrow as pa

import pyarrow . parquet as pq

# 定义 Schema

schema = pa . schema ( [

     ( 'id' , pa . int32 ( ) ) ,

     ( 'email' , pa . string ( ) )

] )

# 准备数据

ids = pa . array ( [ 1 , 2 ] , type = pa . int32 ( ) )

emails = pa . array ( [ 'first@example.com' , 'second@example.com' ] , pa . string ( ) )

# 生成 Parquet 数据

batch = pa . RecordBatch . from_arrays (

     [ ids , emails ] ,

     schema = schema

)

table = pa . Table . from_batches ( [ batch ] )

# 写 Parquet 文件 plain.parquet

pq . write_table ( table , 'plain.parquet' )

2、验证 Parquet 数据文件

我们可以用工具 parquet-tools 来查看 plain.parquet 文件的数据和 Schema

$ parquet-tools schema plain.parquet  message schema {      optional int32 id;      optional binary email (STRING);  }  $ parquet-tools cat --json plain.parquet  {"id":1,"email":"first@example.com"}  {"id":2,"email":"second@example.com"}

没问题，与我们期望的一致。也可以用 pyarrow 代码来获取其中的 Schema 和数据

schema = pq.read_schema('plain.parquet')
print(schema)

df = pd.read_parquet('plain.parquet')
print(df.to_json())
schema = pq . read_schema ( 'plain.parquet' )

print ( schema )

df = pd . read_parquet ( 'plain.parquet' )

print ( df . to_json ( ) )

输出为：

schema = pq.read_schema('plain.parquet')
print(schema)

df = pd.read_parquet('plain.parquet')
print(df.to_json())
schema = pq . read_schema ( 'plain.parquet' )

print ( schema )

df = pd . read_parquet ( 'plain.parquet' )

print ( df . to_json ( ) )

二、含嵌套字段定义

下面的 Schema 定义加入一个嵌套对象，在 address 下分 email_address 和 post_address，Schema 定义及生成 Parquet 文件的代码如下

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# 内部字段
address_fields = [
    ('email_address', pa.string()),
    ('post_address', pa.string()),
]

# 定义 Parquet Schema，address 嵌套了 address_fields
schema = pa.schema(j)

# 准备数据
ids = pa.array([1, 2], type = pa.int32())
addresses = pa.array(
    [('first@example.com', 'city1'), ('second@example.com', 'city2')],
    pa.struct(address_fields)
)

# 生成 Parquet 数据
batch = pa.RecordBatch.from_arrays(
    [ids, addresses],
    schema = schema
)
table = pa.Table.from_batches([batch])

# 写 Parquet 数据到文件
pq.write_table(table, 'nested.parquet')
import pandas as pd

import pyarrow as pa

import pyarrow . parquet as pq

# 内部字段

address_fields = [

     ( 'email_address' , pa . string ( ) ) ,

     ( 'post_address' , pa . string ( ) ) ,

]

# 定义 Parquet Schema，address 嵌套了 address_fields

schema = pa . schema ( j )

# 准备数据

ids = pa . array ( [ 1 , 2 ] , type = pa . int32 ( ) )

addresses = pa . array (

     [ ( 'first@example.com' , 'city1' ) , ( 'second@example.com' , 'city2' ) ] ,

     pa . struct ( address_fields )

)

# 生成 Parquet 数据

batch = pa . RecordBatch . from_arrays (

     [ ids , addresses ] ,

     schema = schema

)

table = pa . Table . from_batches ( [ batch ] )

# 写 Parquet 数据到文件

pq . write_table ( table , 'nested.parquet' )

1、验证 Parquet 数据文件

同样用 parquet-tools 来查看下 nested.parquet 文件

$ parquet-tools schema nested.parquet  message schema {      optional int32 id;      optional group address {          optional binary email_address (STRING);          optional binary post_address (STRING);      }  }  $ parquet-tools cat --json nested.parquet  {"id":1,"address":{"email_address":"first@example.com","post_address":"city1"}}  {"id":2,"address":{"email_address":"second@example.com","post_address":"city2"}}

用 parquet-tools 看到的 Schama 并没有 struct 的字样，但体现了它 address 与下级属性的嵌套关系。

用 pyarrow 代码来读取 nested.parquet 文件的 Schema 和数据是什么样子

schema = pq.read_schema("nested.parquet")
print(schema)

df = pd.read_parquet('nested.parquet')
print(df.to_json())
schema = pq . read_schema ( "nested.parquet" )

print ( schema )

df = pd . read_parquet ( 'nested.parquet' )

print ( df . to_json ( ) )

输出：

id: int32
  -- field metadata --
  PARQUET:field_id: '1'
address: struct&lt;email_address: string, post_address: string&gt;
  child 0, email_address: string
    -- field metadata --
    PARQUET:field_id: '3'
  child 1, post_address: string
    -- field metadata --
    PARQUET:field_id: '4'
  -- field metadata --
  PARQUET:field_id: '2'
{"id":{"0":1,"1":2},"address":{"0":{"email_address":"first@example.com","post_address":"city1"},"1":{"email_address":"second@example.com","post_address":"city2"}}}
id : int32

   -- field metadata --

   PARQUET : field_id : '1'

address : struct & lt ; email_address : string , post_address : string & gt ;

   child 0 , email_address : string

     -- field metadata --

     PARQUET : field_id : '3'

   child 1 , post_address : string

     -- field metadata --

     PARQUET : field_id : '4'

   -- field metadata --

   PARQUET : field_id : '2'

{ "id" : { "0" : 1 , "1" : 2 } , "address" : { "0" : { "email_address" : "first@example.com" , "post_address" : "city1" } , "1" : { "email_address" : "second@example.com" , "post_address" : "city2" } } }

数据当然是一样的，有略微不同的是显示的 Schema 中, address 标识为 struct<email_address: string, post_address: string> , 明确的表明它是一个 struct 类型，而不是只展示嵌套层次。

到此这篇关于用 Python 定义 Schema 并生成 Parquet 文件详情的文章就介绍到这了,更多相关用 Python 定义 Schema 并生成 Parquet 文件内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

用 Python 定义 Schema 并生成 Parquet 文件详情

- Author -

Yanbin Blog

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中enumerate的用法实例解析

Aug 18 Python

Python生成不重复随机值的方法

May 11 Python

Python的MongoDB模块PyMongo操作方法集锦

Jan 05 Python

Python使用functools模块中的partial函数生成偏函数

Jul 02 Python

python 生成图形验证码的方法示例

Nov 11 Python

python+webdriver自动化环境搭建步骤详解

Jun 03 Python

Django REST framework 单元测试实例解析

Nov 07 Python

节日快乐! Python画一棵圣诞树送给你

Dec 24 Python

Python tempfile模块生成临时文件和临时目录

Sep 30 Python

python简单实现插入排序实例代码

Dec 16 Python

python快速安装OpenCV的步骤记录

Feb 22 Python

如何用Python进行时间序列分解和预测

Mar 01 Python

使用pipenv管理python虚拟环境的全过程

Sep 25 #Python

Django实现WebSocket在线聊天室功能(channels库)

Sep 25 #Python

Python天气语音播报小助手

用python基于appium模块开发一个自动收取能量的小助手

Python实现打乒乓小游戏

Python 类,对象,数据分类,函数参数传递详解

Sep 25 #Python

Python实现简单的俄罗斯方块游戏

You might like

全国FM电台频率大全 - 18 湖南省

2020/03/11 无线电

Breeze 文章管理系统 v1.0.0正式发布

2006/12/14 PHP

PHP关于htmlspecialchars、strip_tags、addslashes的解释

2014/07/04 PHP

PHP实现模仿socket请求返回页面的方法

2014/11/04 PHP

PHP实现登录注册之BootStrap表单功能

2017/09/03 PHP

ThinkPHP框架中使用Memcached缓存数据的方法

2018/03/31 PHP

showModelessDialog()使用详解

2006/09/21 Javascript

用js判断浏览器是否是IE的比较好的办法

2007/05/08 Javascript

angularjs学习笔记之完整的项目结构

2015/09/26 Javascript

详解JavaScript基于面向对象之创建对象（2）

2015/12/10 Javascript

JS实现左右无缝轮播图代码

2016/05/01 Javascript

vuejs动态组件给子组件传递数据的方法详解

2016/09/09 Javascript

js实现悬浮窗效果(支持拖动)

2017/03/09 Javascript

剖析Angular Component的源码示例

2018/03/23 Javascript

python文件和目录操作方法大全（含实例）

2014/03/12 Python

Python 自动补全(vim)

2014/11/30 Python

编写同时兼容Python2.x与Python3.x版本的代码的几个示例

2015/03/30 Python

Python 自动化表单提交实例代码

2017/06/08 Python

python实现定时自动备份文件到其他主机的实例代码

2018/02/23 Python

Python使用xlwt模块操作Excel的方法详解

2018/03/27 Python

pandas DataFrame 根据多列的值做判断,生成新的列值实例

2018/05/18 Python

selenium+python实现1688网站验证码图片的截取功能

2018/08/14 Python

Python 判断图像是否读取成功的方法

2019/01/26 Python

Python Opencv实现图像轮廓识别功能

2020/03/23 Python

在Anaconda3下使用清华镜像源安装TensorFlow（CPU版）

2020/04/19 Python

利用Python如何实时检测自身内存占用

2020/05/09 Python

Chemist Warehouse官方海外旗舰店：澳洲第一连锁大药房

2017/08/25 全球购物

施华洛世奇意大利官网：SWAROVSKI意大利

2018/07/23 全球购物

大学生的网上创业计划书

2013/12/31 职场文书

远程网络教育毕业生自我鉴定

2014/04/14 职场文书

党的群众路线教育实践活动对照检查材料思想汇报（党员篇）

2014/09/25 职场文书

防汛工作情况汇报

2014/10/28 职场文书

2015年宣传思想工作总结

2015/05/22 职场文书

2015年医院科室工作总结范文

2015/05/26 职场文书

2019最新版劳务派遣管理制度

2019/08/16 职场文书

Python实现科学占卜让视频自动打码

2022/04/09 Python