fastparquet:parquet格式解析好帮手

2,057次阅读
没有评论

共计 412 个字符,预计需要花费 2 分钟才能阅读完成。

Blog 又开始种草了,虽然平时这个自留地记得都是流水账,懒起来的时候流水账都懒得记。今天又来水一篇,有关解析ParquetFile 文件。这两天做一个数据分析,生成的结果数据文件我没有指定输出格式,保存的时候变成snappy.parquet的格式,已经生成很多了,所以又不想改格式重新生成一遍,索性看下有没有合适的package来解析。便由此出了此文。

安装

conda安装

conda install -c conda-forge fastparquet

PyPI 安装:

pip install fastparquet

使用

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

就是这么简单,后面pandas Dataframe格式就好办了。

正文完
请博主喝杯咖啡吧!
post-qrcode
 
admin
版权声明:本站原创文章,由 admin 2021-12-22发表,共计412字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码