fastparquet：parquet格式解析好帮手

3,193次阅读

共计 412 个字符，预计需要花费 2 分钟才能阅读完成。

Blog 又开始种草了，虽然平时这个自留地记得都是流水账，懒起来的时候流水账都懒得记。今天又来水一篇，有关解析ParquetFile 文件。这两天做一个数据分析，生成的结果数据文件我没有指定输出格式，保存的时候变成snappy.parquet的格式，已经生成很多了，所以又不想改格式重新生成一遍，索性看下有没有合适的package来解析。便由此出了此文。

安装

conda安装

conda install -c conda-forge fastparquet

PyPI 安装:

pip install fastparquet

使用

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

就是这么简单，后面pandas Dataframe格式就好办了。

正文完

请博主喝杯咖啡吧！

发表至： Python

2021-12-22

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

NCE评测指标理解