共计 412 个字符,预计需要花费 2 分钟才能阅读完成。
Blog 又开始种草了,虽然平时这个自留地记得都是流水账,懒起来的时候流水账都懒得记。今天又来水一篇,有关解析ParquetFile 文件。这两天做一个数据分析,生成的结果数据文件我没有指定输出格式,保存的时候变成snappy.parquet的格式,已经生成很多了,所以又不想改格式重新生成一遍,索性看下有没有合适的package来解析。便由此出了此文。
安装
conda安装
conda install -c conda-forge fastparquet
PyPI 安装:
pip install fastparquet
使用
from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])
就是这么简单,后面pandas Dataframe格式就好办了。
正文完
请博主喝杯咖啡吧!