회사 코드를 보니 data lake로 사용되는 s3에 데이터를 올릴 때 pandas의 to_parquet 메서드를 활용해 parquet 형태로 변환 해서 저장하는 것을 보았다.
새로 보는 형식이어서 저장하려고 한다.
Parquet는 나무조각을 붙여 만든 마루바닥이라는 뜻으로 트위터에서 개발했다.
data를 저장하는 방식 중 하나로 hadoop Eco Sytstem에서 많이 사용되는 format
비슷한 것으로는 ORC, avro가 있다.
컬럼 기반 스토리지에 의한 고속화 때문에 속도가 빠름
데이터를 미리 컬럼 단위로 압축시키고 필요한 컬럼마 빠르게 읽고 집계하는 것이 빠르다.
snappy는 parquet에서 기본적으로 사용하는 압축라이브러리로 구글에서 개발하였으며
적당히 빠르고 적당히 압축 및 해제하는 것을 목표로 만들었다. 압축률이 좋지만 의존 라이브러리 들이 있고 종종 이슈가 있어 까다로움
그래서 대신 gipz를 사용하기도 한다.