이 글은 빅데이터에서 판다스를 사용할 때 너무 느린 속도를 빠르게 하는 방법을 정리한 글이다.
판다스는 데이터 분석을 위해서 사용하는 대표적인 툴
설치방법
pip install pandas
import pandas as pd
pip install dask
import dask.dataframe as dd
df = dd.read_csv(path.csv)
df.to_csv(path.csv)
. . .
df.to_parquet(path.csv)
pip install vaex
import vaex
df = vaex.open(path.parquet)
. . .
df.export_parquet(path.parquet)
conda install -c conda-forge modin
pip install "modin[all]"
(아나콘다에서 다운로드 했더니--user 옵션 없으니까 다운로드도 안되고 사용도 안됐었음.)
쉽게 생각하면 modin 만 추가된거고, 다운로드 할 때 [all]은
modin[dask], modin[ray] 같은 cpu 제한 옵션 관련한 라이브러리이다.(기술문서에 사용법이 나와 있다.)
사용방법
import modin.pandas as pd