Pandas 병렬 처리를 위한 Dask

merong·2024년 1월 5일
0

⚠️ Pandas 병렬 컴퓨팅을 위한 라이브러리… The “Lazy” Pandas

  • 가상 데이터프레임

    실제 파일을 다 로드해서 데이터프레임 변수에 저장하는 게 아니라, 메소드로 호출할 때만 계산하고 보여주는 느낌임.

    이런 식으로 데이터를 불러봐도 내용을 보여주지 않음… 어어.. 나 가지고 있어 데이터프레임.. 이런 느낌..

    실제 값을 표시하려면 df.head(), df.tail()을 이용하면 된다고…

    근데 이제 평균을 구하거나 최솟값, 최댓값 등… 연산을 해야하는 경우에는 이것을 반환까지 해주지 않고 작업만 함.. 뒤에 compute()를 달아줘서 끝까지 알려줘야 되는 귀찮은 상황… 알아서 해주면 참 좋으련만…. 그래도 메모리 비용이 갑자기 높아지지 않으니 조금만 참아주자.

    dask에서 pandas보다 발전된 건.. 복수 csv 데이터 파일을 하나의 데이터프레임으로 한꺼번에 모을 수 있다는 점이다.

    이런식으로 하면 된다네..?

    그리고, pandas와 다른 점은 열을 수정하거나 추가할 때, pandas는 그냥 df[’ ~ ‘] = ~ 이런 식으로 코드를 작성하면 되었지만 dask에서는df.assign(칼럼명 = 채울 내용) 이런 식으로 코드를 작성해야 된다는 점이다.

REFERENCE

Python 병렬 처리를 위한 Dask

profile
매일매일이 새로운 시작점

0개의 댓글