DASK로 해결하는 빅데이터 분석

anal-yg·2022년 6월 6일
0
post-thumbnail

요약

오늘날 빅데이터 분석에서 대용량 데이터를 다루기 위한 분산 컴퓨팅 도구이다.
일반적으로 Dask는 Spark보다 작고 가볍다.
이는 기능이 더 적고 대신 라이브러리, 특히 숫자 Python 생태계의 라이브러리와 함께 사용됨을 의미한다.
Pandas 또는 Scikit-Learn과 같은 라이브러리와 결합하여 높은 수준의 기능을 보인다.

언어

Dask는 Python으로 작성되었고, 실제로 Python에만 지원된다.

생태계

Dask는 더 큰 Python 생태계의 구성 요소이고, Numpy, Pandas 및 Scikit-Learn과 같은 다른 라이브러리와 잘 결합하고 이를 향상시킨다.

연차와 신뢰

Dask는 2014년부터 더 젊고 신뢰할 수 있는 Numpy/Pandas/Scikit-Learn/Jupyter 스택의 확장이다.

내부 디자인

Dask의 내부 모델은 기존의 Map-Shuffle-Reduce패러다임을 가진 Spark 보다는 낮은 수준이므로 최적화가 부족하긴 하지만,
보다 정교한 알고리즘을 구현하고 복잡한 맞춤형 시스템을 구축할 수 있다.
기본적으로 일반 작업 스케줄링 기반으로 구동된다.

스케일

DASK는 단일 노드에서 천개 노드 클러스터로 확장된다.

Dask를 선택해야 하는 이유

Python 또는 기본 코드를 선호하거나, 완전히 다시 작성하고 싶지 않은 대규모 레거시 코드 기반이 있을 때
사용 사례가 복잡하거나, Spark 컴퓨팅 모델에 적합하지 않을 때
로컬 컴퓨팅에서 클러스터 컴퓨팅으로 더 가벼운 전환을 원할 때
다른 기술과 상호 운용하기를 원하고, 여러 패키지 설치하는데 신경쓰고 싶지 않을 때
빅데이터 분석가로서 효율적으로 대용량 데이터를 구조적으로 처리하고 싶을 때

0개의 댓글