오늘날 빅데이터 분석에서 대용량 데이터를 다루기 위한 분산 컴퓨팅 도구이다.
일반적으로 Dask는 Spark보다 작고 가볍다.
이는 기능이 더 적고 대신 라이브러리, 특히 숫자 Python 생태계의 라이브러리와 함께 사용됨을 의미한다.
Pandas 또는 Scikit-Learn과 같은 라이브러리와 결합하여 높은 수준의 기능을 보인다.
Dask는 Python으로 작성되었고, 실제로 Python에만 지원된다.
Dask는 더 큰 Python 생태계의 구성 요소이고, Numpy, Pandas 및 Scikit-Learn과 같은 다른 라이브러리와 잘 결합하고 이를 향상시킨다.
Dask는 2014년부터 더 젊고 신뢰할 수 있는 Numpy/Pandas/Scikit-Learn/Jupyter 스택의 확장이다.
Dask의 내부 모델은 기존의 Map-Shuffle-Reduce패러다임을 가진 Spark 보다는 낮은 수준이므로 최적화가 부족하긴 하지만,
보다 정교한 알고리즘을 구현하고 복잡한 맞춤형 시스템을 구축할 수 있다.
기본적으로 일반 작업 스케줄링 기반으로 구동된다.
DASK는 단일 노드에서 천개 노드 클러스터로 확장된다.
Python 또는 기본 코드를 선호하거나, 완전히 다시 작성하고 싶지 않은 대규모 레거시 코드 기반이 있을 때
사용 사례가 복잡하거나, Spark 컴퓨팅 모델에 적합하지 않을 때
로컬 컴퓨팅에서 클러스터 컴퓨팅으로 더 가벼운 전환을 원할 때
다른 기술과 상호 운용하기를 원하고, 여러 패키지 설치하는데 신경쓰고 싶지 않을 때
빅데이터 분석가로서 효율적으로 대용량 데이터를 구조적으로 처리하고 싶을 때