[NVIDIA DLI] Fundamentals of Accelerated Data Science

지승훈·2024년 11월 21일
0

군집화(Clustering) 알고리즘

메서드설명특징
K-means데이터를 K개의 클러스터로 분할하는 군집화 알고리즘- 중심점 기반
- 구형 클러스터에 적합
- K값 사전 지정 필요
DBSCAN밀도 기반 군집화 알고리즘- 밀도 기반
- 불규칙한 형태 클러스터 가능
- 이상치 검출 가능
KMeans with Dask분산 처리 기반 K-means- 대규모 데이터 처리
- 병렬 처리
- 확장성 우수

분류(Classification) 알고리즘

메서드설명특징
Decision Tree데이터를 트리 구조로 분류하는 알고리즘- 직관적인 해석 가능
- 범주형/수치형 모두 처리
- 과적합 위험 있음
Logistic Regression확률 기반 이진 분류 방법- 선형 결정 경계
- 해석 용이
- 과소적합 위험
KNN거리 기반 분류 알고리즘- 비모수적 방법
- 메모리 기반
- 계산 비용 높음
XGBoost그래디언트 부스팅 기반 앙상블- 높은 성능
- 과적합 방지
- 병렬 처리 지원

배포(Deployment) 플랫폼

메서드설명특징
TritonNVIDIA의 추론 서버 플랫폼- 고성능 추론
- 다중 프레임워크 지원
- 동적 배치 처리

알고리즘 선택 기준

  • 데이터 크기: 대규모 → Dask 기반 방법
  • 해석 필요성: 높음 → Decision Tree, Logistic Regression
  • 비선형성: 높음 → XGBoost, KNN
  • 이상치 처리: 중요 → DBSCAN
  • 실시간 처리: 필요 → Triton

0개의 댓글