Apache Spark 머신러닝을 위한 MLlib 기본 구성

Yuni·2022년 9월 12일

MLlib?

머신러닝 파이프라인 개발을 쉽고 확장성 있게 적용하기 위해 만들어진 Spark 컴포넌트.
Spark ML? Dataframe을 활용하는 MLlib API를 Spark ML이라고 부름.


MLlib 컴포넌트

  • 알고리즘
  • 파이프라인
  • Feature-Engineering
  • Utils

MLlib으로 할 수 있는 것들

  1. 피처 엔지니어링
  2. 통계적 연산
  3. 머신러닝 알고리즘 활용 (흔히 쓰이는)

파이프라인 구축 컴포넌트

컴포넌트설명
Dataframe
Transformer- 피처 변환과 학습 모델 추상화
- transform()
- 데이터를 학습 가능한 포맷으로 변환
Estimator- 모델의 학습 과정 추상화
- fit()
Evaluator- metric 기반 모델 성능 평가(e.g.RMSE)
- 튜닝을 자동화함으로써 성능 평가 후 가장 좋은 모델을 선택할 수 있음
Pipeline- ML 워크플로우
- 저장 가능(persist())
Parameter


__

Spark를 통해 머신러닝 파이프라인을 그려볼 수 있지만 제대로 파이프라인을 구축하기 위해선 Airflow 등의 툴을 활용하면 좋다.

profile
1차전직 DA 2차전직 DE

0개의 댓글