Apache Spark 머신러닝을 위한 MLlib 기본 구성

Yuni·2022년 9월 12일
1

MLlib?

머신러닝 파이프라인 개발을 쉽고 확장성 있게 적용하기 위해 만들어진 Spark 컴포넌트.
Spark ML? Dataframe을 활용하는 MLlib API를 Spark ML이라고 부름.


MLlib 컴포넌트

  • 알고리즘
  • 파이프라인
  • Feature-Engineering
  • Utils

MLlib으로 할 수 있는 것들

  1. 피처 엔지니어링
  2. 통계적 연산
  3. 머신러닝 알고리즘 활용 (흔히 쓰이는)

파이프라인 구축 컴포넌트

컴포넌트설명
Dataframe
Transformer- 피처 변환과 학습 모델 추상화
- transform()
- 데이터를 학습 가능한 포맷으로 변환
Estimator- 모델의 학습 과정 추상화
- fit()
Evaluator- metric 기반 모델 성능 평가(e.g.RMSE)
- 튜닝을 자동화함으로써 성능 평가 후 가장 좋은 모델을 선택할 수 있음
Pipeline- ML 워크플로우
- 저장 가능(persist())
Parameter


__

Spark를 통해 머신러닝 파이프라인을 그려볼 수 있지만 제대로 파이프라인을 구축하기 위해선 Airflow 등의 툴을 활용하면 좋다.

profile
1차전직 DA 2차전직 DE

0개의 댓글