머신러닝 파이프라인 개발을 쉽고 확장성 있게 적용하기 위해 만들어진 Spark 컴포넌트.
Spark ML? Dataframe을 활용하는 MLlib API를 Spark ML이라고 부름.
컴포넌트 | 설명 |
---|---|
Dataframe | |
Transformer | - 피처 변환과 학습 모델 추상화 - transform() - 데이터를 학습 가능한 포맷으로 변환 |
Estimator | - 모델의 학습 과정 추상화 - fit() |
Evaluator | - metric 기반 모델 성능 평가(e.g.RMSE) - 튜닝을 자동화함으로써 성능 평가 후 가장 좋은 모델을 선택할 수 있음 |
Pipeline | - ML 워크플로우 - 저장 가능( persist() ) |
Parameter |
Spark를 통해 머신러닝 파이프라인을 그려볼 수 있지만 제대로 파이프라인을 구축하기 위해선 Airflow 등의 툴을 활용하면 좋다.