#TIL
최적의 하이퍼 파라미터를 선택한다.
이런 흐름으로 흘러간다고 생각하면 될 것 같다.
모델 선택의 중요한 점 중 하나는 테스트 방법!
크게 2가지가 중요하다.
홀드아웃의 경우, 한번 잘못 나뉘어지면 bias가 생길 수 있다!
그 대안으로 나온것이 교차 검증.
이런 테스트 방법을 선택했다면,
다음의 3가지 입력을 기반으로 가장 좋은 파라미터를 찾아준다.
그리고 최종적으로 결과가 가장 좋은 모델을 리턴!
evaluate
함수가 제공된다.
RegressionEvaluator
BinaryClassificationEvaluator (AUC가 성능지표가 됨!)
MulticlassClassificationEvaluator
MultilableClassificationEvaluator
RankingEvaluator
즉, 머신러닝 모델 성능 측정에 사용되는 지표.
파라미터 그리드(ParamGrid)라고 불리기도 하는데 모델 테스트시 고려해야하는 가능한 learning 관련 파라미터들이다. (주로 트리 관련 알고리즘에서 중요하다.)
테스트 되는 파라미터의 예로는, 트리의 최대 깊이, 훈련 횟수 등이 있다.
ML Tuning 사용 절차를 요약하자면,
라고 보면 될것 같다..!
pipeline 말고는 써본적이 없어서 한번 사용해봐야할것같다 🤔