
머신러닝은 주어진 문제를 푸는 일련의 과정을 통틀어 말합니다.
전체 과정은 ① 데이터 수집 → ② 데이터 전처리 → ③ 모델 학습 → ④ 모델 평가 → ⑤ 모델 배포 순서로 이뤄집니다.
머신러닝에 활용할 데이터를 수집하는 단계입니다. 내부뿐만 아니라 필요에 따라서 외부 데이터를 추가로 확보할 수도 있습니다.
캐글(kaggle.com)이나 오픈엠엘(openml.org)과 같은 사이트에서 공개 데이터를 쉽게 구할 수 있습니다.
수집된 데이터를 곧바로 사용할 수 있으면 좋겠으나 대개는 잘못된 값이 들어 있거나 활용하기 불편하게 정리되어 있습니다.
이러한 부분을 수정 및 정리하고 기존 데이터들을 활용해 데이터를 추가로 만들어내는 과정을 데이터 전처리라고 합니다.
현업에서 좋은 성과를 내려면 이 과정은 필수입니다. 그래서 이 책은 피처 엔지니어링을 각 데이터셋마다 비중 있게 다룹니다. 주로 이 과정에서 실전 노하우를 풀어놓겠습니다.
준비된 데이터를 머신러닝 알고리즘에 반영해 학습시키는 과정입니다.
하이퍼파라미터를 조절해 모델의 성능을 극대화시키는 과정도 포함됩니다.
- 하이퍼 파라미터 튜닝
- 하이퍼 파라미터 튜닝은 머신러닝 모델의 성능을 최적화하기 위해 모델의 하이퍼 파라미터 값을 조정하는 과정입니다. 이 과정을 통해, 모델의 학습 효율을 높이고, 예측 성능을 개선할 수 있습니다.
- 하이퍼 파라미터 튜닝에는 여러 방법이 있으며, 그 중에서도 그리드 서치(Grid Search), 랜덤 서치(Random Search), 베이지안 최적화(Bayesian Optimization)가 널리 사용됩니다.
학습이 완료된 모델을 사용해 예측해보고, 결과를 평가하는 단계입니다.
보통 학습된 모델 여러 개를 준비해 비교해보고 가장 좋은 모델을 선정합니다.
머신러닝 결과물을 활용하는 단계입니다.
머신러닝 모델이 힘을 발휘하려면 지속적으로 최신 데이터로 재학습하는 작업을 잊으면 안 됩니다.
예를 들어 최신 패션을 학습해 추천하는 모델이 있다고 합시다. 패션은 계절에 따라 해마다 변합니다. 최신 유행 데이터로 학습하지 않으면 더는 최신 패션을 추천하는 능력을 발휘하기 어렵습니다.
따라서 머신러닝 전 과정을 안정적이고 효율적으로 배포 및 유지 관리해야 하는데, 이를 MLOpsMachine Learning Operations라고 합니다.