머신러닝 프로세스

calico·2025년 4월 7일

Artificial Intelligence

목록 보기
11/143

출처

머신러닝 프로세스


  • 머신러닝은 주어진 문제를 푸는 일련의 과정을 통틀어 말합니다.

    • 머신러닝 알고리즘으로 문제를 풀려면 데이터가 주어져야 합니다.
  • 전체 과정은 ① 데이터 수집 → ② 데이터 전처리 → ③ 모델 학습 → ④ 모델 평가 → ⑤ 모델 배포 순서로 이뤄집니다.

    • 데이터는 수시로 바뀔 수 있어서 한 번 배포한 모델이더라도 지속적으로 학습해 사용하게 됩니다.

데이터 수집


  • 머신러닝에 활용할 데이터를 수집하는 단계입니다. 내부뿐만 아니라 필요에 따라서 외부 데이터를 추가로 확보할 수도 있습니다.

  • 캐글(kaggle.com)이나 오픈엠엘(openml.org)과 같은 사이트에서 공개 데이터를 쉽게 구할 수 있습니다.



데이터 전 처리


  • 수집된 데이터를 곧바로 사용할 수 있으면 좋겠으나 대개는 잘못된 값이 들어 있거나 활용하기 불편하게 정리되어 있습니다.

  • 이러한 부분을 수정 및 정리하고 기존 데이터들을 활용해 데이터를 추가로 만들어내는 과정을 데이터 전처리라고 합니다.

    • 피처 엔지니어링도 전처리의 한 과정입니다.
  • 현업에서 좋은 성과를 내려면 이 과정은 필수입니다. 그래서 이 책은 피처 엔지니어링을 각 데이터셋마다 비중 있게 다룹니다. 주로 이 과정에서 실전 노하우를 풀어놓겠습니다.



모델 학습


  • 준비된 데이터를 머신러닝 알고리즘에 반영해 학습시키는 과정입니다.

  • 하이퍼파라미터를 조절해 모델의 성능을 극대화시키는 과정도 포함됩니다.

  • 하이퍼 파라미터 튜닝
    • 하이퍼 파라미터 튜닝은 머신러닝 모델의 성능을 최적화하기 위해 모델의 하이퍼 파라미터 값을 조정하는 과정입니다. 이 과정을 통해, 모델의 학습 효율을 높이고, 예측 성능을 개선할 수 있습니다.
    • 하이퍼 파라미터 튜닝에는 여러 방법이 있으며, 그 중에서도 그리드 서치(Grid Search), 랜덤 서치(Random Search), 베이지안 최적화(Bayesian Optimization)가 널리 사용됩니다.



모델 평가


  • 학습이 완료된 모델을 사용해 예측해보고, 결과를 평가하는 단계입니다.

  • 보통 학습된 모델 여러 개를 준비해 비교해보고 가장 좋은 모델을 선정합니다.



모델 배포


  • 머신러닝 결과물을 활용하는 단계입니다.

    • 예를 들어 예측 모델을 배포해 서비스에 직/간접적으로 활용하거나, 예측 결과물을 대시보드 형태로 시각화해 공개하거나, 모델링을 통해 얻은 인사이트를 유관부서에 전달하는 방식이 될 수도 있습니다.
  • 머신러닝 모델이 힘을 발휘하려면 지속적으로 최신 데이터로 재학습하는 작업을 잊으면 안 됩니다.

    • 예를 들어 최신 패션을 학습해 추천하는 모델이 있다고 합시다. 패션은 계절에 따라 해마다 변합니다. 최신 유행 데이터로 학습하지 않으면 더는 최신 패션을 추천하는 능력을 발휘하기 어렵습니다.

    • 따라서 머신러닝 전 과정을 안정적이고 효율적으로 배포 및 유지 관리해야 하는데, 이를 MLOpsMachine Learning Operations라고 합니다.



profile
https://velog.io/@corone_hi/posts

0개의 댓글