Choose your ML problems

TaeWoo Lee / Kris·2021년 12월 31일
0
post-thumbnail

데이터 과학자 실무 프로세스

  1. 비즈니스 문제
  • 실무자들과 대화를 통해 문제를 발견
  1. 데이터 문제
  • 문제와 관련된 데이터를 발견
  1. 데이터 문제 해결
  • 데이터 처리, 시각화
  • 머신러닝/통계
  1. 비즈니스 문제 해결
  • 데이터 문제 해결을 통해 실무자들과 함께 해결

예측 해야 하는 타겟을 명확히 정하고 그 분포를 살펴보기

  • 이산형, 순서형, 범주형 타겟 특성도 회귀문제 또는 다중클래스분류 문제로도 볼 수 있다.
  • 회귀, 다중클래스분류 문제들도 이진분류 문제로 바꿀 수 있다.

정보의 누수(leakage)

  • 모델을 만들고 평가를 진행했는데 예측을 100% 가깝게 잘 하는 경우를 종종 보게 될 것 (정보의 누수가 존재할 가능성이 매우 크다.)
    • 타겟변수 외에 예측 시점에 사용할 수 없는 데이터가 포함되어 학습이 이루어 질 경우
    • 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우
  • 정보의 누수가 일어나 과적합을 일으키고 실제 테스트 데이터에서 성능이 급격하게 떨어지는 결과를 확인할 수 있다.
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글