[TIL] 22.10.29

문종현·2022년 10월 29일
0

TIL

목록 보기
27/119
post-custom-banner

인공지능 세미나 - 정형 데이터를 다루는 머신러닝 문제해결 패턴

유튜브 출처
https://www.youtube.com/watch?v=b98H87BIrbo&t=140s

머신러닝 문제해결 프로세스

  1. 문제(경진대회) 이해
  • 배경, 목적, 유형 등

    • 어떤 데이터를 활용해서 어떤 값을 예측해야 하는지?

    • 회귀인지, 분류인지?

    • 주어진 데이터가 무엇인지?

    • 어떻게 접근해서 문제를 풀어야 할지?

    • 배경지식, 사전지식을 사용할만한 점이 있는지?

  • 평가지표 파악

  1. EDA
  • 데이터 구조 탐색, 몇 가지 통계값 구해보기

    • 제공된 파일별 용도 파악

    • 데이터 양(info, shape)

    • 피처 이해(이름, 의미, 데이터타입, 결측치, 고유값 개수 등)

      • (선택)피처 요약 표 사용
    • 훈련 vs 테스트 데이터 차이(분포가 비슷한지, train에는 있지만 test에는 없는 피처가 있는지 등)

    • 타겟값 파악(train에 명확히 없는 경우도 있음)

  • 데이터 시각화(중요 피처 탐색)

    • 다양한 그래프를 활용해 데이터 전반을 깊이있게 살펴봄

    • 이 과정에서 어떤 피처가 중요한지, 피처끼리 어떻게 조합해서 새로운 피처를 만들지, 어떤 점을 주의해서 모델링할지 인사이트를 얻음

    • e.g. 왼쪽으로 치우친 분포 -> 로그 변환해서 조금 더 정규분포에 가깝게 만들어줌

    • 이진분류에서 타겟값 분포가 불균형

      • oversampling, undersampling 등 고려
    • 특정 피처의 고유값별 타겟값 1인 비율이 비슷하다? -> 타겟값을 예측하는데 별로 도움이 안되는 피처일 수 있다

    • 피어슨 상관관계 히트맵 -> 다중공선성을 띄는 피처들 제거

      • 상관관계가 낮아서 피처를 제거했는데 오히려 성능이 낮아질 수 있음. 상관관계가 절대적인 지표는 아님
  • 피처 파악

    • 추가할 피처
    • 제거할 피처
    • 피처별 인코딩 전략
      • label 인코딩(가까운 숫자일수록 비슷한 데이터로 판단. 데이터에 대소관계가 확실하면 사용 고려), one-hot 인코딩(고유값별로 독립적인 데이터로 판단) 등
  • 이상치, 결측값 파악

    • 이상치, 결측치 파악 기법
    • 해당 피처별 처리 방법
  1. 베이스라인 모델 구축
  • 피처 엔지니어링
  • 모델 훈련 및 성능 검증
  • 결과 예측 및 제출
  1. (성능이 만족스럽지 못할 시,) 성능 개선
  • 피처 엔지니어링
  • 하이퍼파라미터 최적화
  • 성능 검증
  • 결과 예측 및 제출
profile
자라나라 새싹새싹🌱
post-custom-banner

0개의 댓글