[2024.01.03-4] Machine Learning_Preprocessing(2)

하은·2024년 1월 3일
0

- 와인 맛에 대한 분류 : 이진분류

- Pipeline

직접 공부하며 코드를 하나씩 실행해보면 혼돈이 큼
방법1: 코딩스타일바꾸기 (함수위주보다는 클래스 위주)
방법2: sklearn 유저라면 Pipeline기능을 사용

- 하이퍼파라미터

-교차검증

과적합: 모델이 학습데이터에만 과도하게 최적화된 현상. 그로인해 일반화된 데이터에서는 예측 성능이 과하게 떨어지는 현상

과적합 막기 위해 훈련과 테스트 데이터로 분류
심지어, 훈련데이터를 한번 더 분류 = 검증데이터

  • train 데이터를, k(5개 혹은 3개)
    -fold cross validation으로 나누고
    -각각을 검증 = 5번
    -5개의 평균을 구해서 최종 검증을 정확도로 봄

  • 검증이 끝나면 test 용 데이터로 재검증

  • 지난번 와인 맛 평가에서 훈련용데이터의acc는 72.94, 테스트용 데이터는 71.61%. 누가 결과가 정말 괜찮냐고 물어보면?

- 하이퍼파라미터 튜닝

  • 하이퍼파라미터 순서:
    raw값 - 특성관찰 - 데이터를 나눔 - 모델을만들고 결과를 보다가 - 하이퍼파라미터(=손으로 스스로 수정해야할 것들)

  • 튜닝대상
    결정나무에서 튜닝해볼만한건 max_depth
    반복문으로 바꿔가며 테스트해볼 수 있음
    근데, 보다 간편하고 유용한 방법이 있다

0개의 댓글