PCA_KNn

안선경·2023년 3월 23일
0

ML_study

목록 보기
24/25
post-custom-banner

  • 이번에는 mnist데이터를 통해 PCA와 KNn기법을 모두 사용해보자
  • 해당 데이터는 숫자 적을 때 모양을 데이터 셋으로 저장한 것인데, 첫번 째 컬럼은 라벨이며 나머지는 해당 라벨에 대한 데이터다.
  • 785개 중 1개는 label이며 나머지 784개는 28×2828\times28개의 픽셀로 이루어진 데이터다.
  • x_train, x_test, y_train, y_test 총 4개로 구분하고, 데이터를 확인해보니 정상적으로 분리됐다.
  • 먼저 기존 데이터를 28*28로 형태로 변환한 뒤 시각화를 해봤다.
  • 위에 title은 y_train 즉 라벨값(실제값)이며, 밑에 그려진 그림은 x_trina데이터를 array(28, 28)형태로 변환한 뒤 그린 그림이다.
  • 이제 Knn모듈을 다운받고, x_train을 y_train 정답으로 교육시키고 성능을 확인해보나 97%성능을 보여준다.
  • 이제 더 정확한 테스를 위해 Pipeline, PCA, GridSearchCV, StraifiledkFold 모듈을 다운받고,
  • 5개 단계로 교차검증을 설정 후 PCA로 데이터 변환 후 KNN으로 교육시킨다.
  • 교차검증에서 가장 높은 성능은 93%이며, KNn 10에서, pca는 10개 차원에서 가장 높은 성능을 보인다.
  • 해당 설정으로 x_test로 예측하고, y데이터에 검증 결과 93%성능을 보여준다.
  • 이제 confusion_martix로 확인해보니 각 단계의 결과를 보여준다.
  • 이제 실제 검증을 해보니 실제값과 예측값이 정상적으로 일치한다.
profile
상황을 바꿀 수 없다면, 나를 바꾸자
post-custom-banner

0개의 댓글