[머신러닝] 펭귄 몸무게 예측

바사라·2023년 7월 27일
0

머신러닝

목록 보기
1/2
post-thumbnail

💻 프로젝트

[데이터 구성]

  • species: 펭귄 종
  • island: 서식지
  • culmen_length_mm: 부리 길이
  • culmen_depth_mm: 부리 깊이
  • flipper_length_mm: 날개 길이
  • sex: 성별

[EDA 및 전처리]

  • 연속형 변수인 부리 길이, 부리 깊이,날개 길이의 데이터 분포도를 확인해보았지만, 치우쳐진 값이 없어 추가적으로 로그처리와 스케일링을 하지는 않았다.

  • 범주형 변수인 종,서식지,성별을 확인하였다 종은 Adelie,Gentoo,Chinstrap 순으로 많았고
    서식지는 Biscoe,Dream,Torgersen순으로 많았다. 성별은 대체적으로 분포가 거의 비슷했지만,암컷이 더 많았고 결측치가 7개 발견되어 드랍해주었다.

  • 이 후 성별과 종과 서식지를 더미변수화 해주었다. 원핫인코딩 하는 과정에서 완벽한 선형관계를 보일 수 있으므로 첫번째 열을 드랍해주었다.

  • 상관관계 분석을 해보았더니 0.6이상이 되는 값들은 다중공선성을 가지고 있을 수 있다는 가정을 했다.

[회귀 모델 학습]

  • 다중 선형 회귀 분석을 모든 변수를 다 넣고 회귀 분석을 해보니 R-square가 0.873으로 상당히 높은 정확도를 지녔다 .하지만 다중 선형 회귀 분석은 다중 공선성 문제가 있을 수 있으므로 다중 공선성를 진단 해 보았다.

  • 우선 P > |t| 값이 0.05보다 클경우 데이터를 오염 시킬 수 있다고 가정하여 작은지 확인하여 제거해주었다.

  • 다중 공선성 결과 다중 공선성이 10이하로 떨어지고,P > |t| 값이 0.05보다 클경우를 모두 제외하려면, "species_Gentoo","sex_MALE","species_Gentoo" 컬럼을 제외한 모두 제거해 주어야 경향을 보였으므로 모두 제거 해 주었다.
BeforeAfter

이후 나머지 컬럼으로 봤을때는 , 0.863으로 조금은 떨어졌다.

[다중선형회귀분석 ,라쏘회귀와 릿지회귀 비교]

다중 선형 회귀라쏘 회귀릿지 회귀

변수를 줄였음에도 불구하고 RMSE값과 변수의 중요도가 크게 바뀌지 않는다.

1개의 댓글

comment-user-thumbnail
2023년 7월 27일

좋은 정보 얻어갑니다, 감사합니다.

답글 달기