[데이터셋]
https://www.kaggle.com/datasets/parulpandey/palmer-archipelago-antarctica-penguin-data
연속형 변수인 부리 길이, 부리 깊이,날개 길이의 데이터 분포도를 확인해보았지만, 치우쳐진 값이 없어 추가적으로 로그처리와 스케일링을 하지는 않았다.
범주형 변수인 종,서식지,성별을 확인하였다 종은 Adelie,Gentoo,Chinstrap 순으로 많았고
서식지는 Biscoe,Dream,Torgersen순으로 많았다. 성별은 대체적으로 분포가 거의 비슷했지만,암컷이 더 많았고 결측치가 7개 발견되어 드랍해주었다.
이 후 성별과 종과 서식지를 더미변수화 해주었다. 원핫인코딩 하는 과정에서 완벽한 선형관계를 보일 수 있으므로 첫번째 열을 드랍해주었다.
Before | After |
---|---|
이후 나머지 컬럼으로 봤을때는 , 0.863으로 조금은 떨어졌다.
[다중선형회귀분석 ,라쏘회귀와 릿지회귀 비교]
다중 선형 회귀 | 라쏘 회귀 | 릿지 회귀 |
---|---|---|
변수를 줄였음에도 불구하고 RMSE값과 변수의 중요도가 크게 바뀌지 않는다.
좋은 정보 얻어갑니다, 감사합니다.