종속변수 추출, train 데이터 생성, 로지스틱 회귀는 표준화를 진행해도 큰 차이가 없음
데이터 전처리-결측치, 이상값, 분석에 영향이 없는 요인 처리
성별은 라벨링 처리
더미변수를 사용한 분석(n-1개 추출)
결론 : 로지스틱 회귀는 표준화보다는 더미변수를 사용한 분석에서 더 영향을 받는다.
명목형 : 생존여부, 선실등급, 성별, Embarked
전처리, 탐색적 데이터 분석 이후 분산분석 등을 통해 유의미한 데이터 처리 후 배포.
유익한 글이었습니다.