머신이는 이제 숫자를 맞추는 회귀분석에 대해서 어느 정도 감을 잡았습니다. 그러던 중 타이타닉 탑승객과 사망에 대한 데이터를 입수 했습니다. 0,1 를 맞추는 것도 그리 어렵지 않아 보입니다. 일단 데이터를 한번 확인해보아요
주제: 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제
Y(종속변수): 사망(0), 생존(1)
X(독립변수): 티켓등급, 성별, 요금 등
변수 설명
PassengerId: 승객 식별자(Primary Key)
Survival : 사망(0) 생존(1)
Pclass: 티켓 등급(1,2,3 등급)
Name: 이름
Sex: 성별
Age: 나이
SibSp: 승객의 형제와 배우자 수
Parch: 승객의 부모님과 자식 수
*컬럼명에 오류가 있습니다만, 추후에 위 2가지 변수는 Family로 더하여 사용할 예정입니다.
Ticket: 티켓 번호
Fare: 요금
Cabin: 객실 이름
Embarked: 승선한 항구 C(Cherbourg), Q(Queenstown), S(Southampton)
☑️ 범주형 Y에서 선형함수의 한계

☑️ 로짓의 개념의 등장
오즈비(odds\ ratio) = \frac{P}{1-P}
Logit = \log(\frac{P}{1-P})

