*간단하게 설명하면 이렇게 분류된다.

: 범주형 데이터를 맞추는 분류 분석
여성은 모두 생존, 남성은 모두 사망으로 판별한다면?
가설 : 비상상황 특성 상 여성을 배려해서 많이 생존했을 것이다.
1) pivot table로 확인한다.
2) 그래프를 통해 확인한다.1) pivot table로 확인한다.
- 정확도 = 맞춘 갯수(여성 생존 수 + 남성 사망 수) / 전체 데이터
2) 그래프를 통해 확인한다.
✅ 모델을 만들지 않고도 78%의 정확도를 가진 인사이트를 도출했다. 하지만 이것은 Data Scientific하지 않다.

여기서 잠깐❗
- 오즈비(Odds ratio)란? 실패확률 대비 성공확률로, 도박사들이 자주 쓰는 개념이다.
- ex) 도박이 성공할 확률이 80%라면, 오즈비는 80%/20% = 4다.
- 즉, 1번 실패하면 4번은 딴다는 것이다.
BUT❗오즈비는 바로 쓸 수 없다!!
- P는 확률 값으로, 0과 1사이 값인데, P가 증가할 수록 오즈비가 급격하게 증가하기 때문에 너무 확률이 급격하게 증가하고 선형성을 따르지 않게 된다. 따라서 로그를 씌워 이 부분을 좀 완화해야 한다!!
log(로그)의 역할 : Tranquila~- ex 1) p=0, 0/1-0 = 0
- ex 2) p=0.9, 0.9/1-0.9 = 9
- ex 3) p=1, 1/1-1 = 1/0 = +∞(발산)
✅ 이렇게!
① 로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨
② 이게바로 로지스틱'회귀'라고 불리는 이유이다.
![]()
- 확률이 증가할수록 (좌)오즈비는 급격히 발산, (우)로짓은 완만하게 증가
- 위 그래프의 확률-로짓 그래프 X-Y축을 교체!
✅ 이게 바로, 로지스틱 함수
✅ 로지스틱 함수는 시그모이드 함수 중 하나로 딥러닝에서도 활용된다.
✅ 값을 계산하면 확률이 도출된다!!
✅ 기준이 되는 임계값은 정해줘야 한다.- ex 1) 생존확률 P = 0.9 이 생존을 의미하려면, P>0.5, 생존 이라는 임계값을 정해줘야한다.
✅ 임계값을 기준으로, X값 대비 Y값의 차이가 크다. = 양극화
= 분류에 적합하다.
- 이 식을 P에 대해서 다시 정리하면, (이항하면,)
- 이렇게 된다!!
③ 로짓의 장점은 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률(Y값이 특정 값일 확률, ex.Y=1(생존))이 0과 1안에 들어오게 하는 특징을 가진다.
✅ 즉, Y의 값을 예측하는 것이 아니라, Y=1일 확률을 예측하는 것이다.
✅ 그 다음에, 임계값을 기준으로 컷오프를 통해 Y가 n이면 생존, 사망을 예측하는 것이다.
- 로짓과 기존 선형회귀의 우변을 합쳐 다음과 같은 식을 도출한다.
- 양변에 자연지수 를 취하면 (이항 하면)
- 💡해석 : X값이 만큼 증가하면 오즈비는 만큼 증가한다.
