chapter3 D-7 TIL

홍유택·2025년 1월 24일

2. 로지스틱회귀 이론

2.1 타이타닉 생존 분류 문제

머신이는 이제 숫자를 맞추는 회귀분석에 대해서 어느 정도 감을 잡았습니다. 그러던 중 타이타닉 탑승객과 사망에 대한 데이터를 입수 했습니다. 0,1 를 맞추는 것도 그리 어렵지 않아 보입니다. 일단 데이터를 한번 확인해보아요

  • Kaggle 타이타닉 예측 대회
    • 주제: 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제

    • Y(종속변수): 사망(0), 생존(1)

    • X(독립변수): 티켓등급, 성별, 요금 등

    • 변수 설명

    • PassengerId: 승객 식별자(Primary Key)

    • Survival : 사망(0) 생존(1)

    • Pclass: 티켓 등급(1,2,3 등급)

    • Name: 이름

    • Sex: 성별

    • Age: 나이

    • SibSp: 승객의 형제와 배우자 수

    • Parch: 승객의 부모님과 자식 수

      *컬럼명에 오류가 있습니다만, 추후에 위 2가지 변수는 Family로 더하여 사용할 예정입니다.

    • Ticket: 티켓 번호

    • Fare: 요금

    • Cabin: 객실 이름

    • Embarked: 승선한 항구 C(Cherbourg), Q(Queenstown), S(Southampton)

2.2 로지스틱회귀 이론

☑️ 범주형 Y에서 선형함수의 한계

☑️ 로짓의 개념의 등장

오즈비(odds\ ratio) = \frac{P}{1-P}

Logit = \log(\frac{P}{1-P})

  • 오즈비와 확률의 관계 / 로짓과 확률의 관계
    • 로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨
    • 로지스틱”회귀”라고 불리는 이유가 이것

  • 위 그래프의 확률 - 로짓 그래프 X-Y축을 교체
    • 로지스틱 함수

profile
안녕하세요

0개의 댓글