Chapter3 D-2 TIL

홍유택·2025년 1월 17일

3.1 A/B 검정

  • A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법

3.2 가설검정

☑️ 가설검정

  • 표본 데이터를 통해 모집단의 가설을 검증하는 과정

☑️ 단계

  1. 귀무가설(H0)과 대립가설(H1) 설정
  2. 유의수준(α) 결정
  3. 검정통계량 계산
  4. p-값과 유의수준 비교
  5. 결론 도출

3.3 t검정

☑️ t검정

  • t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
  • 독립표본 t검정과 대응표본 t검정으로 나뉨

☑️ 독립표본 t검정

  • 두 독립된 그룹의 평균을 비교

☑️ 대응표본 t검정

  • 동일한 그룹의 사전/사후 평균을 비교

3.4 다중검정

  • 1) 다중검정이란 무엇인가?

    ☑️ 다중검정

    • 여러 가설을 동시에 검정할 때 발생하는 문제

    • 각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가

    • 1종 오류가 무엇인지랑 왜 다중검정시 발생확률이 증가하는지는 밑에서 다시 설명! 지금은, 어떤 오류가 발생할 수 있다는 정도로 이해!

      ☑️ 보정 방법

    • 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음

    • 가장 대표적이고 기본적인게 본페로니 보정

  • 2) 다중검정과 보정을 어떻게 적용되어질까?

    ☑️ 여러 약물의 효과를 동시에 검정

    • 이 때 본페로니 보정을 사용해볼 수 있음

3.5 카이제곱검정

  • 1) 카이제곱검정이란 무엇인가?

    ☑️ 카이제곱검정

    • 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나

    • 두 범주형 변수 간의 독립성을 검정(독립성 검정)

      ☑️ 적합도 검정

    • 관찰된 분포와 기대된 분포가 일치하는지 검정

    • p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합

    • p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합

      ☑️ 독립성 검정

    • 두 범주형 변수 간의 독립성을 검정

    • p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음

    • p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음

  • 2) 카이제곱검정은 어떻게 적용되어질까?

    ☑️ 범주형 데이터의 분포 확인 및 독립성 확인을 위해 사용

    • 주사위의 각 면이 동일한 확률로 나오는지 검정(적합도 검정)
    • 성별과 직업 만족도 간의 독립성 검정(독립성 검정)

3.6 제 1종 오류와 제 2종 오류

☑️ 제 1종 오류

  • 귀무가설이 참인데 기각하는 오류
  • 잘못된 긍정을 의미 (아무런 영향이 없는데 영향이 있다고 하는 것)
  • 한 단어로 위양성!
  • α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생
  • 따라서 유의수준(α)을 정함으로써 제 1종 오류 제어 가능
  • 만약, 유의수준이 0.05라면 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것

☑️ 제 2종 오류

  • 귀무가설이 거짓인데 기각하지 않는 오류.
  • 잘못된 부정을 의미 (영향이 있는데 영향이 없다고 하는 것)
  • 한 단어로 위음성!
  • 제 2종 오류가 일어날 확률은 β로 정의.
  • 제 2종 오류가 일어나지 않을 확률은 검정력(1-β)으로 정의.
  • 하지만 이를 직접 통제할 수는 없음.
  • 그나마 통제를 해볼 수 있는 방법으로는…
    • 표본크기 n이 커질 수록 β가 작아짐.
    • α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐

4.1 단순선형회귀

☑️ 단순선형회귀

  • 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.

☑️ 회귀식

  • Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기
  • 중학교 때 배웠던 1차함수를 생각하면 이해하기 쉬움!

☑️ 특징

  • 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측.
  • 데이터가 직선적 경향을 따를 때 사용합니다.
  • 간단하고 해석이 용이합니다.
  • 데이터가 선형적이지 않을 경우 적합하지 않습니다.

4.2 다중선형회귀

☑️ 다중선형회귀

  • 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.

☑️ 회귀식

  • Y = β0 + β1X1 + β2X2 + ... + βnXn

☑️ 특징

  • 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
  • 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용합니다.
  • 여러 변수의 영향을 동시에 분석할 수 있습니다.
  • 변수들 간의 다중공선성 문제가 발생할 수 있습니다.

4.3 범주형 변수

☑️ 범주형 변수

  • 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수

☑️ 범주형 변수 종류

  • 예를 들어 성별(남, 여), 지역(도시, 시골) 등이 있으며, 더미 변수로 변환하여 회귀 분석에 사용.
    • 순서가 있는 범주형 변수
      • 옷의 사이즈 (L, M, …), 수능 등급 (1등급, 2등급, ….)과 같이 범주형 변수라도 순서가 있는 변수에 해당한다
      • 이런 경우 각 문자를 임의의 숫자로 변환해도 문제가 없다 (순서가 잘 반영될 수 있게 숫자로 변환)
      • ex) XL → 3, L → 2, M → 1, S → 0
    • 순서가 없는 범주형 변수
      • 성별 (남,여), 지역 (부산, 대구, 대전, …) 과 같이 순서가 없는 변수에 해당한다
      • 2개 밖에 없는 경우 임의의 숫자로 바로 변환해도 문제가 없지만
      • 3개 이상인 경우에는 무조건 원-핫 인코딩(하나만 1이고 나머지는 0인 벡터)변환을 해주어야 한다 → pandas의 get_dummies를 활용하여 쉽게 구현 가능
      • ex) 부산 = [1,0,0,0], 대전 = [0,1,0,0], 대구 = [0,0,1,0], 광주 = [0,0,0,1]

4.4 다항회귀, 스플라인 회귀

☑️ 다항회귀

  • 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측.
  • 데이터가 곡선적 경향을 따를 때 사용합니다.
  • 비선형 관계를 모델링할 수 있습니다.
  • 고차 다항식의 경우 과적합(overfitting) 위험이 있습니다.

☑️ 스플라인 회귀

  • 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
  • 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성합니다.
  • 데이터가 국부적으로 다른 패턴을 보일 때 사용합니다.
  • 복잡한 비선형 관계를 유연하게 모델링할 수 있습니다.
  • 적절한 매듭점(knots)의 선택이 중요합니다.
profile
안녕하세요

0개의 댓글