Chapter3 D-2 TIL

홍유택·2025년 1월 17일

chapter3

3.1 A/B 검정

A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법

3.2 가설검정

☑️ 가설검정

표본 데이터를 통해 모집단의 가설을 검증하는 과정

☑️ 단계

귀무가설(H0)과 대립가설(H1) 설정
유의수준(α) 결정
검정통계량 계산
p-값과 유의수준 비교
결론 도출

3.3 t검정

☑️ t검정

t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
독립표본 t검정과 대응표본 t검정으로 나뉨

☑️ 독립표본 t검정

두 독립된 그룹의 평균을 비교

☑️ 대응표본 t검정

동일한 그룹의 사전/사후 평균을 비교

3.4 다중검정

1) 다중검정이란 무엇인가?
☑️ 다중검정
- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가
- 1종 오류가 무엇인지랑 왜 다중검정시 발생확률이 증가하는지는 밑에서 다시 설명! 지금은, 어떤 오류가 발생할 수 있다는 정도로 이해!
  
  ☑️ 보정 방법
- 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음
- 가장 대표적이고 기본적인게 본페로니 보정
2) 다중검정과 보정을 어떻게 적용되어질까?
☑️ 여러 약물의 효과를 동시에 검정
- 이 때 본페로니 보정을 사용해볼 수 있음

3.5 카이제곱검정

1) 카이제곱검정이란 무엇인가?
☑️ 카이제곱검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나
- 두 범주형 변수 간의 독립성을 검정(독립성 검정)
  
  ☑️ 적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
  
  ☑️ 독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
2) 카이제곱검정은 어떻게 적용되어질까?
☑️ 범주형 데이터의 분포 확인 및 독립성 확인을 위해 사용
- 주사위의 각 면이 동일한 확률로 나오는지 검정(적합도 검정)
- 성별과 직업 만족도 간의 독립성 검정(독립성 검정)

3.6 제 1종 오류와 제 2종 오류

☑️ 제 1종 오류

귀무가설이 참인데 기각하는 오류
잘못된 긍정을 의미 (아무런 영향이 없는데 영향이 있다고 하는 것)
한 단어로 위양성!
α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생
따라서 유의수준(α)을 정함으로써 제 1종 오류 제어 가능
만약, 유의수준이 0.05라면 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것

☑️ 제 2종 오류

귀무가설이 거짓인데 기각하지 않는 오류.
잘못된 부정을 의미 (영향이 있는데 영향이 없다고 하는 것)
한 단어로 위음성!
제 2종 오류가 일어날 확률은 β로 정의.
제 2종 오류가 일어나지 않을 확률은 검정력(1-β)으로 정의.
하지만 이를 직접 통제할 수는 없음.
그나마 통제를 해볼 수 있는 방법으로는…
- 표본크기 n이 커질 수록 β가 작아짐.
- α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐

4.1 단순선형회귀

☑️ 단순선형회귀

하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.

☑️ 회귀식

Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기
중학교 때 배웠던 1차함수를 생각하면 이해하기 쉬움!

☑️ 특징

독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측.
데이터가 직선적 경향을 따를 때 사용합니다.
간단하고 해석이 용이합니다.
데이터가 선형적이지 않을 경우 적합하지 않습니다.

4.2 다중선형회귀

☑️ 다중선형회귀

두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.

☑️ 회귀식

Y = β0 + β1X1 + β2X2 + ... + βnXn

☑️ 특징

여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용합니다.
여러 변수의 영향을 동시에 분석할 수 있습니다.
변수들 간의 다중공선성 문제가 발생할 수 있습니다.

4.3 범주형 변수

☑️ 범주형 변수

수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수

☑️ 범주형 변수 종류

예를 들어 성별(남, 여), 지역(도시, 시골) 등이 있으며, 더미 변수로 변환하여 회귀 분석에 사용.
- 순서가 있는 범주형 변수
  - 옷의 사이즈 (L, M, …), 수능 등급 (1등급, 2등급, ….)과 같이 범주형 변수라도 순서가 있는 변수에 해당한다
  - 이런 경우 각 문자를 임의의 숫자로 변환해도 문제가 없다 (순서가 잘 반영될 수 있게 숫자로 변환)
  - ex) XL → 3, L → 2, M → 1, S → 0
- 순서가 없는 범주형 변수
  - 성별 (남,여), 지역 (부산, 대구, 대전, …) 과 같이 순서가 없는 변수에 해당한다
  - 2개 밖에 없는 경우 임의의 숫자로 바로 변환해도 문제가 없지만
  - 3개 이상인 경우에는 무조건 원-핫 인코딩(하나만 1이고 나머지는 0인 벡터)변환을 해주어야 한다 → pandas의 get_dummies를 활용하여 쉽게 구현 가능
  - ex) 부산 = [1,0,0,0], 대전 = [0,1,0,0], 대구 = [0,0,1,0], 광주 = [0,0,0,1]

4.4 다항회귀, 스플라인 회귀

☑️ 다항회귀

독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측.
데이터가 곡선적 경향을 따를 때 사용합니다.
비선형 관계를 모델링할 수 있습니다.
고차 다항식의 경우 과적합(overfitting) 위험이 있습니다.

☑️ 스플라인 회귀

독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성합니다.
데이터가 국부적으로 다른 패턴을 보일 때 사용합니다.
복잡한 비선형 관계를 유연하게 모델링할 수 있습니다.
적절한 매듭점(knots)의 선택이 중요합니다.

홍유택

안녕하세요

이전 포스트

Chapter3 D-1 TIL

다음 포스트

Chapter3 D-2 TIL

3.1 A/B 검정

3.2 가설검정

☑️ 가설검정

☑️ 단계

3.3 t검정

☑️ t검정

☑️ 독립표본 t검정

☑️ 대응표본 t검정

3.4 다중검정

☑️ 다중검정

☑️ 보정 방법

☑️ 여러 약물의 효과를 동시에 검정

3.5 카이제곱검정

☑️ 카이제곱검정

☑️ 적합도 검정

☑️ 독립성 검정

☑️ 범주형 데이터의 분포 확인 및 독립성 확인을 위해 사용

3.6 제 1종 오류와 제 2종 오류

☑️ 제 1종 오류

☑️ 제 2종 오류

4.1 단순선형회귀

☑️ 단순선형회귀

☑️ 회귀식

☑️ 특징

4.2 다중선형회귀

☑️ 다중선형회귀

☑️ 회귀식

☑️ 특징

4.3 범주형 변수

☑️ 범주형 변수

☑️ 범주형 변수 종류

4.4 다항회귀, 스플라인 회귀

☑️ 다항회귀

☑️ 스플라인 회귀

Chapter3 D-1 TIL

chapter 3 D-3 TIL

0개의 댓글