정의 :
EX) 예를 들어, 학교 전체 학생의 키를 알 수 없을 때, 30명의 학생을 여러 번 뽑아서 평균 키를 계산하면, 매번 조금 다른 평균이 나오는데, 이들이 모인 분포가 표본분포
독립성
정의:
두 확률 변수 X와 Y가 서로 독립적이라는 것은, X의 결과가 Y의 결과에 어떠한 영향을 주지 않는다는 의미입니다.
수학적으로, 임의의 x와 y에 대해 P(X≤x,Y≤y)=P(X≤x)⋅P(Y≤y)
라는 성질을 만족합니다.
예시:
동전을 두 번 던졌을 때 첫 번째 던짐의 결과(앞면 혹은 뒷면)는 두 번째 던짐의 결과에 영향을 주지 않습니다.
중심극한정리(CLT):
정의:
표본의 크기 n이 충분히 크면, 개별 확률 분포가 어떠하든지 간에, 독립적인 표본들로 구성된 표본 평균의 분포는 근사적으로 정규분포에 가까워진다는 정리입니다.

카이제곱 분포 : 표본 분산이나 분산의 추정을 할 때 활용, N개의 독립 정규 분포 변수의 제곱합이 따라짐
t-분포 : 표본평균에서 모평균을 뺀 값을, 표본 표준편차로 나눴을 때 나타나는 분포
F-분포 : 두 개의 독립적인 카이제곱 분포를 각각의 자유도로 나눈 값의 비율로 구성됩니다.
(즉, F = (χ²₁/df₁) / (χ²₂/df₂))
두 개의 표본 분산을 비교할 때 사용, 분산분석(ANOVA)에서 주요한 역할함



함수 변환의 개념
Jacobian기법

모멘트 추청
최대가능도 추청(Maximum Likelihood Estimation, MLE)


목적:
“무엇이 사실인가?”를 결정하기 위해, 데이터에 기초하여 어떤 가정(가설)을 채택할지 판단합니다.
예를 들어, “새로운 치료법이 기존 치료법보다 효과가 있다”라는 주장에 대해 데이터를 통해 검증할 때 사용합니다.
귀무가설과 대립가설
귀무가설 (Null Hypothesis,
보통 “차이가 없다”, “효과가 없다”와 같은 기본 가정을 말합니다.
예: 두 집단의 평균에 차이가 없다는 가정.
대립가설 (Alternative Hypothesis,
귀무가설과 반대되는 주장입니다.
예: 한 집단의 평균이 다른 집단의 평균보다 크다거나 작다는 주장을 의미합니다.
단측 vs. 양측 검정
단측 검정 (One-tailed test):
특정 방향으로의 차이만을 확인합니다.
예시: “신약이 기존 약보다 효과가 좋다”라고 할 때, 단지 신약의 효과가 더 크다는 증거만 찾고자 함.
양측 검정 (Two-tailed test):
차이가 존재하는지만 확인합니다.
예시: “신약과 기존 약의 효과가 다르다”는, 어느 한쪽으로 더 크다는 것뿐 아니라 양쪽 모두 차이를 검토함.
p-value (유의확률)
정의:
귀무가설이 참이라는 가정 하에서, 우리가 관측한 데이터(또는 더 극단적인 데이터)가 나타날 확률.
해석:
작은 p-value (일반적으로 0.05 이하)는 관측된 데이터가 귀무가설 하에서는 발생하기 어려워 귀무가설을 기각하게 만드는 근거가 됩니다.
예시:
만약 p-value가 0.02라면, “우연히 이런 결과가 나올 확률이 2%밖에 안 된다”는 뜻이므로 귀무가설을 기각하고, 대립가설을 채택할 가능성이 높습니다.
일반적인 기준
<오류의 유형>
제1종 오류 (Type I Error):
실제로 차이가 없는데(귀무가설이 참임에도 불구하고) 차이가 있다고 잘못 판단하는 오류.
예: 치료 효과가 없는데도 효과가 있다고 결론 내림.
제2종 오류 (Type II Error):
실제로 차이가 있는데(대립가설이 참임에도 불구하고) 차이가 없다고 잘못 판단하는 오류.
예: 효과가 있는 치료법을 효과 없다고 판단.
대표본 이론
점근 분포예시:
만약 동전을 던져서 앞면이 나오는 비율을 구할 때, 표본이 1000회 이상이면 표본 비율의 분포는 정규분포에 근사하게 됩니다.
일관성 (Consistency)
정의:
추정량이 표본 크기가 커질수록 실제 모수에 점점 가까워지는 성질입니다.
즉, n→∞일 때 θ에 “수렴”합니다.
예시:
동전 던지기의 경우, 표본 크기가 작을 때는 앞면 비율이 다소 편차가 있으나, 표본이 매우 많아지면 실제 앞면 발생 확률(예: 0.5)에 가까워집니다.
중앙극한정리의 심화
심화 내용:
단순히 평균이 정규분포에 근사한다는 것뿐 아니라, 다른 통계량(예: 분산, 비율)도 충분한 표본 크기에서 정규분포로 근사될 수 있음을 연구합니다.
활용:
복잡한 통계 검정을 할 때 이론적 기반을 제공하며, 데이터를 통해 얻은 추정량의 분포 형태를 예측하는 데 사용됩니다.
충분통계량
팩토르라이제이션 정리
효율적 추정량
피셔정보
최소 제곱법
잔차 분석
다중 공선성 문제 (Multicollinearity)
정의:
독립 변수들 사이에 높은 상관관계가 존재하면, 각 변수의 효과를 명확하게 분리하기 어려워집니다.
문제점:
계수 추정치의 분산이 커져서 해석이 어려워집니다.
모델의 안정성이 떨어지고, 변수의 중요성을 정확히 평가할 수 없게 됩니다.
해결 방안:
상관관계 높은 변수 중 하나를 제거하거나 변수를 결합하는 방법
Ridge, LASSO 회귀 등의 정규화 기법을 적용하여 변수 선택 및 계수 조정을 수행합니다.
모형 비교 기준 (AIC, BIC)
AIC (Akaike Information Criterion):
모델의 적합도와 복잡도(변수 수)의 균형을 고려하는 지표로, 값이 작을수록 좋은 모델로 평가합니다.
BIC (Bayesian Information Criterion):
AIC와 유사하지만, 데이터 수에 따라 패널티가 더 강하게 부여되어, 복잡한 모델보다 단순한 모델을 선호하는 경향이 있습니다.
대표본 이론 vs 중심극한정리의 관계와 차이
대표본 이론(표본이 모집단을 잘 반영하는지)
-> 핵심 "모집단 전체의 성격을 잘 나타내는 샘플을 뽑는 것이 중요"
중심극한정리(CLT)
-> 핵심 "샘플 평균의 특성"
<둘의 관계>
대표본 이론:
"우리의 샘플이 정말 모집단 전체를 제대로 대표하고 있는가?"에 집중합니다. (즉, 샘플을 어떻게 뽑느냐가 중요합니다.)
중심극한정리:
"샘플 평균을 여러 번 뽑으면 그 분포가 어떻게 되나?"에 집중합니다. (즉, 샘플의 평균이 정규분포에 가까워진다는 점)
자코비안 참고자료 - https://angeloyeo.github.io/2020/07/24/Jacobian.html