중심극한정리는 표본 크기가 충분히 클 경우, 모집단 분포가 어떠하든지 간에 표본 평균의 분포가 정규분포에 가까워진다는 정리입니다. 표본 크기가 클수록 더 정확히 정규분포를 따릅니다. 이는 데이터 분석과 통계에서 핵심적인 이론입니다.
큰수의 법칙은 표본의 크기가 증가할수록 표본 평균이 모집단 평균에 가까워진다는 법칙입니다. 이는 장기적으로 데이터가 안정적으로 평균에 수렴할 것임을 보장합니다.
다변량 확률 분포에서 특정 변수에 대한 주변 확률분포를 의미합니다. 예를 들어, 두 변수 X와 Y가 있다면, X에 대한 주변 분포는 Y를 무시한 채 X의 분포를 구한 것입니다.
특정 사건이 발생한 조건 하에서의 확률 분포를 말합니다. 예를 들어, P(A|B)는 사건 B가 발생했을 때 사건 A의 확률을 나타냅니다.
Bias(편향)는 예측 값의 평균이 실제 값과 얼마나 다른지를 나타냅니다. 데이터 분석에서 체계적인 오류를 의미하며, 모델이 단순화되었거나 데이터에 특정 방향으로 치우친 경우 발생합니다.
표본 분산은 표본 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 측정하는 값입니다. 계산식은
로 정의됩니다.
모집단의 분산을 추정할 때 자유도 조정을 위해 N−1로 나눕니다. N으로 나누면 분산이 작게 추정되는 경향이 있어, 이를 보정하여 불편 추정량을 만듭니다.
항상 좋은 것은 아닙니다. Unbiased Estimation이 평균적으로 참값을 맞히더라도, 분산이 크면 결과가 불안정할 수 있습니다. 실용적인 상황에서는 약간의 편향을 허용해 분산을 줄이는 것도 고려해야 합니다.
평균적으로 참값에 도달하며, 장기적으로 신뢰할 수 있습니다. 특히 표본 크기가 커질수록 참값에 더 가까운 추정을 제공합니다.
대기 시간 모델링, 포아송 과정의 시간 간격, 신뢰도 분석 등에서 사용됩니다.
단위 시간 또는 공간에서 발생하는 사건의 수를 모델링합니다. 예: 웹사이트 클릭 수, 콜센터 통화 수.
Bias를 줄이면 Variance가 증가하고, Variance를 줄이면 Bias가 증가하는 경향이 있습니다. 최적의 균형을 찾아 모델의 성능을 극대화하는 것이 중요합니다.
균형 맞추는 방법?
Bias 감소: 더 복잡한 모델을 사용하거나 더 많은 특징(feature)을 추가하여 학습 능력을 높입니다.
Variance 감소: 모델을 단순화하거나 불필요한 특징을 제거하여 과적합(overfitting)을 방지합니다.
- 예: 차원을 줄이거나 과적합 방지 기법(정규화)을 도입.
정규화는 모델의 가중치(weight)에 제약을 가하여 Variance를 줄이는 데 효과적입니다.
- L1 정규화 (Lasso): 희소성을 높여 중요한 변수만 남김.
- L2 정규화 (Ridge): 큰 가중치를 억제하여 모델의 복잡도를 낮춤.
- 두 정규화를 결합한 Elastic Net도 활용 가능.
더 많은 데이터를 수집하면 Variance를 줄이는 데 효과적입니다.
- 특히 복잡한 모델일수록 더 많은 데이터가 필요.
- 데이터 증강(Data Augmentation)을 통해 인위적으로 데이터셋을 늘릴 수도 있음.
K-Fold Cross-Validation과 같은 방법으로 Bias와 Variance의 균형을 측정하고 모델을 튜닝합니다.
Validation error를 분석하여 Bias와 Variance 문제를 정확히 진단할 수 있음.
여러 모델의 결과를 결합하여 Bias와 Variance를 동시에 줄임.
- Bagging: Variance를 줄이는 데 효과적 (예: Random Forest).
- Boosting: Bias를 줄이는 데 효과적 (예: Gradient Boosting).
모델의 하이퍼파라미터를 조정하여 균형을 맞출 수 있음.
베이지안 통계에서 Posterior 분포를 Prior 분포와 동일한 형태로 유지하기 위해 사용되는 분포입니다. (사후 분포를 사전 분포와 동일한 형태로 유지하기 위해 사용되는 분포)
모집단의 모수가 특정 확률로 포함되는 구간입니다. 예를 들어, "95% 신뢰 구간"은 참값이 95% 확률로 해당 구간에 포함된다는 뜻입니다.
확률 분포 간의 차이를 측정하는 값으로, 두 분포가 얼마나 다른지 나타냅니다.
모델이 설명할 수 있는 총 변동량.
모델이 설명하지 못하는 변동량. 잔차(residual)로 표현됩니다.
모델이 데이터를 얼마나 잘 설명하는지를 나타내는 값으로, 로 표시됩니다. 1에 가까울수록 더 나은 모델입니다.
두 확률 분포 간의 최대 차이를 측정하는 거리로, 분포 간 차이를 정량적으로 나타냅니다.
귀무가설이 참이라고 가정했을 때, 관측된 데이터가 나타날 확률을 나타냅니다. P-value가 작을수록 귀무가설을 기각할 가능성이 높아집니다.
두 통계 모델의 적합도를 비교하는 테스트입니다. 귀무가설과 대립가설 간의 가능성을 비교합니다.