Statistic / Probability 면접 예상 질문과 답변

미남잉·2024년 12월 23일

Statistic / Probability

1. Central Limit Theorem (CLT) 이란 무엇인가?

중심극한정리는 표본 크기가 충분히 클 경우, 모집단 분포가 어떠하든지 간에 표본 평균의 분포가 정규분포에 가까워진다는 정리입니다. 표본 크기가 클수록 더 정확히 정규분포를 따릅니다. 이는 데이터 분석과 통계에서 핵심적인 이론입니다.

2. Central Limit Theorem은 어디에 쓸 수 있는가?

가설 검정에서 표본 평균의 분포를 정규분포로 근사하여 계산할 때.
복잡한 모집단 분포를 정규분포로 단순화하여 확률을 계산할 때.
신뢰 구간을 추정할 때.

3. 큰수의 법칙이란?

큰수의 법칙은 표본의 크기가 증가할수록 표본 평균이 모집단 평균에 가까워진다는 법칙입니다. 이는 장기적으로 데이터가 안정적으로 평균에 수렴할 것임을 보장합니다.

4. 확률이랑 통계랑 다른 점은?

확률: 미래 사건이 발생할 가능성을 예측하는 학문.
통계: 이미 관측된 데이터를 분석하고 결론을 도출하는 학문.

5. Marginal Distribution이란 무엇인가?

다변량 확률 분포에서 특정 변수에 대한 주변 확률분포를 의미합니다. 예를 들어, 두 변수 X와 Y가 있다면, X에 대한 주변 분포는 Y를 무시한 채 X의 분포를 구한 것입니다.

6. Conditional Distribution이란 무엇인가?

특정 사건이 발생한 조건 하에서의 확률 분포를 말합니다. 예를 들어, P(A|B)는 사건 B가 발생했을 때 사건 A의 확률을 나타냅니다.

7. Bias란 무엇인가?

Bias(편향)는 예측 값의 평균이 실제 값과 얼마나 다른지를 나타냅니다. 데이터 분석에서 체계적인 오류를 의미하며, 모델이 단순화되었거나 데이터에 특정 방향으로 치우친 경우 발생합니다.

8. Biased/Unbiased estimation의 차이는?

*Biased Estimation: 편향된 추정량으로, 평균적으로 참값에서 벗어나는 경향이 있습니다.*
*Unbiased Estimation: 평균적으로 참값을 정확히 추정하는 추정량입니다.*

9. Bias, Variance, MSE란? 그리고 그들의 관계는 무엇인가?

Bias: 모델이 단순화되어 참값과 차이가 나는 정도.
Variance: 모델이 데이터에 민감하게 반응하여 변동성이 큰 정도.
MSE: 평균제곱오차로, Bias와 Variance, 노이즈의 합입니다.
관계: $MSE=Bias^2+Variance+Noise.$

10. Sample Variance란 무엇인가?

표본 분산은 표본 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 측정하는 값입니다. 계산식은

로 정의됩니다.

11. Variance를 구할 때, N대신에 N-1로 나눠주는 이유는 무엇인가?

모집단의 분산을 추정할 때 자유도 조정을 위해 N−1로 나눕니다. N으로 나누면 분산이 작게 추정되는 경향이 있어, 이를 보정하여 불편 추정량을 만듭니다.

12. Gaussian Distribution에서 MLE와 Sample Variance 중에 어떤 걸 사용해야 하는가?

MLE: 최대우도법으로, 모집단의 모수를 가장 가능성이 높은 값으로 추정하는 데 적합합니다.
Sample Variance: 모집단 분산의 불편 추정량으로, 정확한 통계 추정을 원할 때 사용됩니다.

13. Unbiased Estimation은 무조건 좋은가?

항상 좋은 것은 아닙니다. Unbiased Estimation이 평균적으로 참값을 맞히더라도, 분산이 크면 결과가 불안정할 수 있습니다. 실용적인 상황에서는 약간의 편향을 허용해 분산을 줄이는 것도 고려해야 합니다.

14. Unbiased Estimation의 장점은 무엇인가?

평균적으로 참값에 도달하며, 장기적으로 신뢰할 수 있습니다. 특히 표본 크기가 커질수록 참값에 더 가까운 추정을 제공합니다.

확률 분포 관련 질문

15. Binomial, Bernoulli, Multinomial, Multinoulli 란 무엇인가?

Bernoulli: 단일 시행에서 성공/실패(1 또는 0)만 있는 분포.
Binomial: 여러 번의 Bernoulli 시행에서 성공 횟수를 나타내는 분포.
Multinomial: 여러 범주에서 다항 시행의 성공 횟수를 나타내는 분포.
Multinoulli: 단일 시행에서 다항 범주 중 하나의 결과를 나타내는 분포.

16. Beta Distribution과 Dirichlet Distribution이란 무엇인가?

Beta: [0, 1] 사이의 확률 값을 모델링하는 데 사용되는 분포.
Dirichlet: Beta 분포의 다차원 일반화로, 여러 범주에서 확률값을 모델링합니다.

17. Gamma Distribution은 어디에 쓰이는가?

대기 시간 모델링, 포아송 과정의 시간 간격, 신뢰도 분석 등에서 사용됩니다.

18. Possion distribution은 어디에 쓰이는가?

단위 시간 또는 공간에서 발생하는 사건의 수를 모델링합니다. 예: 웹사이트 클릭 수, 콜센터 통화 수.

19. Bias and Variance Trade-Off 란 무엇인가?

Bias를 줄이면 Variance가 증가하고, Variance를 줄이면 Bias가 증가하는 경향이 있습니다. 최적의 균형을 찾아 모델의 성능을 극대화하는 것이 중요합니다.

균형 맞추는 방법?

균형 맞추는 것은 모델 성능을 극대화하는 핵심 작업 중 하나
1. 모델 복잡도 조정
- Bias 감소: 더 복잡한 모델을 사용하거나 더 많은 특징(feature)을 추가하여 학습 능력을 높입니다.
  - 예: 선형 모델 대신 다항식 회귀, 신경망 계층을 더 추가.
- Variance 감소: 모델을 단순화하거나 불필요한 특징을 제거하여 과적합(overfitting)을 방지합니다.
  - 예: 차원을 줄이거나 과적합 방지 기법(정규화)을 도입.
  
  2. 정규화(Regularization)
- 정규화는 모델의 가중치(weight)에 제약을 가하여 Variance를 줄이는 데 효과적입니다.
  - L1 정규화 (Lasso): 희소성을 높여 중요한 변수만 남김.
  - L2 정규화 (Ridge): 큰 가중치를 억제하여 모델의 복잡도를 낮춤.
  - 두 정규화를 결합한 Elastic Net도 활용 가능.
  
  3. 데이터 양 늘리기
- 더 많은 데이터를 수집하면 Variance를 줄이는 데 효과적입니다.
  - 특히 복잡한 모델일수록 더 많은 데이터가 필요.
  - 데이터 증강(Data Augmentation)을 통해 인위적으로 데이터셋을 늘릴 수도 있음.
  
  4. 교차 검증(Cross-Validation) 활용
- K-Fold Cross-Validation과 같은 방법으로 Bias와 Variance의 균형을 측정하고 모델을 튜닝합니다.
- Validation error를 분석하여 Bias와 Variance 문제를 정확히 진단할 수 있음.
  
  5. Ensemble Methods (앙상블 기법)
- 여러 모델의 결과를 결합하여 Bias와 Variance를 동시에 줄임.
  - Bagging: Variance를 줄이는 데 효과적 (예: Random Forest).
  - Boosting: Bias를 줄이는 데 효과적 (예: Gradient Boosting).
  
  6. 적절한 하이퍼파라미터 튜닝
- 모델의 하이퍼파라미터를 조정하여 균형을 맞출 수 있음.
  - 예: 결정 트리의 최대 깊이(max_depth), 학습률(learning rate), 정규화 계수 등.
  - Grid Search, Random Search, Bayesian Optimization 등으로 최적값 탐색.

20. Conjugate Prior란?

베이지안 통계에서 Posterior 분포를 Prior 분포와 동일한 형태로 유지하기 위해 사용되는 분포입니다. (사후 분포를 사전 분포와 동일한 형태로 유지하기 위해 사용되는 분포)

통계적 해석

21. Confidence Interval이란 무엇인가?

모집단의 모수가 특정 확률로 포함되는 구간입니다. 예를 들어, "95% 신뢰 구간"은 참값이 95% 확률로 해당 구간에 포함된다는 뜻입니다.

22. Covariance/Correlation 이란 무엇인가?

Covariance: 두 변수 간의 선형 관계 크기.
Correlation: 두 변수 간의 선형 관계의 방향과 강도. 스케일 독립적입니다.

23. Total variation 이란 무엇인가?

확률 분포 간의 차이를 측정하는 값으로, 두 분포가 얼마나 다른지 나타냅니다.

24. Explained variation 이란 무엇인가?

모델이 설명할 수 있는 총 변동량.

25. Unexplained variation 이란 무엇인가?

모델이 설명하지 못하는 변동량. 잔차(residual)로 표현됩니다.

26. Coefficient of determination (결정계수)이란?

모델이 데이터를 얼마나 잘 설명하는지를 나타내는 값으로, $R^2$ 로 표시됩니다. 1에 가까울수록 더 나은 모델입니다.

27. Total variation distance이란 무엇인가?

두 확률 분포 간의 최대 차이를 측정하는 거리로, 분포 간 차이를 정량적으로 나타냅니다.

28. P-value란 무엇인가?

귀무가설이 참이라고 가정했을 때, 관측된 데이터가 나타날 확률을 나타냅니다. P-value가 작을수록 귀무가설을 기각할 가능성이 높아집니다.

29. Likelihood-ratio test 이란 무엇인가?

두 통계 모델의 적합도를 비교하는 테스트입니다. 귀무가설과 대립가설 간의 가능성을 비교합니다.

미남잉

Computer Vision Engineer

이전 포스트

PyTorch(파이토치) 면접 예상 질문과 답변

다음 포스트

Statistic / Probability 면접 예상 질문과 답변