[Q&A] 통계 및 확률 질문 10가지

Hyunjun Kim·2025년 9월 25일

데이터 분석 부트캠프

목록 보기

11/12

Maximum Likelihood Estimation이란 무엇인지 설명해 주세요.
- MLE, 최대우도추정법은 모수(Parameter)를 추정하는 방법중 하나로, 주어진 데이터가 관측될 가능성을 가장 크게 만드는(우도,Likelihood 함수가 최대가 되는) 모수( $\theta$ )를 찾는 방법
- 일반적으로 로그우도(log-likelihood)를 최대화하여 계산한다.

P-value란 무엇이고, 어떻게 해석하나요?
- 귀무가설이 참일 때, 관측된 데이터보다 극단적인 데이터가 나올 확률
- 귀무가설을 기각할 수 있는지 결정하는 데 사용되는 값으로, p-value가 0.05보다 작다면 귀무가설을 기각하고, 두 변수 간 통계적으로 유의미한 관계가 있다고 결론내릴 수 있다.

신뢰 구간이란 무엇인가요?
- 특정 범위 내에 값이 존재할 것으로 예측되는 영역으로, 동일한 방법으로 여러 표본을 추출했을 때 그 중 신뢰수준 %만큼의 신뢰구간이 모수를 포함한다.
- 신뢰구간을 구할 때는 일반적으로 표준 오차를 사용한다. (표본 평균의 분포의 표준편차)
  - 95% 신뢰수준은 “이 방법으로 구한 구간이 100번 중 95번은 모수를 포함
- 신뢰 수준이 높아지면 신뢰구간이 넓어지지만, 정확한 예측이 어렵기 때문에 95% 신뢰수준보다 99%신뢰수준이 좋다고 할 수 없다.
  - 신뢰구간이 넓어져서 추정치의 정밀도(precision) 가 떨어진다

유의수준(significance level)과 p-value의 차이점을 설명해 주세요.
- 유의수준(α)은 사전에 정해진 기준값(예: 0.05)
- p-value는 실제 데이터에서 계산된 값
- p-value < α이면 귀무가설 기각 (통계적으로 유의미)
- 통계적 유의성을 판단할 때, 일반적으로 p-value가 0.05 미만이면 통계적으로 유의미하다고 판단하는데, 쉽게 말해 해당 결과가 우연히 나온 확률이라고 이해하면 된다.
  그 확률 기준을 유의수준이라고 하는데 유의수준 값이 작을 수록 우연히 나올 확률이 작다는 것.

z-검정과 t-검정의 차이점을 설명해 주세요.
- z-검정은 모집단에 대한 정보를 이미 알고 있거나 표본이 충분히 커서 모집단의 분산과 유사하다고 가정할 수 있을 때 사용한다. 정규분포(Z)를 따름
- t-검정은 현실세계 대부분의 데이터들처럼 모집단의 분산을 알 수 없는 상황에서 사용된다. 표본 크기가 작을 수록 불확실성이 커지므로 이를 반영하기 위해 t-분포를 사용한다. (포본 크기가 작을 수록 표준정규분포보다 꼬리가 두껍다)
- 표본 크기가 크면 t-분포가 z-분포로 수렴한다

중앙값과 평균의 차이점을 설명해 주세요.
- 평균은 모든 값들은 더해서 그 개수로 나눈 값, 중앙값은 모든 값들을 크기순으로 정렬하고, 그 가운데에 위치한 값.
- 극단값(outlier)에 민감한 평균 vs 민감하지 않은 중앙값

분산(Variance)과 표준편차(Standard Deviation)의 차이를 설명해 주세요.
- 분산 = 편차 제곱의 평균
- 표준편차 = 분산의 제곱근 → 데이터 단위와 동일, 해석 용이
- 편차는 하나의 데이터가 데이터의 평균과 얼마나 떨어져 있는가 이고
- 분산은 편차의 합으로는 전체 데이터의 분포를 알 수 없기에 편차를 제곱하고 데이터 개수로 나눈 것.
- 표준편차는 분산이 계산될 때 제곱이 되어서 점수의 단위가 달라지게 되었고 실제 데이터가 어느 정도로 차이가 있는지 알기 어려워서 만든 개념으로 분산 값에 제곱근을 씌운 값이다.

확률 밀도 함수(PDF)와 누적 분포 함수(CDF)의 차이를 설명해 주세요.
- 확률 밀도 함수(Probability Density Function)는 확률변수가 특정 값 근처에서 나타날 상대적인 가능성을 나타낸다. 분포의 형태를 보여주는 곡선이고 구간확률로 계산한다.
  - 구간 적분으로 확률을 계산
  - 확률밀도 기반 모델링에 사용
- 누적 분포 함수(Cumulative Distribution Function)는 확률 변수가 특정 값 이하/이상일 확률을 나타낸다.
- CDF는 PDF를 누적하여 얻은 곡선이다
  - 직접 누적 확률을 계산
  - 분위수(quantile) 계산, 신뢰구간 추정에 사용

상관계수(Correlation)와 공분산(Covariance)의 차이점을 설명해 주세요.
공분산과 상관계수는 두 변수 간의 관계를 분석할 때 사용함.

차이점
- 상관계수 : 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도. 두 변수 간 상관 정도를 -1에서 1까지의 숫자로 표현해서 측정한다.
- 상관계수 = 단위 표준화된 공분산으로 관계 강도와 방향을 직관적으로 이해 가능하다
- 공분산 : 두 변수 간의 관계를 나타내는 통계적 개념. 두 변수가 함께 어떻게 변하는지 측정해준다. 시계열 분석에서 중요한데, 시계열 자료의 자기상관성 때문이다. 공분산은 특정 시점이 아닌 시차에 의존한다.
  - 공분산은 단위 의존적이고 절대값만으로 관계 강도 판단이 어렵다

베이지안 통계와 빈도주의 통계의 차이점을 설명해 주세요.

베이지안: 사전 정보(prior) + 데이터 → 사후 확률(posterior)
베이지안 통계는 내가 가진 사전 지식과 새로운 데이터를 합쳐 업데이트 한다.
- 과거 지식이나 전문가 의견을 사전확률(prior)로 반영할 수 있다.
- 새로운 데이터를 관측하면 믿음을 갱신한다.
빈도주의 통계는 오랜 반복에서의 비율로 사전정보 없이 현재 관측한 데이터로만 판단한다.
빈도주의: 데이터만으로 통계적 추론

Q1: A/B 테스트를 할 때 베이지안 접근을 쓴다면 어떤 장점이 있을까?

베이지안 접근은 이전 경험이나 지식을 ‘사전 정보(Prior)’로 넣고, 새로 수집한 데이터를 계속 반영하면서 결과를 업데이트합니다.
예를 들어, 특정 해시태그 캠페인의 참여율이 어느 정도일지 이전 캠페인 데이터를 기반으로 예상하고, 실제 실험 데이터를 보면서 ‘이 해시태그가 효과적일 확률’을 바로 계산할 수 있습니다.
따라서 A/B 테스트를 할 때도 실험이 끝날 때까지 기다릴 필요 없이, 진행 중인 데이터만으로도 ‘A가 B보다 나을 확률이 몇 %다’라는 직관적인 결론을 얻을 수 있습니다.
이런 특성은 실험 비용과 시간을 줄이고, 빠른 의사결정을 내려야 하는 마케팅 캠페인이나 신제품 론칭에서 특히 장점이 됩니다.

Q2: 신뢰구간과 베이지안 신뢰구간(Credible Interval)의 차이를 설명해 보세요.

전통적 신뢰구간(Confidence Interval)은 반복적 표본 추출 시 일정 비율(예: 95%)의 구간이 모수를 포함한다는 의미다.
반면 베이지안 신뢰구간(Credible Interval)은 사후분포 기반으로 특정 모수가 이 구간에 존재할 확률이 95%라는 직관적 의미를 가진다

전통적 신뢰구간(CI):
“이번 실험에서 해시태그 A의 평균 참여율이 10%이고, 95% 신뢰구간이 [8%, 12%]라면, 반복적으로 표본을 뽑았을 때 95%는 이 구간에 진짜 평균이 들어 있다.”
→ 모수(진짜 평균)가 구간 안에 있을 확률이 직접적인 의미가 아니고, ‘방법론적 신뢰’임

베이지안 Credible Interval:
“해시태그 A의 평균 참여율이 10%이고, 95% Credible Interval이 [8%, 12%]라면, 사전 정보와 관측 데이터를 고려했을 때 평균 참여율이 실제로 8~12% 범위에 있을 확률이 95%입니다.”
→ 직관적으로 ‘이 구간에 실제 값이 들어있을 확률 95%’라고 말할 수 있음

핵심 차이:
CI: ‘반복실험 관점’
Credible Interval: ‘내가 가진 데이터 기준으로 확률’

Q3: 사전분포(Prior)가 결과에 큰 영향을 주는 경우는 어떤 상황입니까?

사전분포가 결과에 큰 영향을 미치는 경우는 표본 데이터가 적거나 노이즈가 많은 상황이다.
예를 들어, 신제품 런칭 초기에 리뷰 데이터가 적을 때, 이전 제품군의 평균 평점 정보를 Prior로 사용하면 초기 추정치가 사전 정보에 민감하게 영향을 받는다.
따라서 베이지안 분석을 적용할 때는 데이터 양과 Prior 선정에 주의를 기울여야 함

Q4 : 프로젝트에서 신뢰구간을 설정해 데이터를 분석한 경험이 있나요? 해당 분석 결과를 어떻게 해석했나요?

데이터 준비

해시태그별 참여율 데이터 수집 (예: 좋아요/댓글/조회수 비율)

표본 크기 확인 (표본이 충분한지 확인)

평균과 표준오차 계산

그룹별 평균 참여율 계산

표준오차(SE) 계산: $$ SE = \frac{\text{표준편차}}{\sqrt{n}} $$

신뢰구간 계산

$$ \text{평균} \pm 1.96 \times SE $$

python예시

import numpy as np
from scipy import stats

data = np.array([0.12, 0.15, 0.10, 0.14, 0.11])  # 참여율 예시
mean = np.mean(data)
se = stats.sem(data)
ci = stats.t.interval(0.95, len(data)-1, loc=mean, scale=se)
print("평균:", mean, "95% 신뢰구간:", ci)

해석 방법

다른 해시태그 그룹과 CI 겹침 여부 확인

겹치지 않으면 통계적으로 유의한 차이가 있다고 판단 가능

이를 마케팅 전략에 반영: 겹치지 않는 그룹 우선 테스트

Q5 : p-value가 0.05 일 때, 그 값의 의미를 비즈니스 상황에 적용해 설명해 주세요

p-value가 0.05라는 것은, 귀무가설이 참일 때 현재 관측된 데이터보다 극단적인 결과가 나올 확률이 5%라는 의미다.
예를 들어, 신규 제품 리뷰 전략 변경 후 평균 참여율이 기존과 다른지 A/B 테스트했을 때, p-value가 0.05라면 5% 확률로 우연히 차이가 발생했을 수 있다는 것을 의미한다.
비즈니스 의사결정에서는 이 결과를 참고하면서, 다른 정량적 지표(CTR, 매출 등)와 함께 판단할 수 있다.

Q6 : 상관계 수가 높지만 인과관계 가 없는 상황 을 실무에서 경험한 적이 있나요?
어떻게 대응했 나요?

틱톡 콘텐츠 분석에서 특정 해시태그와 참여율이 높은 상관관계를 보였지만, 실제로는 인기 인플루언서가 동일 해시태그를 주로 사용했기 때문이었다.
대응으로, 시간대별, 인플루언서별 효과를 조정한 다변량 분석을 수행하여 실제 인과 관계가 있는 해시태그를 식별하는 방법을 사용할 수 있을 것이다.

Q7 : t-검정을 사용 해 두 그룹 간의 평균 차이를 분석한 사례를 설명해 주세요

아마존 리뷰 데이터를 분석할 때, 남녀 사용자 그룹의 제품 평점 평균 차이를 검정하기 위해 t-검정을 사용했다.
모집단 분산을 알 수 없고 표본 크기가 상대적으로 작아 t-분포를 적용했다.
검정 결과, 남녀 그룹 간 평균 평점 차이가 통계적으로 유의미하게 나타나 마케팅 전략을 세분화하는 근거로 활용함.

Q8 : 베이지안 통계를 비즈니스 의사결정에 활용할 수 있는 방법에 대해 설명해 주세요.

베이지안 통계를 활용하면 사전 지식과 실시간 데이터를 결합하여 의사결정을 내릴 수 있다.
예를 들어, 틱톡 인플루언서 시딩 캠페인에서 과거 참여율 데이터를 Prior로 사용하고, 실시간 참여 데이터를 관측하여 사후분포를 업데이트함으로써, 어느 인플루언서에게 광고 예산을 집중해야 하는지 확률적으로 판단할 수 있다. 이를 통해 리스크를 줄이고, 캠페인 효율을 극대화할 수 있을 것.

단순히 ‘통계적 유의성’만 보는 게 아니라, 비즈니스 지표와 연결해야 함.

A/B 테스트 결과

p-value < 0.05 → 해시태그 A 참여율이 B보다 높음

하지만 실제 CTR, 매출, 구독자 증가율 등 다른 지표도 함께 확인

판단 방법

참여율 CI → 효과 유의성 확인

CTR, 매출 증감 확인 → 비즈니스 가치 판단

결론: 효과가 통계적으로 유의하고, 비즈니스 지표도 개선된다면 캠페인 확대 결정

핵심 : 통계 결과 + 비즈니스 KPI → 최종 의사결정

Hyunjun Kim

Data Analytics Engineer 가 되

다음 포스트

[Q&A] 통계 및 확률 질문 10가지

데이터 분석 부트캠프

[Q&A] 통계 및 확률 질문 10가지

0개의 댓글