[Statistics] 기초 개념 정리 2

dauuuum·2021년 5월 19일

Statistics

목록 보기
2/5
post-thumbnail

📝 Statistics

1. 가설검정

주어진 상황에 대해서 하고자하는 주장이 맞는지 아닌지를 판정하는 과정이다. 모집단 실제의 값이 얼마가 된다는 주장에 대해 sample 통계치를 확인하여 가설의 유의성 여부를 판정한다.
증명하고 싶은 가설을 대립 가설(Alternative hypothesis)이라고 하고, 대립 가설을 부정하는 쪽을 귀무가설(Null hypothesis)이라고 한다. 대립 가설을 증명하기 위해 귀무가설이 틀렸다는 것을 증명하는 귀류법이 통계에서는 자주 사용된다.

🔎 자세히보기
Confidence Interval(신뢰구간)
- 통계적 추론을 통해 예측되는 값의 범위
- 신뢰구간이 넓어지면 오차범위가 증가함

2. T-test

두 집단의 평균이 동일한지를 비교한다.
즉, Sample 평균이 특정값과 동일한지를 비교하여, 유의미한지를 검증하는 방법이다. 독립성, 등분산성, 정규성이라는 특정 조건이 가정되어야 한다.

🔎 자세히보기
독립성: 두 집단이 연결되어 있는 쌍이 아니어야 함
등분산성: 두 집단이 어느정도 유사한 수준의 분산 값을 가져야 함
정규성: 정규 분포를 따라야 함(종모양)

1) One Sample t-test
1개의 sample 값들의 평균이 특정값과 동일한지 비교한다.

2) Two Sample T-test
2개의 sample 값들의 평균이 서로 동일한지 비교한다.

3. P-value

주어진 가설에 대해 얼마나 근거있는지에 대한 값을 0~1사이의 값으로 나타낸 지표이다.

🔎 자세히보기
🔥 p-value 결과 해석이 중요!
p-value가 낮다는 것은 틀릴 가능성이 높다.
p-value가 높다는 것은 옳을 가능성이 높다/ 틀리지 않았다고 봐도 무방하다.

4. 정규분포

종모양(bell shape)이며, 정가운데인 평균을 중심으로 좌우대칭 형태이다. 정규분포의 양 끝은 영원히 '0'에 닿지 않는다.
정규분포의 아래 면적은 확률을 의미한다.

5. Chi-square Test(카이제곱검정)

관측값이 기대값과 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다.
여기서 관측값은 표본에서 한 범주에 속하는 관측치의 실제 수이고, 기대값은 검정 비율이 참인 경우 평균적으로 발생할 것으로 기대되는 관측치의 수이다.

6. 모수적 방법(Parametric Methods)과 비모수적 방법(Parametric Methods)의 차이점

1) 모수적 방법:
모집단이 특정 확률 분포를 따른다는 전제를 하는 방식
ex) T-test, ANOVA 등

2) 비모수적 방법:
모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식

  • Categorical 데이터
  • 극단적 outlier가 있는 데이터

ex) Chisquare-test, Spearman correlation 등

0개의 댓글