[데이터사이언스]개발일기-(6)

Pream·2022년 1월 25일
0

1.Estimate / Sampling 간단히 설명
2.가설검증 - 귀무가설/대립가설
3.T-test

1. Estimate:
(1) 기술통계치: count,mean,std 와 같은 데이터를 설명하는값(통계치)
(2) 추리통계치: population,standard error 와 같은 표본을 이용해 모집단을 추론할 수 있게하는 수치값

  1. Sampling:

    (1) Simple random sampling:
    어떠한 조건없이 무작위로 데이터를 추출하는 기법
    (2) Systematic sampling:
    어떤 규칙을 가지고 데이터를 추출하는 기법 ex)1,6,11,16
    (3) Stratified random sampling:
    모집단을 미리 여러그룹으로 나누고 그 그룹별로 무작위 추출하는 기법 ex) 그룹을 나이대로 나누고 그안에서 랜덤 추출
    (4) Cluster sampling:
    모집단을 여러 그룹으로 나누고 그룹을 무작위 추출하는 방법

  2. 가설

    (1)귀무가설: 모집단에 대해 옳다고 제안하는 잠정적 주장이다. Ex) "대한민국 성인남성 평균키가 170cm 이다."
    (2)대립가설: 귀무가설과 반대되는 가설이다. Ex)"대한민국 성인남성 평균키는 170cm와 다르다"

  1. T-test:

(1)One Sample t-test : 1개의 Sample의 값들의 "평균"이 특정값과 동일한지 비교.

(2)Two Sample t-test : 2개의 Sample의 값들의 평균이 서로 얼마나 일치하는지 비교.

T-test에선 P-Value라는 값이 존재함.
P-value는 가설에 대해 어느정도 근거가 있는지를 나타내는 수치값으로
P-value가 낮을수록 귀무가설이 틀렸을 확률이 높다.
일반적으로 P-value가 0.05 이하라면 그 가설은 거의 틀렸을 가능성이 높다고 본다.

profile
예비 데이터개발자

0개의 댓글