Confidence Interval_Ai_08

dannialism·2021년 11월 26일
0

내용

ANOVA (one-way) : 3개이상의 표본 데이터의 평균을 비교할 때 쓰이는 방법.
여러 데이터의 분포가 차이가 없다는 가정에서 출발.
F-statistic. 여기서 사용되는 통계치. 여러개의 데이터가 동일한 분포도를 가지고 있는 지 측정하는 값이다.(https://en.wikipedia.org/wiki/F-test)

F값이 클 수록 각각의 데이터는 다른 분포도를 가지고 있다는 뜻이다.

큰 수의 법칙 ( Law of large numbers )
sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다.

중심극한정리 ( Central Limit Theorem, CLT )
Sample 데이터의 수가 많아질 수록, sample의 평균은 정규분포에 근사한 형태로 나타난다.

신뢰도 (Confidence intervals)
신뢰도가 95% 라는 의미는 표본을 100번 뽑았을때 95번은 신뢰구간 내에 모집단의 평균이 포함된다.

사용한 코드

df[(df['컬럼'] == '행의 값')] : 컬럼 안에 해당되는 값을 출력한다. conditioning
df.sample(20, random_state=42) : df안에 있는 데이터 중에서 20개 표본을 42만큼 난수로 뽑는다.

profile
danny + realism

0개의 댓글