통계학(Statistics)
데이터 수집, 구성, 분석, 해석, 표현에 관한 학문
-기술통계학(Descriptive Statistics)
-추측통계학(Inferential Statistics)모집단(population)
-어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합모수(parameter)
-모집단의 수치적인 특성 (키의 평균)표본(sample)
-모집단에서 선택된 개체나 사건의 집합도수(Frequency)
어떤 사건이 실험이나 관찰로부터 발생한 횟수
-도수분포표, 막대그리프, 히스토그램상대도수
-도수를 전체 원소의 수로 나눈것 (전체 : 10, 도수 : 2, 상대도수 = 0.2)평균(mean)
모평균
-모집단 전체 자료일 경우
표본평균
-모집단에서 추출한 표본일 경우import statistics a = [1,2,3] print(statistics.mean(a)) # result : 2
중앙값(median)
-주어진 자료를 높은 쪽 절반과 낮은 쪽 절반으로 나누는 값을 의미
-자료를 순서대로 나열했을 때 가운데 있는 값
자료의 수 n이 홀수인 경우, 번째 자료값
짝수인 경우, 번째와 번째 자료값의 평균
평균의 경우 극단 값의 영향을 많이 받기 때문에 중앙값을 사용할 경우 도움이 될 수 있다.import statistics a = [1,2,3,5] print(statistics.median(a)) # result : 2.5 b = [1,2,7,3,5] print(statistics.median(b)) # result : 3
분산(Variance)
-편차 제곱의 합을 자료의 수로 나눈 값
-자료가 모집단일 경우 : 모분산
-자료가 표본일 경우 : 표본분산import statistics statistics.variance(a) import scipy.stats scipy.stats.tvar(a)
표준편차(Standard Variance)
-분산의 양의 제곱근
-모표준편차(population standard deviation)
-표본표준편차(sample standard deviation)#표준편차 statistics.stdev(a) #모분산 statistics.pvariance(a) #모표준편차 statistics.pstdev(a)
범위(Range)
-자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이
max(a) - min(a)사분위수(Quartile)
-전체 자료를 정렬했을 때 위치에 있는 숫자#quantile 분위수 numpy.quantile(a, .25) numpy.quantile(a, .5) # median numpy.quantile(a, .75) numpy.quantile(a, .6)
사분위범위(IQR, interquartile range)
-Q3 - Q1IQR = numpy.quantile(a, .75) - numpy.quantile(a, .25)
z-score
-어떤 값이 평균으로부터 몇 표준편차 떨어져있는지를 의미하는 값
- 모집단의 경우
- 표본의 경우
scipy.stats.zscore(a) scipy.stats.zscore(a, ddolf=1) #표본