통계학

Rapsby·2020년 12월 9일
0

인공지능 수학

목록 보기
10/19

통계학(Statistics)
데이터 수집, 구성, 분석, 해석, 표현에 관한 학문
-기술통계학(Descriptive Statistics)
-추측통계학(Inferential Statistics)

모집단(population)
-어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합

모수(parameter)
-모집단의 수치적인 특성 (키의 평균)

표본(sample)
-모집단에서 선택된 개체나 사건의 집합

도수(Frequency)
어떤 사건이 실험이나 관찰로부터 발생한 횟수
-도수분포표, 막대그리프, 히스토그램

상대도수
-도수를 전체 원소의 수로 나눈것 (전체 : 10, 도수 : 2, 상대도수 = 0.2)

평균(mean)
x1+x2++xnn=1ni=1nxi{{x_1+x_2+\cdots+x_n} \over n} = {1 \over n} \sum\limits_{i=1}^nx_i

모평균 μ\mu
-모집단 전체 자료일 경우
표본평균 xˉ\bar{x}
-모집단에서 추출한 표본일 경우

import statistics
a = [1,2,3]
print(statistics.mean(a)) # result : 2

중앙값(median)
-주어진 자료를 높은 쪽 절반과 낮은 쪽 절반으로 나누는 값을 의미
-자료를 순서대로 나열했을 때 가운데 있는 값
자료의 수 n이 홀수인 경우, (n+1)2{(n+1)\over 2}번째 자료값
짝수인 경우, n2n \over 2번째와 n2+1{n \over 2} + 1번째 자료값의 평균
평균의 경우 극단 값의 영향을 많이 받기 때문에 중앙값을 사용할 경우 도움이 될 수 있다.

import statistics
a = [1,2,3,5]
print(statistics.median(a)) # result : 2.5
b = [1,2,7,3,5]
print(statistics.median(b)) # result : 3

분산(Variance)
-편차 제곱의 합을 자료의 수로 나눈 값
-자료가 모집단일 경우 : 모분산 σ2=1Ni=1N(xiμ)2\sigma^2 = {1 \over N} \sum\limits_{i=1}^N(x_i-\mu)^2
-자료가 표본일 경우 : 표본분산 s2=1n1i=1n(xixˉ)2s^2 = {1 \over n - 1} \sum\limits_{i=1}^n(x_i-\bar{x})^2

import statistics
statistics.variance(a)
import scipy.stats
scipy.stats.tvar(a)

표준편차(Standard Variance)
-분산의 양의 제곱근
-모표준편차(population standard deviation) σ=1Ni=1N(xiμ)2\sigma = \sqrt{{1 \over N}\sum\limits_{i=1}^N(x_i-\mu)^2}
-표본표준편차(sample standard deviation) s=1n1i=1n(xixˉ)2s = \sqrt{{1 \over n-1}\sum\limits_{i=1}^n(x_i-\bar{x})^2}

#표준편차
statistics.stdev(a)
#모분산
statistics.pvariance(a)
#모표준편차
statistics.pstdev(a)

범위(Range)
-자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이
max(a) - min(a)

사분위수(Quartile)
-전체 자료를 정렬했을 때 1/4,1/2,3/4^1/_4,\, ^1/_2,\, ^3/_4 위치에 있는 숫자

#quantile 분위수
numpy.quantile(a, .25)
numpy.quantile(a, .5) # median
numpy.quantile(a, .75)
numpy.quantile(a, .6)

사분위범위(IQR, interquartile range)
-Q3 - Q1

IQR = numpy.quantile(a, .75) - numpy.quantile(a, .25)

z-score
-어떤 값이 평균으로부터 몇 표준편차 떨어져있는지를 의미하는 값

  • 모집단의 경우 z=xμσz = \frac{x-\mu}{\sigma}
  • 표본의 경우 z=xxˉsz = \frac{x-\bar{x}}{s}
scipy.stats.zscore(a)
scipy.stats.zscore(a, ddolf=1) #표본
profile
Good Morning

0개의 댓글