ch 2. descriptive statistics

원준식·2022년 9월 17일

링크텍스트

위 강의를 듣고 정리하는 글입니다.


2.2 describing data sets

2.2.1 frequency tables and graphs

여러 frequency graphs: https://www.sciencedirect.com/topics/mathematics/frequency-polygon

2.2.2 relative frequency tables and graphs

relative frequency: 전체를 1이나 100%로 보는 것(상대 도수)

2.2.3 grouped data, histogram, ogives, and stem and leaf plots

histogram: https://ko.wikipedia.org/wiki/히스토그램

ogive: https://blog.naver.com/junghs63/90115308355

stem and leaf plot: https://ko.wikipedia.org/wiki/줄기그림




2.3 summerizing data sets

2.3.1 sample mean, sample median, and sample mode

샘플 데이터의 중심을 무엇으로 볼 것인가?

예시)

3, 4, 100이라는 데이터가 있을 때

mean = 1073\frac{107}{3}

median = 4

median이 mean에 비해 extreme value의 영향을 덜 받음

2.3.2 sample variance and sample standard deviation

모분산: n으로 나눔

표본분산: n-1로 나눔

1nΣi=1n(xixˉ)2=1nΣi=1nxi2xˉ2\frac{1}{n}Σ^n_{i=1}(x_i - \bar{x})^2 = \frac{1}{n}Σ^n_{i=1}x_i^2 - \bar{x}^2
s2=1n1Σi=1n(xixˉ)2=nn1[1nΣi=1nxi2xˉ2]s^2 = \frac{1}{n-1}Σ^n_{i=1}(x_i - \bar{x})^2 = \frac{n}{n-1}[\frac{1}{n}Σ^n_{i=1}x_i^2 - \bar{x}^2]

2.3.3 sample percentiles and box plots

sample 50 percentile = sample median = the 2nd quartile

sample 25 percentile = the 1st quartile

예시)

6 0 5 5 8 9

7 2 4 4 5 7 8

8 2 3 3 5 7 8 9

9 0 0 1 4 4 5 7

10 0 2 7 8

11 0 2 4 5

12 2 4 5

sample size = 36

1st quartile → 36/4 = 9인데 이렇게 딱 떨어지면 9등의 점수를 잡는 것이 아님

→ 1st quartile = 9등의점수+10등의점수2\frac{9등의 점수 + 10등의 점수}{2} = 75+772\frac{75 + 77}{2}

box plot: https://ko.wikipedia.org/wiki/상자수염그림




2.4 Chebyshev’s inequality

xˉ\bar{x} = sample mean

ss = sample standard deviation

P[Xxˉ<ks]=P[xˉks<X<xˉ+ks]>=11k2P[|X-\bar{x}| < ks] = P[\bar{x} - ks < X < \bar{x} + ks] >= 1 - \frac{1}{k^2}

예시)

xˉ\bar{x} = 35.33

ss = 11.86

만약 k=2이면 1122=0.751-\frac{1}{2^2} = 0.75

at least 75% of data lies in the interval (xˉ2s,xˉ+2s)(\bar{x} - 2s, \bar{x} + 2s) = (11.61,59.05)(11.61, 59.05)

확률변수 X가 위 범위 안에 있을 확률은 확률 분포에 관계없이 75% 이상이다.




2.6 paired data sets and the sample correlation coefficient

sample correlation coeffeicient

r=Σi=1n(xixˉ)(yiyˉ)/(n1)sxsyr = \frac{Σ^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})/(n-1)}{s_xs_y}

r은 linear dependency를 말해줌

yi=a+bxiy_i = a + bx_i이고 b>0b>0이면 r=1r=1 → positive linear dependency

r=1|r|=1이면 모든 데이터 (xi,yi)(x_i, y_i)를 지나는 직선이 존재

r=0.8|r|=0.8이면 모든 데이터 (xi,yi)(x_i, y_i)를 가까이 지나는 직선이 존재

r=0.3|r|=0.3이면 xix_iyiy_i 사이에 linear relationship이 없는 것임

xixˉx_i-\bar{x}의 의미

xix_i: 평균이 xˉ\bar{x}인 데이터 셋

xixˉx_i-\bar{x}: 평균이 0인 데이터 셋(위 데이터 셋을 xˉ\bar{x}만큼 옮긴 것)

0개의 댓글