링크텍스트
위 강의를 듣고 정리하는 글입니다.
2.2 describing data sets
2.2.1 frequency tables and graphs
여러 frequency graphs: https://www.sciencedirect.com/topics/mathematics/frequency-polygon
2.2.2 relative frequency tables and graphs
relative frequency: 전체를 1이나 100%로 보는 것(상대 도수)
2.2.3 grouped data, histogram, ogives, and stem and leaf plots
histogram: https://ko.wikipedia.org/wiki/히스토그램
ogive: https://blog.naver.com/junghs63/90115308355
stem and leaf plot: https://ko.wikipedia.org/wiki/줄기잎그림
2.3 summerizing data sets
샘플 데이터의 중심을 무엇으로 볼 것인가?
예시)
3, 4, 100이라는 데이터가 있을 때
mean = 3107
median = 4
median이 mean에 비해 extreme value의 영향을 덜 받음
2.3.2 sample variance and sample standard deviation
모분산: n으로 나눔
표본분산: n-1로 나눔
n1Σi=1n(xi−xˉ)2=n1Σi=1nxi2−xˉ2
s2=n−11Σi=1n(xi−xˉ)2=n−1n[n1Σi=1nxi2−xˉ2]
2.3.3 sample percentiles and box plots
sample 50 percentile = sample median = the 2nd quartile
sample 25 percentile = the 1st quartile
예시)
6 0 5 5 8 9
7 2 4 4 5 7 8
8 2 3 3 5 7 8 9
9 0 0 1 4 4 5 7
10 0 2 7 8
11 0 2 4 5
12 2 4 5
sample size = 36
1st quartile → 36/4 = 9인데 이렇게 딱 떨어지면 9등의 점수를 잡는 것이 아님
→ 1st quartile = 29등의점수+10등의점수 = 275+77
box plot: https://ko.wikipedia.org/wiki/상자수염그림
2.4 Chebyshev’s inequality
xˉ = sample mean
s = sample standard deviation
P[∣X−xˉ∣<ks]=P[xˉ−ks<X<xˉ+ks]>=1−k21
예시)
xˉ = 35.33
s = 11.86
만약 k=2이면 1−221=0.75
at least 75% of data lies in the interval (xˉ−2s,xˉ+2s) = (11.61,59.05)
확률변수 X가 위 범위 안에 있을 확률은 확률 분포에 관계없이 75% 이상이다.
2.6 paired data sets and the sample correlation coefficient
sample correlation coeffeicient
r=sxsyΣi=1n(xi−xˉ)(yi−yˉ)/(n−1)
r은 linear dependency를 말해줌
yi=a+bxi이고 b>0이면 r=1 → positive linear dependency
∣r∣=1이면 모든 데이터 (xi,yi)를 지나는 직선이 존재
∣r∣=0.8이면 모든 데이터 (xi,yi)를 가까이 지나는 직선이 존재
∣r∣=0.3이면 xi와 yi 사이에 linear relationship이 없는 것임
xi−xˉ의 의미
xi: 평균이 xˉ인 데이터 셋
xi−xˉ: 평균이 0인 데이터 셋(위 데이터 셋을 xˉ만큼 옮긴 것)