기술 통계(descriptive statistics): 자료를 요약(summarize)하고, 정리(organize)하여 이해하기 쉽게 제시함.
<예시>
1, 2, 7, 100
평균: (1+2+7+100)/4 = 27.5
<예시>
1, 2, 7, 100
중앙값: (2+7)/2 = 4.5
<예시>
1, 1, 3, 7
최빈값: 1
데이터 분석 적용점 : 데이터 분석에서 일반적으로 평균을 많이 활용함. 평균은 데이터에 있는 모든 값에 민감하고, 특히 극단값에 영향을 많이 받는다는 특징이 있음. 따라서 데이터가 정규분포가 아니거나 극단값이 있는 상황에서는 평균보다 중앙값을 사용하는 것이 자료를 더 잘 대표할 수 있음.
데이터 분석 적용점: 데이터에 오류가 있는지 확인할 때 유용함. 척도가 있는 데이터라면 척도 범위를 벗어난 범위의 값이 존재한다면 데이터에 오류가 있을 가능성이 있음.
IQR = Q3 - Q1
(Q1 = 25% , Q2 = 50%, Q3 = 75%)
Q2는 중앙값과 동일함.
<예시>
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Q1 --> 3
Q2 --> 5.5
Q3 --> 8
IQR = Q3 - Q1 = 5
[모집단의 분산]
[표본집단의 분산]
[모집단의 표준편차]
[표본집단의 표준편차]
데이터 분석 적용점: 중심경향값과 변산도를 함께 고려해야함. 그렇지 않으면 분포에 대해 단편적인 정보만 얻게 됨. 보통 평균과 표준편차를 함께 제시함.