학습목표
- 전체 데이터를 숫자로 요약하는 방법을 배웁니다.
- 데이터 분포를 살펴보고 그래프를 통해 이해하는 방법을 알아봅니다.
p. 279의 확인 문제 5번 풀고 인증하기
ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 '발행년도' 열의 히스토그램을 그려 보세요.
code
selected_rows = (1980 <= ns_book7['발행년도']) & (ns_book7['발행년도'] <= 2022) plt.hist(ns_book7.loc[selected_rows, '발행년도']) plt.show()
Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기
- 평균(mean): 데이터값을 모두 더한 후 데이터 개수로 나눈 값
- 중앙값(50%): 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값
- 최솟값(min): 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 가장 처음에 위치한 값
- 최댓값(max): 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 가장 마지막에 위치한 값
- 분위수: 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점
- 사분위수: 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값
- 백분위수: 데이터를 100개 의 구간으로 나눈 값들
- 분산: 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려주는 값으로, 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구함.
- 표준편차: 분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려주고, 표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉬움.
- 최빈값: 데이터에서 가장 많이 등장하는 값을 알려줌.