✅혼자 공부하는 데이터 분석 with 파이썬
진도: Chapter 04
기본미션: p. 279의 확인 문제 5번 풀고 인증하기
선택미션: Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최소값, 최대값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기
1) p. 279의 확인 문제 5번
selected_rows = (1980 <= ns_book7['발행년도']) & (ns_book7['발행년도'] <= 2022)
plt.hist(ns_book7.loc[selected_rows, '발행년도'])
plt.show()
2) 선택미션: 기술통계량 개념 정리
① 평균: 데이터 값을 모두 더해 갯수로 나눈값
가장 기본적으로 알아보는 통계 지표
mean() 메소드 이용
② 중앙값: 전체 데이터를 순서대로 늘어 놓았을때 중앙에 위치하는 값
median() 메소드 이용
중복값을 제거하고 사용시에는 drop_duplicates().median() 의 방식을 이용
예시
1, 2, 5, 10, 20 일때의 중앙값은 5
1, 2, 3, 4 짝수개 있을 때는 2,3의 평균값인 2.5가 중앙값
③ 최소값: 가장 작은 값, min() 메소드를 이용함
④ 최대값: 가장 큰 값, max() 메소드를 이용함
⑤ 분위수: 데이터를 순서대로 늘어 놓았을때 이를 균등한 간격으로 나누는 기준점
2분위수, 4분위수와 같은 용어가 이것을 의미하며, 이분위수는 2개로 나눈 기준점, 사분위수는 4개로 나눈 기준점을 의미. quantile() 메소드를 이용함
⑥ 분산: 평균으로부터 데이터가 얼마나 퍼져 있는지를 나타내는 통계량
분산이 작다= 데이터가 평균으로 부터 모여 있다.
분산이 크다= 데이터가 평균으로 부터 퍼져 있다.
데이터의 각 값에서 평균을 뺀 다음 제곱한 후 갯수로 나누어지는 값. var() 메소드를 사용
⑦ 표준편차: 분산 값에 제곱근 √ 를 적용한 값.
분산은 수치가 너무 크기 때문에, 제곱근으로 줄여 사용. 표준편차의 제곱 =분산, std() 메소드를 사용
⑧ 최빈값: 데이터에서 가장 많이 등장하는 값.
mode() 메소드 사용
#기술통계 조회와 percentiles 변경 예
ns_book6.describe()
ns_book7.describe(percentiles=[0.3, 0.6, 0.9])
해선샘 자료들
🙋♂️Q&A: 박해선 저자님의 혼공분석 github
💻유튜브 강의: 👉전체 강의 목록
Blog
Interview
과제를 페북에 올리기
좋은 정보 감사합니다