① 판다스의 describe() 메서드
② 판다스의 info() 메서드
③ 판다스의 mean() 메서드
④ 넘파이의 mean() 메서드
① 데이터를 랜덤하게 섞은 후 가운데 위차한 값을 선택한다.
② 데이터 개수가 짝수 개 일 떄는 중앙값이 두 개가 된다.
③ 평균과 중앙값이 같으려면 데이터 개수가 홀수여야 한다.
④ 판다스 quantile() 메서드로 중앙값을 계산할 수 있다.
a - [1, 10, 3, 6, 20 ]
① 분산 : 56.5, 표준편차 : 7.517
② 분산 : 45.2, 표준편차 : 6.723
③ 분산 : 13.3, 표준편차 : 3.647
④ 분산 : 63.7, 표준편차 : 7.981
ns_book7[['출판사', '대출건수']].______________________________________
target_range = ______________________________________________________
target_bool_idx = (ns_book7['대출건수'] >= target_range[0]) & (ns_book7['대출건수'] <= target_range[1])
target_bool_idx.sum()/len(ns_book7)*100
>>> 51.51737134060568
<풀이>
info() 메서드는 데이터프레임의 행과 열의 개수, 누락된 값의 개수, 데이터 타입 등을 제공하지만, 평균을 계산하지는 않는다.
① 중앙값은 데이터를 오름차순으로 정렬한 하 가운데 위치한 값. ② 데이터 개수가 짝수 개 일때는 가운데 위치한 두 개의 값을 평균하여 중앙값을 계산한다. ③ 데이터 개수와 상관없이 평균을 중심으로 양쪽에 데이터가 동일한 간격으로 퍼져있다면 평균과 중앙값이 같다.
pd.Series([1, 10, 3, 6, 20]).var() → 56.5
pd.Series([1, 10, 3, 6, 20]).std() → 7.517