ns_book6.describe()
번호 발행년도 도서권수 대출건수
count 379976.000000 379976.000000 379976.000000 379976.000000
mean 201726.332847 2008.516306 1.135874 11.504629
std 115836.454596 8.780529 0.483343 19.241926
min 1.000000 1947.000000 0.000000 0.000000
25% 102202.750000 2003.000000 1.000000 2.000000
50% 203179.500000 2009.000000 1.000000 6.000000
75% 301630.250000 2015.000000 1.000000 14.000000
max 401681.000000 2650.000000 40.000000 1765.000000
ns_book7.describe(percentiles=[0.3, 0.6, 0.9])
번호 발행년도 도서권수 대출건수
count 376770.000000 376770.000000 376770.000000 376770.000000
mean 202977.476649 2008.460076 1.145540 11.593439
std 115298.245784 8.773148 0.473853 19.279409
min 1.000000 1947.000000 1.000000 0.000000
30% 124649.700000 2004.000000 1.000000 2.000000
50% 204550.500000 2009.000000 1.000000 6.000000
60% 243537.400000 2011.000000 1.000000 8.000000
90% 361341.100000 2018.000000 2.000000 28.000000
max 401681.000000 2650.000000 40.000000 1765.000000
top 최빈값 freq 최빈값의 빈도
ns_book7.describe(include='object') # object 타입의 열에 대한 통계
도서명 저자 출판사 ISBN 세트 ISBN 부가기호 권 주제분류번호 등록일자
count 376770 376770 376770 376770 55866 308252 61793 359792 376770
unique 336408 248850 21875 350810 14875 17 834 12467 4562
top 승정원일기 세종대왕기념사업회 [편] 문학동네 9788937430299 9788937460005 0 1 813.6 1970-01-01
freq 250 303 4410 206 702 158235 13282 14816 28185
ns_book7['대출건수'].mean()
ns_book7['대출건수'].median()
ns_book7['대출건수'].drop_duplicates().median()
ns_book7['대출건수'].min()
ns_book7['대출건수'].min()
ns_book7['대출건수'].quantile(0.25)
borrow_10_flag = ns_book7['대출건수'] < 10 # 불리언 배열
borrow_10_flag.mean()
ns_book7['대출건수'].var()
ns_book7['대출건수'].std()
ns_book7['대출건수'].mode()
plt.yscale('log')
selectd_row = (1980 <= ns_book7['발행년도'])&(ns_book7['발행연도']<=2022)
plt.hist(ns_book7.loc[selectd_rows, '발행년도'])
plt.show()
평균: 데이터의 합을 데이터 개수로 나눈 값으로, 대표적인 중심 경향성 측도.
중앙값: 데이터를 정렬했을 때 가운데 위치한 값으로, 이상치에 덜 민감한 중심 경향성 측도.
최솟값: 데이터 중에서 가장 작은 값.
최댓값: 데이터 중에서 가장 큰 값.
분위수: 데이터를 일정한 비율로 나눈 지점으로, 중앙값을 포함한 세 개의 값이 일반적으로 사용됨.
분산: 데이터의 흩어진 정도를 나타내는 측도로, 각 데이터와 평균값의 차이의 제곱의 평균.
표준편차: 분산의 양의 제곱근으로, 데이터의 흩어진 정도를 나타내는 측도.
최빈값: 데이터 중에서 가장 자주 나타나는 값.