[혼공데분] 4주차 활동일지

고태경·2024년 1월 28일

CAHPTER 04. 데이터 요약하기

describe() 메서드 : 기본적인 기술통계를 자동으로 추출해줌

ns_book6.describe()

	번호	발행년도	도서권수	대출건수
count	379976.000000	379976.000000	379976.000000	379976.000000
mean	201726.332847	2008.516306	1.135874	11.504629
std	115836.454596	8.780529	0.483343	19.241926
min	1.000000	1947.000000	0.000000	0.000000
25%	102202.750000	2003.000000	1.000000	2.000000
50%	203179.500000	2009.000000	1.000000	6.000000
75%	301630.250000	2015.000000	1.000000	14.000000
max	401681.000000	2650.000000	40.000000	1765.000000

현재 원하는 값 보기 - percentiles 매개변수

ns_book7.describe(percentiles=[0.3, 0.6, 0.9])

	번호	발행년도	도서권수	대출건수
count	376770.000000	376770.000000	376770.000000	376770.000000
mean	202977.476649	2008.460076	1.145540	11.593439
std	115298.245784	8.773148	0.473853	19.279409
min	1.000000	1947.000000	1.000000	0.000000
30%	124649.700000	2004.000000	1.000000	2.000000
50%	204550.500000	2009.000000	1.000000	6.000000
60%	243537.400000	2011.000000	1.000000	8.000000
90%	361341.100000	2018.000000	2.000000	28.000000
max	401681.000000	2650.000000	40.000000	1765.000000

다른 데이터 타입의 열의 기술통계 보기 - include 매개변수

top 최빈값 freq 최빈값의 빈도

ns_book7.describe(include='object') # object 타입의 열에 대한 통계

	도서명	저자	출판사	ISBN	세트 ISBN	부가기호	권	주제분류번호	등록일자
count	376770	376770	376770	376770	55866	308252	61793	359792	376770
unique	336408	248850	21875	350810	14875	17	834	12467	4562
top	승정원일기	세종대왕기념사업회 [편]	문학동네	9788937430299	9788937460005	0	1	813.6	1970-01-01
freq	250	303	4410	206	702	158235	13282	14816	28185

mean() : 평균

ns_book7['대출건수'].mean()

median() : 중앙값

ns_book7['대출건수'].median()

중복값 제거하고 중앙값 구하기 - drop_duplicates()

ns_book7['대출건수'].drop_duplicates().median()

최솟값, 최댓값

ns_book7['대출건수'].min()

ns_book7['대출건수'].min()

quantile() 메서드 : 분위수

ns_book7['대출건수'].quantile(0.25)

보간 방법1 : interpolation='midpoint' (중앙값 이용)

보간 방법2 : interpolation='nearest' (가까운 거)

lower, higher

백분위

borrow_10_flag = ns_book7['대출건수'] < 10 # 불리언 배열
borrow_10_flag.mean()

var() : 분산

ns_book7['대출건수'].var()

std() : 표준편차

ns_book7['대출건수'].std()

mode() : 최빈값

ns_book7['대출건수'].mode()

yscale 메소드, hist 함수의 log 매개변수 True : y축을 log 스케일로 변경

plt.yscale('log')

기본 미션

selectd_row = (1980 <= ns_book7['발행년도'])&(ns_book7['발행연도']<=2022)
plt.hist(ns_book7.loc[selectd_rows, '발행년도'])
plt.show()

선택 미션

평균: 데이터의 합을 데이터 개수로 나눈 값으로, 대표적인 중심 경향성 측도.
중앙값: 데이터를 정렬했을 때 가운데 위치한 값으로, 이상치에 덜 민감한 중심 경향성 측도.
최솟값: 데이터 중에서 가장 작은 값.
최댓값: 데이터 중에서 가장 큰 값.
분위수: 데이터를 일정한 비율로 나눈 지점으로, 중앙값을 포함한 세 개의 값이 일반적으로 사용됨.
분산: 데이터의 흩어진 정도를 나타내는 측도로, 각 데이터와 평균값의 차이의 제곱의 평균.
표준편차: 분산의 양의 제곱근으로, 데이터의 흩어진 정도를 나타내는 측도.
최빈값: 데이터 중에서 가장 자주 나타나는 값.

고태경

컴퓨터정보과

이전 포스트

[혼공컴운] 3주차 학습일지

다음 포스트