기술 통계에 대한 이론은 해당 글에서 확인하실 수 있습니다.
[통계 이론] 기술 통계
[코드]
import pandas as pd
vehicles = pd.read_csv('vehicles.csv') # csv 파일을 dataframe으로 읽어옴.
vehicles.shape # dataframe의 차원 확인함.
vehicles.head(3) # dataframe의 처음 3개 열을 리턴함.
vehicles.tail(3) # dataframe의 마지막 3개 열을 리턴함.
[결과]
vehicles.shape:
(426880, 26)
[코드]
import scipy.stats as stats
vehicles = vehicles[vehicles['price'] != 0]
# vehicles의 가격이 0인 rows를 제거함.
vehicles = vehicles.reset_index(drop=True)
# vehicles의 index를 재정렬함.
vehicles = vehicles[(np.abs(stats.zscore(vehicles['price'])) < 3)]
# vehicles의 가격의 z-score가 3이상인 rows를 제거함.
vehicles.shape # dataframe의 차원 확인함.
[결과]
vehicles.shape:
(393965, 26)
[코드]
vehicles.price.mean()
[결과]
19383.20
[코드]
vehicles.price.median()
[결과]
15000
[코드]
vehicles.manufacturer.mode()
[결과]
0 ford
dtype: object
[코드]
vehicles.price.max() - vehicles.price.min()
[결과]
25002999
[코드]
vehicles.price.quantile(.75) - vehicles.price.quantile(.25)
[결과]
20571
[코드]
vehicles.price.var()
[결과]
5754159737.77
[코드]
vehicles.price.std()
[결과]
75856.18