정량적 데이터 분석
- 숫자로 표현되는 수치 데이터를 이용하여 분석
- 주로 평균, 중앙값, 최빈값을 통해 어느 값을 중심으로 뭉쳐있는지 확인
- 분산, 표준편차, 분위수, q1(25%), q3(75%)를 통해 어떤 형태로 퍼져있는지 확인
describe()
- 전반적인 주요 통계 확인
- Numeric: count, mean, std, 25%, 50%, 75%..
- Object(String): unique, top, freq
count()
mean()
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()
- 중앙값
- 이상치가 존재하는 경우 mean보다 median을 선호
- 짝수라면 데이터의 평균 값 출력
var()
- 분산
- 데이터의 값들이 평균으로부터 얼마나 흩뿌려져 있는 지
std()
agg()
quantitle()
df['age'].quantitle(0.1)
mode()
corr()
- 상관관계
- [-1,1] 사이
- -1에 가까울 수록 반비례, 1에 가까울 수록 정비례