1) 시각화 방법 : 가장 대표적인 시각화 라이브러리는 matplotlib, seaborn 등
2) 데이터 유형에 따른 통계치
수치형 데이터는 평균, 표준편차, 최댓값, 최솟값 등
범주형 데이터는 데이터의 빈도, 비율 등
3) 데이터 통계치
데이터의 대푯값을 구하는 통계치(central detendency) : 평균(mean), 중앙값(median), 최빈값(mode) 등
데이터가 흩어진 정도(산포도) : 사분편차, 분산, 표준편차(standard deviation), range, IQR(Q3-Q1, 양쪽 극단값에서 자료의 25%씩 안쪽으로 들어와 있는 값의 거리, 범위보다는 양극단의 특잇값에 상대적으로 덜 민감, 대신 분포의 상세한 특징 모두 생략되므로 표, 히스토그램과 같이 보는 게 좋음, 이상치는 Q3-Q1에 *1.5를 벗어난 것으로 정의함) 등
4) 시각화 방법에 따라 파악할 수 있는 데이터 형태
5) 하나의 데이터셋을 여러 개의 데이터프레임으로 분리 가능!! = 분리 후 비교 가능
1) 수치형(numerical) : 연속형, 이산형
2) 범주형(categorical) : 순서형, 명목형
3) 아웃라이어의 존재 유무에 따라 중앙값과 평균값을 선택
4) 그럼 어떤 통계량을 써야하나? 분포가 대칭이면 평균과 표준편차 사용, 아니라면 사분편차와 중앙값 사용