데이터 시각화

Nayeon Bae·2023년 6월 26일

Data

목록 보기

2/4

1. 시각화

1) 시각화 방법 : 가장 대표적인 시각화 라이브러리는 matplotlib, seaborn 등
2) 데이터 유형에 따른 통계치

수치형 데이터는 평균, 표준편차, 최댓값, 최솟값 등
범주형 데이터는 데이터의 빈도, 비율 등
3) 데이터 통계치
데이터의 대푯값을 구하는 통계치(central detendency) : 평균(mean), 중앙값(median), 최빈값(mode) 등
데이터가 흩어진 정도(산포도) : 사분편차, 분산, 표준편차(standard deviation), range, IQR(Q3-Q1, 양쪽 극단값에서 자료의 25%씩 안쪽으로 들어와 있는 값의 거리, 범위보다는 양극단의 특잇값에 상대적으로 덜 민감, 대신 분포의 상세한 특징 모두 생략되므로 표, 히스토그램과 같이 보는 게 좋음, 이상치는 Q3-Q1에 *1.5를 벗어난 것으로 정의함) 등

4) 시각화 방법에 따라 파악할 수 있는 데이터 형태

Histogram으로 데이터의 분포 파악. 단, 아웃라이어 잡아내기 힘듬. unimodal 분포면 사용 적합
Box plot을 통해 데이터의 사분위수(25%, 중앙값(50%), 75%)와 최솟값, 최댓값을 알 수 있음. 또한 최솟값과 최댓값을 벗어난 이상치도 확인 가능. bimodal 분포 이상일 경우 사용 적합
*mode(봉우리) 갯수는 이후에 최대/최소 값을 구할 때, 로컬에 빠지는지 아닌지를 판단하기 위해서 필요한 정보이고, convex / concave 와 관련이 있어서 정확하교 효과적인 최적화 알고리즘을 사용할 수 있도록 해준다.
Bar chart는 데이터를 비교하는 데 유용한 시각화 방법
scattor plot으로 두 변수간의 관계 확인 가능. 변수들이 연속형 데이터일 때 사용.
line plot은 이산형 데이터일 때 사용

5) 하나의 데이터셋을 여러 개의 데이터프레임으로 분리 가능!! = 분리 후 비교 가능

2. 데이터 타입에 따라 알 수 있는 정보 & 사용할 수 있는 차트

1) 수치형(numerical) : 연속형, 이산형

퍼센타일, 중앙값, interquartile range, 평균, 최빈값, 표준편차, 범위, IQR / 히스토그램, 박스 플롯(1~3번째 분기와 중앙값을 박스로 표시, 맥스값과 민값에 가까운 데이터까지 보여줌)

2) 범주형(categorical) : 순서형, 명목형

빈도, 비율, 퍼센트, 퍼센타일, 최빈값, 중앙값, Interquarile range / 바 차트, 파이 차트

3) 아웃라이어의 존재 유무에 따라 중앙값과 평균값을 선택

4) 그럼 어떤 통계량을 써야하나? 분포가 대칭이면 평균과 표준편차 사용, 아니라면 사분편차와 중앙값 사용

데이터에 윤리를 내장하는 데이터 사이언티스트를 꿈꾸다

이전 포스트

EDA & Feature Engineering

다음 포스트

Data wrangling

0개의 댓글