통계 101 X 데이터분석 - 3.2 데이터 분포

jwKim·2023년 4월 6일
0

1. 데이터 분포 확인 - 시각화

앞서 이야기한 대로 데이터를 그저 바라보기만 하면 어떤 정보도 쉽게 얻어낼 수 없다. 따라서 데이터가 어떻게 분포되어있는지를 그래프로 그리면 데이터의 경향성을 파악할 수 있다.

데이터의 분포를 확인할 수 있는 대표적인 그래프로 도수분포표(=히스토그램)이 있다. 히스토그램은 데이터 타입에 따라 그 형태와 해석하는 방법이 달라진다.

2. 히스토그램

2-1. 이산형 변수

가로축에 숫자, 세로축에 데이터가 발생한 횟수를 표시한다. 이산형 변수는 그 값이 딱딱 떨어지므로 x축 기준으로 삼기에 편리하다.

2-2. 연속형 변수

연속형 변수는 소숫점 이하 자리가 무한히 이어지므로 어떤 값으로 특정짓기가 애매하다. 따라서 연속형 변수를 히스토그램으로 표현할 때에는 범위를 지정한다. 히스토그램의 범위를 구간폭(bin width)라고 한다.
참고 - 파이썬 시각화 도구에서는 주로 구간폭을 'bin'이라는 파라미터 이름으로 지정한다.

연속형 변수의 히스토그램은 bin을 어떻게 지정하느냐에 따라 그래프 모양이 전혀 달라진다. bin을 너무 작게 설정할 경우 데이터의 분포를 파악하기 어렵고, bin을 너무 크게 설정할 경우 데이터의 경향성이 사라지는 문제가 발생한다.

2-3. 범주형 변수

범주형 변수를 히스토그램으로 그릴 때에는 x축에 class 이름, y축에 발생한 횟수를 나타낸다. 범주형 변수는 각 class에 순서, 크기 등 별 다른 정보가 없으므로 순서가 상관 없다.

0개의 댓글