[Pandas] 히스토그램과 밀도 그래프

J Lee·2025년 1월 29일
0

9.2.3 히스토그램과 밀도 그래프

히스토그램은 막대그래프의 한 종류로,
값의 빈도를 분리해서 보여주는 데 효과적인 그래프다.
데이터 포인트는 분리되어 균일한 간격의 막대로 표현되고,
데이터의 숫자가 막대의 높이로 표현된다.

앞선 포스팅에서 살펴본 팁 데이터를 사용해서
전체 결제액 대비 팁의 비율을 Series의 plot.hist 메서드를 사용해 만들어보자.

이와 관련된 다른 그래프로 밀도 그래프가 있는데,
이는 관찰값을 사용해서 추정되는 연속된 확률분포를 그린다.
대표적인 밀도 그래프로는 KDE(kernel density estimate, 커널 밀도 추정) 그래프로도 잘 알려져 있고,
plot.density를 이용해서 밀도 그래프를 표준 KDE 형식으로 생성한다. 즉,


시본 라이브러리의 histplot 메서드를 이용하면
히스토그램이나 밀도 그래프를 한 번에 손쉽게 그리는 것도 가능하다.
예를 들어, 두 개의 서로 다른 표준정규분포로 이루어진 쌍봉 분포bimodal distribution를 생각해 보자.

comp1과 comp2 배열이 있고,
이 둘을 위아래로 합친 결과인 values라는 Series가 있다고 하자.
이 values를 갖고 히스토그램을 그려 보면,

이런 결과가 나온다.
이제 이 히스토그램에 KDE 그래프도 겹쳐서 그려보자.

옵션에서 kde = True라는 인수를 전달하면
히스토그램과 한 판에 KDE 그래프도 함께 나타난다.
KDE 그래프만 따로 그려서 보고 싶다면

sns.kdeplot 메서드를 써서 values를 넘기면 된다.

profile
기본기를 소홀히 하지 말자

0개의 댓글

관련 채용 정보