[Python] stripplot, 스트립 플롯 /

김대현·2024년 7월 16일

스트립플롯(strip plot)은 데이터 포인트를 각 카테고리별로 나란히 표시하는 플롯이다.

이를 통해 데이터의 분포와 밀도를 시각적으로 확인할 수 있다.
주로 seaborn 라이브러리에서 제공하는 시각화 도구 중 하나이다.


스트립플롯의 주요 특징:

(1) 데이터 분포 확인: 각 데이터 포인트를 개별적으로 표시하여 데이터의 분포와 밀도를 파악할 수 있다.

(2) 카테고리 비교: 서로 다른 카테고리 간의 분포 차이를 비교할 수 있다.
중요한 것은 주로 범주형 변수에 따라서 연속형 변수가 어떻게 분포되어 있는지 확인할 수 있다.



스트립 플롯 그래프 예제 및 해석 방법:

sns.stripplot(x = "day", y = "total_bill", data = df)

이 코드는 seaborn의 예제 데이터셋인 'tips'를 사용하여 요일별(day) 청구금액(total_bill)의 분포를 스트립플롯으로 그린 것이다.
각 데이터 포인트는 요일별로 나열되어 있으며, 청구 금액의 분포를 쉽게 파악할 수 있다.

분포의 범위: 각 요일별로 total_bill의 범위를 확인할 수 있다.
중첩 및 밀도: 데이터 포인트의 밀도가 높은 부분을 확인하여 특정 요일에 총 청구 금액이 집중되는지를 파악할 수 있다.
이상치 확인: 다른 데이터 포인트와 멀리 떨어져 있는 이상치를 확인할 수 있다.

그래프 해석:

(1) 요일별 total_bill 분포:

  • 일요일(Sun): 대부분의 total_bill이 10에서 30 사이에 분포되어 있다. 몇몇 큰 청구 금액도 존재한다.

  • 토요일(Sat): 다른 요일에 비해 분포가 넓으며, 10에서 40 사이에 밀집되어 있다.

  • 목요일(Thur): 다른 요일에 비해 낮은 청구 금액이 많고, 총 청구 금액이 적은 경향이 있다.

  • 금요일(Fri): 데이터 포인트 수가 적으며 대체로 10에서 20 사이에 분포되어 있다.


데이터 분석가로서 스트립플롯 그래프에서 중점적으로 봐야 할 항목:

  • 각 카테고리별 비교: 각 요일의 청구 금액 분포를 비교하여 특정 요일에 높은 청구 금액이 발생하는지를 파악할 수 있다.

  • 밀도 분석: 데이터 포인트의 밀도를 확인하여 특정 요일에 고객이 많이 방문하는지를 추정할 수 있다. 그래프에서 토요일 일요일의 고객이 많은 것을 확인할 수 있다.

  • 이상치 분석: 이상치를 식별하여 해당 이상치가 데이터 입력 오류인지 또는 특별한 이벤트에 의한 것인지 분석할 수 있다.

profile
데이터 분석 스쿨 블로그 입니다.

0개의 댓글