스트립플롯(strip plot)은 데이터 포인트를 각 카테고리별로 나란히 표시하는 플롯이다.
이를 통해 데이터의 분포와 밀도를 시각적으로 확인할 수 있다.
주로 seaborn 라이브러리에서 제공하는 시각화 도구 중 하나이다.
(1) 데이터 분포 확인: 각 데이터 포인트를 개별적으로 표시하여 데이터의 분포와 밀도를 파악할 수 있다.
(2) 카테고리 비교: 서로 다른 카테고리 간의 분포 차이를 비교할 수 있다.
중요한 것은 주로 범주형 변수에 따라서 연속형 변수가 어떻게 분포되어 있는지 확인할 수 있다.
sns.stripplot(x = "day", y = "total_bill", data = df)

이 코드는 seaborn의 예제 데이터셋인 'tips'를 사용하여 요일별(day) 청구금액(total_bill)의 분포를 스트립플롯으로 그린 것이다.
각 데이터 포인트는 요일별로 나열되어 있으며, 청구 금액의 분포를 쉽게 파악할 수 있다.
분포의 범위: 각 요일별로 total_bill의 범위를 확인할 수 있다.
중첩 및 밀도: 데이터 포인트의 밀도가 높은 부분을 확인하여 특정 요일에 총 청구 금액이 집중되는지를 파악할 수 있다.
이상치 확인: 다른 데이터 포인트와 멀리 떨어져 있는 이상치를 확인할 수 있다.
(1) 요일별 total_bill 분포:
일요일(Sun): 대부분의 total_bill이 10에서 30 사이에 분포되어 있다. 몇몇 큰 청구 금액도 존재한다.
토요일(Sat): 다른 요일에 비해 분포가 넓으며, 10에서 40 사이에 밀집되어 있다.
목요일(Thur): 다른 요일에 비해 낮은 청구 금액이 많고, 총 청구 금액이 적은 경향이 있다.
금요일(Fri): 데이터 포인트 수가 적으며 대체로 10에서 20 사이에 분포되어 있다.
각 카테고리별 비교: 각 요일의 청구 금액 분포를 비교하여 특정 요일에 높은 청구 금액이 발생하는지를 파악할 수 있다.
밀도 분석: 데이터 포인트의 밀도를 확인하여 특정 요일에 고객이 많이 방문하는지를 추정할 수 있다. 그래프에서 토요일 일요일의 고객이 많은 것을 확인할 수 있다.
이상치 분석: 이상치를 식별하여 해당 이상치가 데이터 입력 오류인지 또는 특별한 이벤트에 의한 것인지 분석할 수 있다.