[데이터 전처리] 시각화 - 산점도 그래프

Bpius·2023년 10월 3일
0

데이터 EDA & 전처리

목록 보기
6/46
post-thumbnail

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다.
대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다.

jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로 출력하여 확인할 수 있다.
아래와 같이 모듈을 불러와 셀에 직접 그릴 수 있도록 설정하고 plt란 키워드로 모듈을 사용하도록 한다.

import matplotlib.pyplot as plt
%matplotlib inline

matplotlib은 기본적으로 한글을 지원하지 않는다.
그래서 아래와 같이 직접 폰트 및 여러 옵션들을 설정할 수 있다.

rcParams['font.family']:폰트이름
rcParams['font.size']:폰트 크기
rcParams['figure.figsize']:(x, y)

기본 설정으로 폰트 이름과 글씨 크기, 그래프 크기 등을 조절 하거나 그래프를 그릴 때 마다 상황에 맞춰 그래프의 크기를 조절할 수 있다.

특정 폰트를 사용하는 것이 아니라 기본 한글만 출력이 되는 것으로 충분하다면 아래와 같이 koreanize_matplotlib 다운하여 사용하면 matplotlib.pyplot 안에서 한글 출력도 간단히 쓸 수 있다.

!pip install koreanize_matplotlib

import koreanize_matplotlib

이제 산점도 그래프를 그려보자.
판매 실적에 관한 데이터다.

분기별로 대리점당 판매 수량을 확인해서 산점도 그래프를 나타내 보자.
산점도 그래프의 주요 인자는 다음과 같다.
plt.scatter(x[i], y[i], s, marker, color, label)에서 x, y는 축에 들어갈 정보인데 x, y는 iterator(반복)가능한 정보이면서 동시에 둘 다 x, y축에 대응되기에 길이가 같아야 한다. 그리고 's'는 점이 찍히는 크기, marker는 찍힐 점의 모양, color은 점의 색상, label은 범례이다.
plt.xticks는 눈금의 범위를 어떻게 나타낼 것인지 지정한다. 그래서 '축'.ticks(범위, 범위 이름)으로 지정하면 된다. xticks은 분기로 잡을 것이고 분기별 대리점의 판매 수량이 찍힐 것이다.

행에는 분기를 컬럼에는 대리점을 놓고 value는 분기별 판매 합계 수량을 pivot_table로 생성하여 한 눈에 보자.
그리고 특정 대리점의 판매 수량을 확인해 보자.

profile
데이터 굽는 타자기

0개의 댓글