[데이터 전처리] 시각화 - 파이 차트

Bpius·2023년 10월 3일
0

데이터 EDA & 전처리

목록 보기
8/46
post-thumbnail

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다.
대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다.

jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로 출력하여 확인할 수 있다.
아래와 같이 모듈을 불러와 셀에 직접 그릴 수 있도록 설정하고 plt란 키워드로 모듈을 사용하도록 한다.

import matplotlib.pyplot as plt
%matplotlib inline

matplotlib은 기본적으로 한글을 지원하지 않는다.
그래서 아래와 같이 직접 폰트 및 여러 옵션들을 설정할 수 있다.

rcParams['font.family']:폰트이름
rcParams['font.size']:폰트 크기
rcParams['figure.figsize']:(x, y)

기본 설정으로 폰트 이름과 글씨 크기, 그래프 크기 등을 조절 하거나 그래프를 그릴 때 마다 상황에 맞춰 그래프의 크기를 조절할 수 있다.

특정 폰트를 사용하는 것이 아니라 기본 한글만 출력이 되는 것으로 충분하다면 아래와 같이 koreanize_matplotlib 다운하여 import 모듈을 불러와 사용하면 별도의 입력 없이 matplotlib.pyplot 안에서 한글 출력도 간단히 쓸 수 있다.

!pip install koreanize_matplotlib

import koreanize_matplotlib

이제 파이 차트를 그려보자.
파이 차트를 그릴 때 입력 인자는 다음과 같다.

  • x: 각 파이 부분 크기
  • labels: 각 파이의 라벨(리스트 형식으로 입력)
  • labeldistance: 라벨 간 거리
  • startangle: 첫 파이가 그려지는 각도
  • autopct: 글자 형태(%로 앞뒤로 감싸고 안에 입력 값을 대입)
  • colors: 색상(리스트 형식으로 입력)
  • explode: 각 파이의 중앙으로부터 떨어진 정도(리스트 형식으로 입력)
  • shadow: 각 파이 차트에 그림자 넣기(default=False)

입력들은 리스트 형식으로 입력을 하는데 순서가 맞아야 한다. 그래서 데이터 프레임으로 넣으면 크기가 맞게 들어간다.
일자별/제품별 판매 수량 데이터를 불러와서 파이 차트를 그려보자.

판매 수량이 높은 순서대로 나열하여 1, 2번째 높은 것과 3번째부터 마지막까지는 기타로 두고 비교해보자.
먼저 제품별로 판매 수량을 groupby를 사용하여 확인하고 판매량 1위와 2위만 빼고 나머지의 수량을 만든다. 그리고 1위와 2위 그리고 기타의 데이터를 합친 후
파이 차트로 나타내보자.

profile
데이터 굽는 타자기

0개의 댓글