시각화와 그래프

Yzzang·2024년 3월 1일

데이터 시각화

시각화와 그래프

시각화의 장점

  1. 분석에 도움을 줌
    너무 동떨어진 이상점(outlier)을 보기 쉬움
  2. 리포팅에 도움을 줌

선그래프

주피터 노트북에서 선 그래프 쓰려면

%matplotlib inline

pandas의 plot 메소드에는 파라미터로 kind를 넘겨줘야함.
선그래프 그리고 싶으면 kind=line 써줘야 하지만 가장 기본이라 생략해도 됨.

막대그래프

df.plot(kind=‘bar’) 하면 막대그래프 그려짐

df.plot(kind=‘barh’)

df.plot(kind=‘bar’, stacked = True) 를 사용하면 스택처럼 수치가 쌓아 올려짐

df['Female'].plot(kind='bar') female대상 데이터 막대그래프로 뽑아내기

파이 그래프

df.loc[2017].plot(kind=‘pie’)

히스토그램

범위 묶어서 한 항목으로 셈

df.plot(kind='hist' , y='Height')

범위는 기본으로 10개 임, 15개로 설정하고 싶으면,

df.plot(kind='hist' , y='Height', bins=15 )

박스 플롯

총 5개의 통계 값으로 데이터 셋을 요약함

가운데는 박스(box)라 부르고, 위 아래 가로 선은 수염처럼 생겨서 위스커(whisker) 라고 부름
box&whisker plot이라고 하기도 함.
아래에 점은 이상점(outlier)이라고 함.

리스트로 값 받아오면 여러 박스 플롯 볼 수 있음

df.plot(kind='box', y=['math score', 'reading score', 'writing score'])

산점도(scatter plot)

만약 수학을 잘하는 친구가 읽기도 잘하는지 보고 싶으면, 산점도를 보면 됨.

df.plot(kind='scatter', x='math score', y='reading score')

df.plot(kind='scatter', x='math score', y='writing score')

profile
미래개발자

0개의 댓글