데이터 전처리를 위한 라이브러리

import numpy as np
import pandas as pd

시각화를 위한 라이브러리

import matplotlib.pyplot as plt
import seaborn as sns

스타일 지정

sns.set(style='whitegrid')

내장 데이터세트 불러오기

iris=sns.load_dataset('iris')

Dataset을 불러오는 방법

  • sns.load_iris()
  • sns.load_dataset('iris'):
    sns.load_dataset('iris')는 Seaborn 라이브러리가 아닌, Pandas 라이브러리에서 제공하는 read_csv() 함수를 이용하여 'iris' 데이터셋을 로드합니다. Seaborn 라이브러리는 내부적으로 이 함수를 사용하여 'iris' 데이터셋을 불러옵니다. 이 함수를 사용하면 데이터를 Pandas DataFrame으로 직접 로드할 수 있습니다. 일반적으로 데이터를 분석하고 시각화하는 데에는 Pandas DataFrame이 더 유용하고 편리하므로, sns.load_dataset('iris')를 더 많이 사용하는 편입니다.

산점도 그래프 만들기

sepal_length(꽃받침 길이)와 sepal_width(꽃받침 너비) 사이의 관계 : x,y

sns.relplot(x='sepal_length', y='sepal_width', data=iris)

relplot()

  • x, y: x와 y는 각각 x축과 y축에 해당하는 데이터 열(column)을 지정합니다. 이 두 열은 숫자형 데이터여야 하며, 데이터의 관계를 시각화하는데 사용됩니다.
  • data: data는 그래프를 그릴 데이터 프레임을 지정합니다. 일반적으로 pandas의 DataFrame이나 NumPy의 배열을 사용합니다.
  • hue: hue는 데이터를 색상으로 구분할 때 사용하는 열(column)을 지정합니다. 이를 통해 데이터의 특정 카테고리에 따라 색상을 다르게 할 수 있습니다. 예를 들어, 꽃의 종류별로 다른 색상을 지정하여 데이터를 구분하는데 사용할 수 있습니다.
  • style: style은 데이터를 서로 다른 스타일로 구분할 때 사용하는 열(column)을 지정합니다. 각 스타일은 다른 마커(marker) 모양으로 표현됩니다. 예를 들어, 꽃의 종류별로 다른 마커 모양을 지정하여 데이터를 구분하는데 사용할 수 있습니다.
  • size: size는 데이터 포인트의 크기를 조절하는 열(column)을 지정합니다. 각 데이터 포인트의 크기가 다를 수 있도록 설정할 수 있습니다.
  • col: col은 데이터를 서로 다른 서브플롯(subplot)에 나누어 표시할 때 사용하는 열(column)을 지정합니다. 지정된 열의 고유한 값에 따라 서로 다른 서브플롯에 데이터를 그립니다.
  • row: row도 col과 비슷하게 동작하지만, 서로 다른 행(row)에 서브플롯을 그리게 합니다.
  • kind: kind는 그래프의 종류를 지정하는 인자로, 'scatter', 'line', 'relplot' 등이 가능합니다. 'scatter'는 산점도를 그리고, 'line'은 선 그래프를 그리며, 'relplot'은 서로 다른 기능을 가진 Figure-level 함수를 사용할 때 사용됩니다.
  • 기타: seaborn.relplot() 함수에는 col_wrap, palette, markers, ci, dashes 등 다양한 인자들이 있습니다. 이들은 그래프의 모양이나 스타일, 신뢰 구간 등을 조절하는데 사용됩니다.

species(꽃의 종류)에 따라 색상과 스타일을 다르게 표현: hue, style

sns.relplot(x='sepal_length', y='sepal_width', hue='species', style='species', data=iris, kind='scatter', markers=True)

사이즈(size)로 표현하기

  • size: 크기별로 분류
  • sizes: 크기의 범위
sns.relplot(x='sepal_length', y='sepal_width', size='species', sizes=(10,300) data=iris, kind='scatter') 

여러 개의 그래프로 나눠보기

sns.relplot(x='sepal_length', y='sepal_width', hue='species', col='species', data=iris, kind='scatter')
profile
데이터 어린이의 아둥바둥 메모장

0개의 댓글