1. seaborn 의 tips 데이터셋
- seaborn 패키지에서 몇가지 예시 데이터셋을 기본적으로 내장하고있다. 그중 tips라는 데이터셋을 가져와서 데이터 정리 연습해보았다.

- 한 식당의 방문자를 정리한 데이터셋으로, 성별, 요일, 팁, 흡연자, 시간대, 총 가격 등을 컬럼으로 정리되어 있다.
2. seaborn 의 boxplot

- boxplot 이란, 전체적인 데이터가 분포되어진 정도를 나타내는 그래프로, 박스로 표현되며 전체적인 평균이 박스에 해당하고 그 외를 벗어난 값들은 박스 밖에 점으로 표현된다.
- x,y 에 들어갈 값을 지정할땐 tips["컬럼명"] 또는 x = '컬럼명', data = 데이터셋명 으로 할 수 있다.

- x 축을 요일로, y축을 총 값으로 박스플랏을 그리면 요일별로 총 요금에 대한 평균적인 값을 박스로 그리게 된다.

- x ,y 값을 지정하면서 hue(카테고리 데이터) 의 값을 smoker로 지정하면, 요일별로 나눠진 데이터에서 또 smoker 의 true / false 로 나누어진다. platte 인자는 테마를 표현한다. (set 1-3까지 있음)
3. seaborn 의 warmplot

- swarmplot() 은 점으로 값의 분포를 나타내며, boxplot 과 같이 x,y 값을 지정하고 테마는 color 인자로 표현한다.

- color 인자는 0-1 까지 값을 가지며 검정 ~ 흰색 으로 나타내진다.
4. boxplot + warmplot

- 두 개 겹쳐서 그릴수도 있다. 박스플랏을 통해 전체적으로 많이 분포된 값과 평균적인 값을 알 수 있고, 그 외에 다른 값들은 점으로 볼 수 있어 한눈에 전체적인 평균과 분포를 다 볼 수 있다.