연습문제 풀이
데이터 시각화 연습문제 (2) - seaborn + 서브플롯.ipynb
- 사용자로부터 날짜를 입력
input 데이터는 문자열
yyyymmdd 형식으로 변경 : 스랄이싱 또는 timedelta를 활용해 datetime 객체를 사용(strptime, strftime)
이후 정렬을 하지 않으면 그래프를 그릴 때 역순으로 출력되기 때문에 정렬 함수를 사용해 데이터를 처리
서울시 기준일을 index로 할 경우 하나의 그래프면 상관 없지만 여러 그래프를 출력할 경우 x축이 틀어짐.
그래서 x축을 생성해서 그래프를 출력해야함(x축 레이블 만들기)
- 그래프 2행 1열 twinx(총 4개의 그래프)
진도-seaborn 다변량 데이터 시각화(다변량 데이터 분석-다변수 분석)
seaborn을 사용해 자체적으로 filter, groupby, count로 전처리된 데이터를 사용해 시각화 등 작업을 진행 할 수 있다
- statsmodels 패키지 설치 필요
statsmodels는 상관분석, 회귀분석 등 추론통계의 기능을 제공하는 패키지
- 카테고리 데이터는 합계가 아닌 빈도를 확인하는 데이터(범주형 데이터라서 category 형태로 변경-
seaborn으로 filter, groupby, count로 전처리된 데이터를 사용해 시각화 등 작업을 진행할 수 있는 만큼 필수는 아님)
seaborn 막대그래프
06-seaborn_막대그래프.ipynb
estimator를 사용해 추출할 데이터(합, 평균 등)을 설정
seaborn은 반드시 범주형 데이터를 걸어줘야 함
catplot(빈도)
07-seaborn_빈도그래프.ipynb
catplot 막대 그래프의 x축은 집단을 의미(막대 그래프에서는 범주를 정해주는 것이 중요)
- hue를 사용해 데이터 구분 기준을 정의 할 수 있다
- 그래프의 크기가
rcParams 속성의 영향을 받지 않음
- x 또는 y
집단을 구분하는 기준
- edgecolor
막대 테두리 색상 투명도
hue
데이터 구분 기준을 정의 가능
kind
그래프 형태에 관여
"strip", "swarm", "box", "violin", "boxen", "point", "bar" 또는 "count"
그래프의 종류, 범주형 축 수준 플로팅 함수의 이름
countplot
08-seaborn_빈도그래프2
countplot은 catplot이 count로 고정
좌표는 0부터 시작