시각화 라이브러리 : Pandas, Matplotlib, Seaborn 등
라이브러리 설치 명령어
> pip install matplotlib
> pip install seaborn
설치된 라이브러리 확인 명령어
> pip list | grep matplotlib
> pip list | grep seaborn
%matplotlib inline: IPython에서 사용하는 매직 메소드이자 Rich output에 대한 표현 방식이다.
fig = plt.figure()
만 입력하면 객체만 생성되고 그림으로 나타나지 않음fig = plt.figure(figsize = (5,2))
: figsize parameter로 그래프의 사이즈를 정할 수 있음ax1 = fig.add_subplot(1,1,2) # nrows, ncols, index
Pandas의 Series는 선 그래프를 그리기에 최적의 자료구조, 자체적인 선 그래프 그리기 기능을 제공한다.
price = data['Close']
가 바로 Pandas의 Seriesprice.plot(ax=ax, style='black')
: Pandas의 plot을 사용하면서, matplotlib에서 정의한 subplot 공간 ax를 사용plt.xlim()
, plt.ylim()
: x, y 좌표축의 적당한 범위를 설정annotate()
: 그래프 안에 추가적으로 글자나 화살표 등 주석을 그림grid()
: 그리드(격자눈금)를 추가plt.plot()
로 그래프 그리기
figure()
: 객체 생성
add_subplot()
: 서브 플롯 생성 & plot 그리기
=> 한번에 plt.plot()로 그래프를 그리면 matplotlib은 가장 최근의 figure객체와 그 서브플롯을 그립니다.
plt.plot()
의 인자로 x데이터, y데이터, 마커옵션, 색상 등의 인자를 이용
plt.subplot(행, 열, 그래프 위치)
: 서브 플롯 추가하기
* plt.xlabel
, plt.ylabel
: 그래프의 X, Y축에 대한 레이블을 표시
pandas.plot() 메소드 인자
grid
: 축의 그리드 표시할 지 여부pandas의 data가 DataFrame 일 때 plot 메서드 인자
📌 막대그래프(bar graph), 꺾은선 그래프(line graph), 산점도(scatter plot), 히스토그램(histogram)
데이터 불러오기
load_dataset()
메소드를 이용하면 API를 통해 손쉽게 유명한 예제 데이터를 다운로드 받을 수 있다.데이터 살펴보기(EDA)
.head()
, .shape()
, .describe()
, .info()
.value_couts()
: 카테고리별 응답 갯수groupby()
정규뷴포(가우시안)
KDE(Kernel Density Estimate) 커널 밀도 추정 : https://darkpgmr.tistory.com/147#:~:text=Kernel%20Density%20Estimation%20(%EC%BB%A4%EB%84%90%20%EB%B0%80%EB%8F%84%20%EC%B6%94%EC%A0%95)%20%EB%B0%A9%EB%B2%95%EC%9D%80%20non%2D,%EC%9D%84%20%EA%B0%9C%EC%84%A0%ED%95%9C%20%EB%B0%A9%EB%B2%95%EC%9D%B4%EB%8B%A4.