Uni-Graphic
Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용합니다.
만약 값들이 너무 다양하다면 Binning, Tabulation등을 활용
Uni-Nongraphic
Sample Data의 Distribution을 확인하는 것이 주목적
Numeric data의 경우 summary statistics를 제일 많이 활용
Center (Mean, Median, Mod), Spread (Variance, SD, IQR, Range), Modality (Peak), Shape (Tail, Skewness, Kurtosis), Outliers 등을 확인
Categorical data의 경우 occurence, frequency, tabulation 확인
Multi-Graphic
Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap
Numeric & Numeric : Scatter Plot
Multi-Nongraphic
Relationship을 보는 것이 주된 목표이며
Cross-Tabulation
Cross-Statistics (Correlation, Covariance)
등을 사용합니다.
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
로 폰트를 받는다.
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
으로 글꼴을 설정
noise를 제거하거나, inconsistency를 보정하는 과정
값이 빠져있거나(결측치), 잘못 입력되었거나 일관성을 가지지않는 데이터들을 제거/보정
+ 벨로그 처음 작성이라 너무 어렵다... 시간도 오래 걸리고 @.@ 다음부턴 핵심만 적는 방향으로 가야할듯