[TIL] EDA

키키·2021년 9월 9일
0

TIL

목록 보기
2/19
post-thumbnail

💗오늘 배운 것들

엑셀 파일 sheet 별로 읽기

  1. 엑셀파일 로드
    xls = pd.ExcelFile('file_name_or_fath')
  2. sheet name 확인하기
    ❗ 이름으로 불러와야 하는데 띄어쓰기 있을 수 있음
    xls.sheet_names 요걸로 확인
  3. sheet 별로 dataframe에 저장
df1 = pd.read_excel(xls, 'sheet_name1') 
df2 = pd.read_excel(xls, 'sheet_name2')

코랩 한글 폰트 깨짐 현상

  1. 나눔고딕 설치
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
  1. 런타임 재시작
  2. matplotlib 의 폰트 Nanum 폰트로 지정
import matplotlib.pyplot as plt

plt.rc('font', family='NanumBarunGothic') 

경고메세지 삭제

import warnings
warnings.filterwarnings("ignore")

시각화

Q-Q plot 만들기

import statsmodels.api as sm

예를 들어 Series 라면? array로 변환하는 것이 중요
data= np.array(df['column'])
이렇게 array로 바꿔주고

fig = sm.qqplot(data)
plt.show()

📎How to interpret a QQ plot

cross-tabulation

크로스 집계합 테이블 만듬
import seaborn as sns

table = pd.crosstab(df['column1'], df['column2'])

카테고리 박스플롯

import seaborn as sns
sns.catplot(data=df, x='종류', y='표시할려는 값', kind = 'box')

여기서 종류는 .unique()로 확인할 수 있음

0개의 댓글