[Data Science](python) EDA (Exploratory Data Analysis)

berry ·2021년 9월 15일
0

Data Science

목록 보기
1/1
post-thumbnail

🧩 EDA (Exploratory Data Analysis)

1. 데이터 불러오기

1. 타입에 따라 데이터 불러오기

import pandas as pd

df = pd.read_csv('url')	
df = pd.read_excel('url')

2. 여러 파일 한번에 불러오기

urlhead = 'url'				 
df = pd.read_csv(urlhead + '1.csv') 

3. Transpose (column과 row 바꾸기)

df.T

4. header를 바꾸고 싶을 때

첫째줄을 header로 바꿀 때

new_header = df1.iloc[0] # first row 저장 
df1 = df1[1:] # first row를 제외한 데이터프레임으로 저장
df1.columns = new_header #저장했던 first row를 header로 지정

5. seaborn으로 데이터 불러오기

import seaborn as sns
 
df= sns.load_dataset('file')

2. 데이터 확인

1. 데이터 크기 확인(dimension)

df.shape

2. 데이터 결측치 확인

df.isnull()
df.isna()
df.notna()

3. 데이터 결측치 대치

df.fillna()

4. 한글 폰트 깨짐 현상 해결하기

!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

5. 한글이 있는 plot

import matplotlib.pyplot as plt

plt.rc('font', family='NanumBarunGothic')

df['column'].plot.bar()

6. csv, xlsx로 확장자 바꾸어 출력하기

df.to_csv('file',index= False)	인덱스 숨겨서 출력


profile
Engineer

0개의 댓글