pandas 라이브러리 활용

Daum·2021년 5월 18일
0

Big Data

목록 보기
7/7
post-thumbnail

📎 pandas-docs
📎 10 minutes to pandas
📎 Top_25_pandas_tricks 코드

pandas 라이브러리는 Python 프로그래밍 언어를 기반으로 구축된 빠르고, 사용하기 쉬운 소프트웨어 라이브러리이며, 데이터 분석과 관련된 다양한 기능을 제공한다.

1. 데이터셋 불러오기 및 확인

import pandas as pd
import numpy as ns

df = pd.read_csv('서울시 코로나19 확진자 현황.csv', encoding='utf-8') #read_csv: txt,csv 파일 읽기
df.head() #상위 n개의 항목을 출력

df = ns.transpose(df) #행과 열 위치 바꾸기

df.columns = df.iloc[0] #첫번째 row를 column name으로 설정
df = df[1:]

df.isnull() #결측치 확인(유사한 코드: isna, notna, notnull)
df.isnull().sum() #결측치 수 확인
df = df.fillna(0) #결측치 0으로 대체
df = df.dropna() #결측치 행 삭제

x.loc[:,'열 배열'] #2차원 배열 DataFrame 열조회

df.to_csv('df.csv', mode='w') #csv 파일로 내보내기
df_csv = pd.read_csv('df.csv')
🔎 자세히보기
[loc vs iloc]
loc : Access a group of rows and columns by label(s) or a boolean array(묵시적 인덱스)
ex) x.loc['b':'d']
iloc : Purely integer-location based indexing for selection by position(명시적 인덱스)
ex) x.iloc[1:4]

2. EDA

import seaborn as sns

df = sns.load_dataset('penguins')
df = df[['species','sex']] #column 중 species, sex 변수로만 데이터셋 구성
pd.crosstab(df['species'], df['sex']) #Cross-tabulation
df.dtypes #데이터 프레임의 데이터 타입 확인
df.shape #데이터 프레임의 dimension 확인

3. Feature Engineering

#string to int
def toInt(String):
  return int(string.replace('-', ''))
df['확진일'] = df['확진일'].apply(toInt) #함수호출

4. Data Manipulation

#df1과 df2 합치기
df = pd.concat([df1, df2], axis = 1) # axis = 0: 위아래로 합치기, 1: 좌우로 합치기
df = df1.merge(df2, how = 'left')

5. 시각화 라이브러리

import matplotlib.pyplot as plt

df.plot.bar(); #마지막에 ';'를 붙이면, <matplotlib.axes.~~ 내용 제거
plt.show()

#한글깨짐현상 해결방법
!sudo apt-get install -y fonts-nanum #나눔폰트 설치
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf


import matplotlib.pyplot as plt 
plt.rc('font', family='NanumBarunGothic') #matplotlib의 폰트를 Nanum 폰트로 지정
plt.rc('axes', unicode_minus=False)

%config InlineBackend.figure_format='retina' #matplotlib 화질 설정

0개의 댓글