📕Pandas Study

강기환·2022년 12월 13일

Pandas 는 Numpy 기반에서 개발되어 다차원의 데이터를 빠르게 처리한다.
한마디로 코딩해서 쓰는 엑셀 프로그램이라고 표현할 수 있다.

1. 판다스 특징

빠르고 효율적이며 다양한 표현력을 갖춘 자료구조.
실세계 데이터 분석을 위해 만들어진 파이썬 패키지
다양한 형태의 데이터에 적합
이종 자료형의 열을 가진 테이블 데이터
시계열 데이터
레이블을 가진 다양한 행렬 데이터
다양한 관측 통계 데이터
핵심구조
시리즈: 1차원 구조를 가진 하나의 열
데이터프레임 : 복수의 열을 가진 2차원 데이터
판다스가 잘 하는 일
결측 데이터 처리
데이터 추가 삭제(새로운 열의 추가, 특정 열의 삭제 등)
데이터 정렬과 다양한 데이터 조작

2. Series 자료구조 (데이터 객체)

import pandas as pd
import numpy as np

# 하나의 열의 구조, 자동으로 색인 생성
pd.Series(data)

# index 정보
data.index

3. DataFrame 생성

dic = {'이름':['김수안','김수정','박동윤'], '나이':[19,23,22]}
data = pd.DataFrame(dic)

data1 = [['김수안',19],['김지안',20]]
data = pd.DataFrame(data1,columns=['이름','나이'])
data = pd.DataFrame(data1, index=['원','투'],columns=['이름','나이'])

4. Data 출력

# 컬럼 출력
data.columns

# 정보 출력
data.info()

# 행,열의 값을 이용하여 출력
data.loc[[인덱스,인덱스],['컬럼','컬럼']]

# 행,열 위치 값을 이용하여 출력
data.iloc[:,0:1]

# unique 값 출력
data['컬럼'].unique()

np.unique(data['컬럼'],return_counts=True)

5. Data 삭제

data.drop([인덱스,인덱스])
data.drop(['컬럼','컬럼'])
data.drop(['컬럼','컬럼'],axis=1)
data.drop(['컬럼','컬럼'],axis=1,inplace=True) # 데이터에 실제 적용

6. 결측 값

# 결측 값 출력
data.isna()
data.isnull()

# 하나라도 NaN 값이 있다면 True
data.isna().any()

# NaN 값 제거
data.dropna(axis=0)
data.dropna(axis=1)
data.dropna(axis=1,how = 'any')
data.dropna(axis=1,how = 'all')

# NaN 값 채우기
data.fillna(value=0,method='backfill') # ffill

7. 연산

# data 합
data.sum()
#cov/corr

# 통계
data.describe()

# 정렬
data.sort_values(by=[],axis=1,ascending=False,ignore_index=True)

# 비교연산
data['컬럼'] >= 100
data[data1&data2]

8. 파일 입출력

pd.read_table(path,sep='\t')
pd.read_csv(path,sep=',')

data.to_csv(path)

9. merge

# 조인
pd.merge(a,b,on='컬럼',how='inner')
a.merge(b,on='컬럼',how='inner')

# key 지정
pd.merge(a,b,left_on='lkey',right_on='rkey',how='inner',suffixes=['_left','_right'])

pd.merge(a,b,on='key',how='inner') # left,right,outer

pd.merge(a,b,left_index=True,right_index=True,how='outer')

# Numpy 병합
np.concatenate((a,b),axis=1)

# Pandas 붙이기
pd.concat([a,b],axis=0)

pd.concat([a,b],axis=1,'inner',ignore_index=False)

# 중복 찾기
data.duplicated(keep='last') # 마지막 남겨둠
data.duplicated(keep=False)

# 컬럼 지정 중복 찾기
data.duplicated(subset=['컬럼'])

# 중복 제거
data.drop_duplicates(keep='first')

# 중복 전부 제거
data.drop_duplicates(keep=False)

10. Groupby

# 가변수
pd.get_dummies(data)

pd.get_dummies(df['컬럼1'],prefix='컬럼2)

# 그룹짓기
data.groupby('컬럼')
data.groupby(['컬럼','컬럼'])

# 멀티 인덱스
data.xs(key=100,level='컬럼')