Panel data
파이썬의 데이터 처리의 표준인 라이브러리
액셀과 같은 기능
import pandas as pd
df_data = pd.read_csv(data_url, sep = '\s', header = None) # csv 타입 데이터 로드, 구분자, column
df_data.columns = [ ] # column의 header 지정
df_data.head() # 처음 다섯줄, n = 으로 줄 지정 가능
from pandas import Series, DataFrame
DataFrame
: data table 전체를 포함하는 object
index와 column 모두 지정해야함(numpy array)
raw_data = {'one':[1,2,3,4,5], 'two':[2,4,6,8],'three':[3,6,9]} # column_name : data
pd.DataFrame(raw_data, columns = ['one','two','three']) # 기존에 없던 column 추가도 가능
# index location / index 이름
df.loc[1]
# index position / index number
df["age"].iloc[1:]
# column에 새로운 데이터 할당
df.debt = df.age > 20 # debt라는 columns에 새로운 값 추가
# tranpose
df.T
# 값 출력 (array type)
df.values
# csv 변환
df.to_csv()
Series
: DataFrame 중 하나의 column에 해당하는 데이터의 모음 object
Series(data = list_data, index = list_name, dtype=np.flout32, name="data_name")
# data와 index의 이름 지정, data type 설정, series 이름 설정
obj.values # 값 리스트만 가져옴
obj.index # index 리스트만 가져옴
column 삭제
del
: 메모리 주소를 삭제 del df["column_name"]
drop
: 기존 데이터 변화 x, 출력만 다름 df.drop("column_name", axis= 1)
describe()
: numeric 데이터의 요약 정보를 보여줌unique
: series data의 유일한 값을 리스트로 반환sum, sub, mean, min, max, count, median, mad, var
등 : column, row 별 연산 지원isnull
: null 값인지 sort_values
: column 기준 데이터 정렬correlation
covariance
: 상관계수, 공분산df.groupby("묶음의 기준이 되는 컬럼")["적용받는 컬럼"].sum() <- (적용받는 연산)
# 한 개 이상의 column도 가능
hierarchical index : 두 개의 column으로 groupby 했을 때 두 개의 index가 생성됨
unstack()
: group으로 묶어진 것을 matrix로 전환
stack()
: unstack 반대
reset_index()
: multi index를 하나로 풀어줌
sort_index(level= )
: index 기준으로 sort
groupby로 나눠진 상태를 저장
grouped = df.groupby("컬럼 이름")
aggregation
: 요약된 통계 정보 추출transformation
: 개별 데이터의 정보를 변환, lambda 활용filtration
: 특정 정보를 제거하여 보여주는 필터링
[부스트캠프 AI Tech] Week 1 - Day 3