- Tidy data란 한 마디로 깔끔한 데이터이다.
데이터 분석을 하기 위해서는 반드시 tidy한 data가 필요하며, 이 단계에서 많은 시간이 소요된다.
" 각 변수가 열이고 각 관측치가 행이 되도록 배열한 데이터이다"
- 각 변수(Variable)가 열(Column)이 된다.
- 각 관측점(Observation)은 행(row)이 된다.
- 각 셀은 값(value)를 가진다.
- 각 관측 단위에 대한 형태가 테이블을 구성한다.
: wide data를 tidy data로 변환해주는 메서드
.melt()공식문서
아래 Dataframe은 wide data이다. observation인 ' 종목명'이 column에 있기 때문.
# Dataframe는 df라는 변수에 주어진 상태
# tidy data로 변환하
df_tidy = df.melt(id_vars='종목명', value_vars=['매출액', '자본총계', 'EPS(원)'])
df_tidy = df_tidy.rename(columns = {'variable:'Feature'}) # column 이름 변경
def toint(a): # str인 value를 int 로 변환시켜주는 함수
a = int(a.replace(',',' ')
return a
df_tidy['vlaue'] = df_tidy['value'].apply(toint) # value columns에 toint 함수 적용
df_tidy
: .melt()와 반대되는 개념으로 tidy data를 wide data로 변환해주는 메서드