Tidy Data

sy_healing·2022년 4월 15일
0

Pandas 기초 -Data

목록 보기
4/6

💡 Tidy Data

  • Tidy data란 한 마디로 깔끔한 데이터이다.
    데이터 분석을 하기 위해서는 반드시 tidy한 data가 필요하며, 이 단계에서 많은 시간이 소요된다.

✍️ Tidy Data의 조건

" 각 변수가 열이고 각 관측치가 행이 되도록 배열한 데이터이다"

  • 각 변수(Variable)가 열(Column)이 된다.
  • 각 관측점(Observation)은 행(row)이 된다.
  • 각 셀은 값(value)를 가진다.
  • 각 관측 단위에 대한 형태가 테이블을 구성한다.

📖 Python 예제

.melt()

: wide data를 tidy data로 변환해주는 메서드
.melt()공식문서

아래 Dataframe은 wide data이다. observation인 ' 종목명'이 column에 있기 때문.

# Dataframe는 df라는 변수에 주어진 상태

# tidy data로 변환하
df_tidy = df.melt(id_vars='종목명', value_vars=['매출액', '자본총계', 'EPS(원)'])
df_tidy = df_tidy.rename(columns = {'variable:'Feature'})    # column 이름 변경

def toint(a):              # str인 value를 int 로 변환시켜주는 함수
	a = int(a.replace(',',' ')
    return a
    
df_tidy['vlaue'] = df_tidy['value'].apply(toint)     # value columns에 toint 함수 적용
df_tidy

.pivot_table()

: .melt()와 반대되는 개념으로 tidy data를 wide data로 변환해주는 메서드

0개의 댓글