[데이터 전처리] 데이터 파편화 - 통합(날짜 포멧이 다른 경우)

Bpius·2023년 10월 15일
0

데이터 EDA & 전처리

목록 보기
26/46
post-thumbnail

데이터가 나누어 저장된 경우

  • 지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.
  • 데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.
    ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어 있음)

key 변수의 날짜 포맷이 다른 경우

Series.apply()

  • Series에 있는 모든 요소에 func을 일괄 적용하는 함수
  • for문에 비해 매우 빠르고 효율적으로 동작

타입이 다른 두 데이터를 보고 통합해보자.

apply()함수를 사용하여 두 데이터 타입을 일치시키자.

#df1의 날짜 타입을 df2의 날짜 타입으로 변경하는 함수 작성 및 적용
def date_type_converter(value):
    YYYY, MM, DD = value.split('-')
    return YYYY + "년 " + str(int(MM)) + "월 " + str(int(DD)) + "일" # 숫자 앞에 '0'을 없애기 위해 int(mm)사용하여 0을 때내고 str(int(mm))하여 다시 string화.

df1['날짜'] = df1['날짜'].apply(date_type_converter)

일치 시킨 후 통합.

profile
데이터 굽는 타자기

0개의 댓글