[python] pandas dataframe관련 함수(parse_dates, resample, drop_duplicate, select_dtypes)

김민석·2022년 6월 26일

빅데이터분석기사 실기 준비를 하며 새롭게 배운 기능에 대한 정리 입니다. (언어 - Python)

pandas.read_csv

  • parse_dates : 불러오는 데이터에서 바로 datetime처리를 할 수 있다.
  • 예시
df = pd.read_csv('path/basic2.csv', parse_dates = ['Date'], index_col = ['Date'])
  • 위와 같은 코드를 수행하면 ['Date']를 datetime으로 불러오고, 인덱스로 처리한다.

pandas.resample()

  • datetime 인덱스를 원하는 주기로 나누어줍니다.
  • df.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None)
  • rule 은 원하는 주기 ('W' : 1 주 단위, '2W' : 2주 단위, 'M' : 달 단위 ..)

pandas.drop_duplicates(subset = [''])

  • 중복되는 행을 삭제해준다
  • subset 으로 기준열 정하고, 중복되는 것 중 뒤에 행이 삭제

DataFrame.select_dtypes(include=None, exclude=None)

  • 열 dtype을 기반으로 DataFrame 열의 하위 집합을 반환합니다.
  • 예제에서는 object외 컬럼 반환위해 X_train.select_dtypes(exclude = 'object') 사용
profile
데이터 사이언스를 공부하는 커피쟁이

0개의 댓글