빅데이터분석기사 실기 준비를 하며 새롭게 배운 기능에 대한 정리 입니다. (언어 - Python)
pandas.read_csv
- parse_dates : 불러오는 데이터에서 바로 datetime처리를 할 수 있다.
- 예시
df = pd.read_csv('path/basic2.csv', parse_dates = ['Date'], index_col = ['Date'])
- 위와 같은 코드를 수행하면 ['Date']를 datetime으로 불러오고, 인덱스로 처리한다.
pandas.resample()
- datetime 인덱스를 원하는 주기로 나누어줍니다.
- df.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None)
- rule 은 원하는 주기 ('W' : 1 주 단위, '2W' : 2주 단위, 'M' : 달 단위 ..)
pandas.drop_duplicates(subset = [''])
- 중복되는 행을 삭제해준다
- subset 으로 기준열 정하고, 중복되는 것 중 뒤에 행이 삭제
DataFrame.select_dtypes(include=None, exclude=None)
- 열 dtype을 기반으로 DataFrame 열의 하위 집합을 반환합니다.
- 예제에서는 object외 컬럼 반환위해 X_train.select_dtypes(exclude = 'object') 사용