[Python] time series

JONGYOON JEON·2024년 2월 22일

python

Python

목록 보기

4/7

파이썬에서 이해하는 datetime으로 변경

df.Yr_Mo_Dy = pd.to_datetime(df.Yr_Mo_Dy)
Ans = df.Yr_Mo_Dy

Q66. Yr_Mo_Dy에 존재하는 년도의 유일값을 모두 출력하라

Ans = df.Yr_Mo_Dy.dt.year.unique()

Q67. Yr_Mo_Dy에 년도가 2061년 이상의 경우에는 모두 잘못된 데이터이다. 해당경우의 값은 100을 빼서 새롭게 날짜를 Yr_Mo_Dy 컬럼에 정의하라

def fix_century(x):
    import datetime

    year = x.year - 100 if x.year >= 2061 else x.year
    return pd.to_datetime(datetime.date(year, x.month, x.day))
    # x.year만 변경되고 나머지 month day는 기존 값을 리턴해준다)

df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(fix_century)

datetime.date에 대하여

datetime.date(year, x.month, x.day)는 Python의 내장 모듈인 datetime을 사용해서 특정 날짜를 나타내는 객체를 생성하는 코드입니다. datetime.date() 함수는 입력된 년, 월, 일 정보를 바탕으로 날짜를 나타내는 date 객체를 반환하는데, 이 객체는 연, 월, 일 등 날짜 관련 정보를 속성으로 가집니다.
그런 다음 pd.to_datetime() 함수는 이 date 객체를 pandas의 Timestamp 객체로 변환합니다. Timestamp 객체는 시간 관련 다양한 연산을 수행할 수 있게 해주는 pandas의 자료형입니다. 이를 통해 시계열 데이터를 다루기가 더 용이해집니다.

그러니까, 파이썬에서 해당 '문자'를 '날짜'데이터라고 인식할 수 있도록 datetime.date를 쓰고
pandas에서 timestamp로 연산 사용할 수 있도록 to_datetime()을 쓴다는거지

df.Yr_Mo_Dy.dt.year.unique()

dt는 pandas의 Series 객체에서 날짜와 시간에 관련된 속성들을 접근하거나 함수를 사용할 수 있게 해주는 접근자(Accessor)입니다.
따라서 df.Yr_Mo_Dy.dt.year는 Yr_Mo_Dy 열에 있는 각각의 날짜 값에서 년도 부분을 추출해내는 코드입니다.

Q69. weekday컬럼을 만들고 요일별로 매핑하라 ( 월요일: 0 ~ 일요일 :6)

df['weekday'] = df.Yr_Mo_Dy.dt.weekday # 월~일 0~6으로 만들어줌

Ans = df['weekday'].head(3).to_frame()

Q70. weekday컬럼을 기준으로 주말이면 1 평일이면 0의 값을 가지는 WeekCheck 컬럼을 만들어라

df['weekcheck'] = df['weekday'].map(lambda x : 1 if x in [5,6] else 0)

Q71. 년도, 일자 상관없이 모든 컬럼의 각 달의 평균을 구하여라

ans = df.groupby(df.Yr_Mo_Dy.dt.month).mean(numeric_only=True)

Q72. 모든 결측치는 컬럼기준 직전의 값으로 대체하고 첫번째 행에 결측치가 있을경우 뒤에있는 값으로 대체하라

df = df.fillna(method='ffill').fillna(method='bfill')
df.isnull().sum()

두개 함수를 혼합해서도 사용가능. 맨 첫번째 행은 ffill이 불가하기 때문 bfill 함수를 붙여줌

Q73. 년도 - 월을 기준으로 모든 컬럼의 평균값을 구하여라

Ans = df.groupby(df.Yr_Mo_Dy.dt.to_period('M')).mean(numeric_only=True)

dt.month 를 쓰면 위처럼 년도가 고려되지 않는 월만 나오기 때문에
to_period('M')을 사용

Q75. RPT와 VAL의 컬럼을 일주일 간격으로 각각 이동평균한값을 구하여라

Ans= df[['RPT','VAL']].rolling(7).mean()

Q76. 년-월-일:시 컬럼을 pandas에서 인식할 수 있는 datetime 형태로 변경하라. 서울시의 제공데이터의 경우 0시가 24시로 표현된다

def change_date(x):
    import datetime
    hour = x.split(':')[1] # 예시 데이터 > 2021-05-15:15
    date = x.split(":")[0] # :앞쪽

    if hour =='24':  # 24시면 다음날이어야 하기 때문에 이걸 함
        hour ='00:00:00'

        FinalDate = pd.to_datetime(date +" "+hour) + datetime.timedelta(days=1)
                           #pandas의 date stamp + 하루 더하기 timedelta(days=1) 

    else:
        hour = hour +':00:00'
        FinalDate = pd.to_datetime(date +" "+hour)

    return FinalDate

df['(년-월-일:시)'] = df['(년-월-일:시)'].apply(change_date)

df['dayName']  =df['(년-월-일:시)'].dt.day_name()

weekday()는 숫자 day_name()은 영어

Q78. 요일별 각 PM10등급의 빈도수를 파악하라

Ans1 = df.groupby(['dayName','PM10등급'],as_index=False).size()
Ans2 = Ans1.pivot(index='dayName',columns='PM10등급',values='size').fillna(0)

피벗 참 중요하다

이렇게 생긴걸

이렇게 바꾼다.

중요! pivot(index = 행 , columns = 열, values = 값)

Q79. 시간이 연속적으로 존재하며 결측치가 없는지 확인하라

check = len(df['(년-월-일:시)'].diff().unique())
if check ==2:
    Ans =True
else:
    Ans = False
    
df['(년-월-일:시)'].diff().unique() #diff는 앞의 값과 뺀 결과 
array([         'NaT', -3600000000000], dtype='timedelta64[ns]') #첫값은 뺄수가 없어서 NaT, 이후는 한시간씩 차이가 나니까 값이 2개만 존재해야함.=시간이 연속적으로 존재

Q81. 날짜 컬럼을 index로 만들어라

inplace true는 변경한 값을 실제 값에 변경 적용해라

df.set_index('(년-월-일:시)',inplace=True)

JONGYOON JEON

효율적인 걸 좋아해요

이전 포스트

[Python] apply, map

다음 포스트