profile
Machine Learning Engineer 8)
post-thumbnail

Pandas에서 Timestamp 단위 Group-by Aggregation

🌃 배경 데이터를 다루다보면 필연적으로 Group-by Operation을 자주 접하게 됩니다. 일반적인 Group-by Operation들은 단순합니다. 그룹마다 평균을 구한다거나 중앙값을 구하거나 최댓값, 최솟값을 구합니다. 하지만 타임스탬프가 존재하고 그룹마다 타임스탬프가 서로 다르며, 단순 연산이 아닌 Rolling Mean과 같은 특정 Time Window에 대한 Aggreagation을 하게 되는 경우를 만나게 되면 문제는 복잡해집니다. 🤔 케이스 스터디 이런 경우가 있다고 생각해봅시다. 네 명의 사용자가 임의로 특정 페이지를 클릭함 클릭한 타임 스탬프가 초 단위로 기록됨 사용자의 페이지 클릭과 관련된 새로운 Feature를 만들기 위해 매 클릭 시점 기준 최근 30초간 클릭한 횟수의 합을 집계하고자 함 요약하자면 사용자별로 매 클릭 시점의 30초 Rolling Sum을 생성해야 합니다. Pandas는 `rolling(

2021년 7월 13일
·
0개의 댓글
·