오늘은 광복절로 수업이 없어서 집에서 개별 작업을 진행했다. 월요일부터 본격적인 데이터 분석을 시작할 예정이라, 오늘은 필요한 데이터를 수집하고 분석하기 편하도록 정리하는 사전 준비 작업을 진행했다.
다행히 이번 프로젝트의 핵심 데이터를 쉽게 확보할 수 있었다. 해당 데이터는 태양광 발전 에너지 분야의 연도별 / 지역별 설비용량과 발전량 정보이다.
데이터 수집 후 모든 파일을 데이터프레임으로 변환하고, head()와 describe() 함수를 사용해 각 데이터의 구조와 특성을 개별적으로 확인했다.
이후 단일 데이터프레임으로 병합을 시도했으나, 천 단위 이상의 숫자 데이터가 쉼표(구분자) 때문에 문자열(object) 타입으로 저장되어 있는 문제를 발견했다. 따라서 쉼표를 제거하고 모든 수치 데이터를 정수형(int)으로 통일하는 전처리 작업을 우선적으로 수행했다.
수집한 대부분의 데이터가 동일한 형식 문제를 가지고 있어서
def delete_comma(df):
for col in df.columns[1:]:
df[col] = df[col].astype(str).str.replace(',', '').astype(int)
이렇게 모듈화를 통해 모든 데이터를 효율적으로 정리할 수 있었다.
이후 단일 데이터프레임으로 병합한 뒤, 누적값과 합계를 산출하여 각 연도별 / 지역별 설비용량의 누적 현황을 통합적으로 조회할 수 있도록 데이터를 구성했다.
간단한 작업이었지만, 데이터를 살펴보고 어떻게 정리할지 계획을 세운 다음 필요한 기능들을 하나씩 만들어낼 수 있었다는 점이 한 달 전이었다면 생각도 못했을 일이다. 아직 시작 단계이니까, 앞으로 더 복잡한 데이터와 어려운 기능들도 잘 처리할 수 있도록 계속 공부하고 연습해야겠다.