회귀분석 프로젝트 일지

세바님·2024년 4월 30일
0

첫 시간

오늘부터 회귀분석 프로젝트를 시작하게 되었습니다. 먼저 충격적인 시험점수를 확인하고 주제를 정하기 위해 구글링을 시작하였습니다.
주제를 뭘로 할지 고민해보다가 인구 수와 환경 오염의 상관관계에 대해 먼저 찾아보았습니다. 논문 요약자료로 보이는 글을 2개 정도 읽다가 최근에 우리나라의 심각한 문제라고 할 수 있는 저출산 문제가 떠올라 주제를 바꿔 경제 수준과 저출산의 관계에 대해 조사해보았습니다.
뉴스에 따르면 소득 수준이 높을수록 도리어 아이를 덜 낳는 경향이 나타난다고 합니다. 2022년 11월 1일 기준 혼인 신고한 지 5년 이하인 부부의 소듣 구간별 자녀 현황을 조사한 결과에 따르면 1000만원 미만인 경우 60.1%, 1억원 이상인 경우 48.4%로 꽤 큰 차이가 난다는 점을 확인했습니다. 인터넷 상에 떠도는 글을 보면 '돈이 있어야 결혼을 하고 애를 키울 수 있다' 등의 말을 많이 들었던 것에 비해 상당히 차이가 나는 결과였던 것 같습니다.

두 번째 시간

첫 시간에 조사한 것을 바탕으로 주제를 '소득에 따른 출산율의 변화'로 했고, 이를 기반으로 미래에 소득이 증가함에 따라 출산율이 얼마나 감소할것인지를 분석해보고자 합니다.
먼저 구글에 검색을 하여 뉴스 자료를 찾아보았습니다. 뉴스에 있는 데이터의 출처가 통계청임을 확인했고, 데이터를 직접 확인하기 위해 통계청에서 검색을 해 보았습니다.
통계청에서 검색을 시도해보았으나 검색어의 문제인지 원하는 데이터를 찾지는 못했습니다. 그래서 이번엔 데이터포털에서 검색을 해 보았습니다.
그러나 여기서도 필요한 정보를 얻지는 못하였습니다. 이번에는 통계청을 검색했을 때 두 번째로 나오던 KOSIS에서 다시 검색을 해 보았습니다.
다행이도 KOSIS에선 검색어 자동완성 기능이 있어서 검색어를 쉽게 찾을 수 있었습니다. 여러 검색어를 시도하며 데이터를 찾아보다가 뉴스에서 나온 자료와 동일한 자료를 찾게 되었습니다. 그러나 데이터가 2022년 자료밖에 없어 회귀 분석을 위한 데이터로 쓰기엔 부족하다는 생각이 들었습니다. 그래서 저는 합계출산율 자료와 평균소득 자료를 합쳐 데이터를 직접 만들기로 결정하였습니다.

세 번째 시간

두번째 시간에 찾았던 데이터를 기반으로 새로운 데이터셋을 만들 계획이었습니다. 근데 알고보니 엑셀 파일로 내보내기 할 수 있는 자료는 2013년부터 시작하는 자료만 해당되었습니다. 원래는 1995년 자료부터 하려고 했는데 말입니다. 그래서 1995년부터 2023년 데이터를 일일히 엑셀에 집어넣고 csv 파일로 내보내기를 했습니다. 여기서 추가적으로 사람들이 느끼는 물가를 고려하여 기준금리 데이터까지 추가하기로 했습니다.

profile
꼴리는대로 사는게 꿈입니다

0개의 댓글