
프로젝트 주제 후보
행정구역별 인구수 증가율 모델 생성이 가장 참고할 데이터도 많고, 많은 것에 영향을 줄 수있다고 생각하였다. 최근 이슈인 출산율 저하와 어떤 관계가 있을 지 궁금했다. 그리고 인구관련된 문제는 수요와와 직결되기에 많은 사람들이 궁금해할 것이라고 생각했다.
kosis 국가통계포털에 많은 정보가 있었다.
그 중 인구이동에 영향을 끼치는 요인을 생각해봤다.
첫번째로 영향을 주는 요인은 직장의 위치일 것이라고 생각했다. 직장의 위치에 따라 자취를하거나 주거를 옮기는 경우가 많기 때문이다. 따라서 경제활동인구, 실업률, 고용률을 찾아보고, 사업체 수와 규모를 찾아봤다.
또한 잘사는 곳으로 몰릴 것이라고 생각하여여 지역내 총생산 및 인당 생산량 자료를 찾았다.
아이를 기르는 것도 영향을 준다고 생각해서 혼인과 출산율을 찾아봤다.
이 외에도 여러 피처를 찾아봤다.

어느정도 자료를 찾으며 지식을 쌓다보니 필요한 것들이 보였다.
첫번째로는 주제를 명확히 하는 것이다. 처음 시군구별 이동자수 - 행정구역별 인구수 증가율 예측에서 시/군/구가 정확히 어느 곳을 뜻하는지 부정확했다. 그래서 [ 서울특별시 부산광역시 대구광역시 인천광역시 광주광역시 대전광역시 울산광역시 세종특별자치시 경기도 강원도 충청북도 충청남도 전라북도 전라남도 경상북도 경상남도 제주특별자치도 ]로 명확하게 결정했다.
찾아야하는 기간도 설정했다. 2016~2024 1분기로 결정하였다.
가장 중요한 부분이 문제정의와 데이터 수집이라고 생각한다. 잘 정의되어서 인사이트를 줄 수 있는 문제와, 좋은 데이터만 있다면 유의미한 결과를 낼 수 있을 것이다.
먼저 피처로 삼을 데이터를 더 찾기로 했다. 시간이 충분하다고 판단이 되고 좋은 데이터를 넣어야 좋은 결과가 나오기 때문에, 데이터 탐색에 시간을 더 쏟기로 했다.
마감일이 6/24이므로 계획을 다음과 같이 세웠다

일반적으로 다른 회귀모델에 비해서 의사결정나무의 성능은 크게 뛰어나지 않다. 하지만 유용한 경우는 다수의 클래스가 볌주형일 때 유용하게 쓰일 수 있다.
회귀에서 의사결정나무의 분류

-> 분류에서 의사결정나무처럼 층마다 클래스의 개수로 결정되지 않는다. 기준되는 값이 주어지고 그 값보다 큰지, 작은지로 결정이된다.
의사결정나무의 분류모델과 회귀모델의 공통점

의사결정나무의 분류모델과 회귀모델의 차이점
