6/13 Today I Learned - 1

boks·2024년 6월 13일
post-thumbnail

📖 학습한 내용

  • 프로젝트 - 공공데이터를 활용 지도학습 모델
  • 회귀모델 - 의사결정나무

📖 핵심내용

📌 프로젝트

주제 선정

  • 프로젝트 주제 후보

    1. 축구 승률 예측
    2. 서울교통공사 최근 5년 지하철 사고 현황을 파악하여 지하철 사고 예측
    3. 서울시 관광지 수요 예측 모델, 최적 숙박지 추천 모델
    4. 연도별 범죄 검거기간, 피해자 피해상시 상황, 범죄별 조치상황 등을 이용해 범죄 발생 예측
    5. 언론 보도 또는 SNS 언급 빈도수에 따른 유행업종의 탈출 시기 예측
    6. 주식의 적정 가격 예측
    7. 일기 예보에 따른 (전력, 가스) 에너지 소비율 예측
    8. 날씨 또는 행사 여부에 따른 특정일의 지역 혼잡도 예측
    9. 특정 조건(기업수, 도로망, 인구연령층 등) 에 따른 일구 소멸 가능성 예측
    10. 시군구별 이동자수 - 행정구역별 인구수 증가율 예측
    11. 행정구역(시군구)별 1세별 주민등록인구 - 출산율 및 인구 감소예측
    12. heart-disease - 여러 요인으로 인한 심장병 발병 예측
    13. 온라인 쇼핑몰 취급상품/상품군별거래액 - 매출액 증가 온라인 쇼핑 상품 예측

    행정구역별 인구수 증가율 모델 생성이 가장 참고할 데이터도 많고, 많은 것에 영향을 줄 수있다고 생각하였다. 최근 이슈인 출산율 저하와 어떤 관계가 있을 지 궁금했다. 그리고 인구관련된 문제는 수요와와 직결되기에 많은 사람들이 궁금해할 것이라고 생각했다.

데이터 탐색

kosis 국가통계포털에 많은 정보가 있었다.
그 중 인구이동에 영향을 끼치는 요인을 생각해봤다.
첫번째로 영향을 주는 요인은 직장의 위치일 것이라고 생각했다. 직장의 위치에 따라 자취를하거나 주거를 옮기는 경우가 많기 때문이다. 따라서 경제활동인구, 실업률, 고용률을 찾아보고, 사업체 수와 규모를 찾아봤다.
또한 잘사는 곳으로 몰릴 것이라고 생각하여여 지역내 총생산 및 인당 생산량 자료를 찾았다.
아이를 기르는 것도 영향을 준다고 생각해서 혼인과 출산율을 찾아봤다.
이 외에도 여러 피처를 찾아봤다.

회의 내용

어느정도 자료를 찾으며 지식을 쌓다보니 필요한 것들이 보였다.
첫번째로는 주제를 명확히 하는 것이다. 처음 시군구별 이동자수 - 행정구역별 인구수 증가율 예측에서 시/군/구가 정확히 어느 곳을 뜻하는지 부정확했다. 그래서 [ 서울특별시 부산광역시 대구광역시 인천광역시 광주광역시 대전광역시 울산광역시 세종특별자치시 경기도 강원도 충청북도 충청남도 전라북도 전라남도 경상북도 경상남도 제주특별자치도 ]로 명확하게 결정했다.
찾아야하는 기간도 설정했다. 2016~2024 1분기로 결정하였다.
가장 중요한 부분이 문제정의와 데이터 수집이라고 생각한다. 잘 정의되어서 인사이트를 줄 수 있는 문제와, 좋은 데이터만 있다면 유의미한 결과를 낼 수 있을 것이다.

계획

먼저 피처로 삼을 데이터를 더 찾기로 했다. 시간이 충분하다고 판단이 되고 좋은 데이터를 넣어야 좋은 결과가 나오기 때문에, 데이터 탐색에 시간을 더 쏟기로 했다.
마감일이 6/24이므로 계획을 다음과 같이 세웠다

📌 회귀모델 - 의사결정나무

일반적으로 다른 회귀모델에 비해서 의사결정나무의 성능은 크게 뛰어나지 않다. 하지만 유용한 경우는 다수의 클래스가 볌주형일 때 유용하게 쓰일 수 있다.

  • 회귀에서 의사결정나무의 분류

    -> 분류에서 의사결정나무처럼 층마다 클래스의 개수로 결정되지 않는다. 기준되는 값이 주어지고 그 값보다 큰지, 작은지로 결정이된다.

  • 의사결정나무의 분류모델과 회귀모델의 공통점

  • 의사결정나무의 분류모델과 회귀모델의 차이점

📖 이후 학습 계획

  • 모델의 성능을 좋게하기 위해서 많은 데이터를 탐색할 것이다.

📖 기타

  • 프로젝트 첫날 느낀점
    목표를 정하고 시작했지만, 아주 명확한 명시해야한다고 생각했다. 명확한 목표가 아니라면 팀원들간에 방향성이 달라지고, 다시 처음부터해야하는 상황이 나오기 때문이다. 간단한 목표라도 정말 명확한지 한번 더 의심해야겠다고 생각했다.
    또한 일을 하면서 알 수 있는 것들이 있다. 따라서 빠른 피드백과 쉽게 의견을 말할 수 있는 자유로운 분위기가 중요하다고 느꼈다.
profile
설계엔지니어의 변신

0개의 댓글