6/14 Today I Learned - 1

boks·2024년 6월 14일
post-thumbnail

📖 학습한 내용

  • 행정구역별 인구수 예측모델 생성 2일차

📖 핵심내용

📌 행정구역별 인구수 예측모델 생성

피처조사

미팅 진행 내용

  1. 데이터 수집 리뷰 - 각자 수집한 데이터의 종류와 이유 간략한 설명
  2. 데이터 규격 설정 - 정리할 구체적인 형태와 기간 설정
    → 행정구역/월단위 행
    → 조사 기간은 2016.1월~2023.12월 으로 픽스
  1. 넥스트 스텝 - 각자 수집한 데이터를 공유한 파일에 로컬에서 붙여 넣기
    다른 사람과 중복되는 요건을 제외하고, 공유한 파일에 붙여넣기
    쉽게 채울 수 있는 결측치는 채우고, 다른 결측치는 후에 미팅 후 처리.
    서울시는 구별로 나눠서 테이터 조사할지 추후 검토
    6/17(월요일) 오후에 데이터 취합하여 히트맵 작성 예정

오후 진행 내용

  1. 오후 피처 조작
    a) 다른 사람 데이터 확인
    b) 데이터 규격에 맞게 수정 후 다운
    c) 자료 다운 완료하였고, merge 예정이다.

📖 흥미로운 점 / 새로 알게된 점

  • 인구수(타겟) 자료를 학습시킬때, 1달씩 미뤄야하겠다. 예측이니깐, 이번달의 데이터 기준으로 다음달 인구수를 맞추는 것이기 때문이다.

  • 지역내 총생산에서 명목과 실질 중 어떤것을 넣을지 고민이다. 왜냐하면 물가변동 피처도 있기 때문에 물가의 비중이 너무 커질 것 같다는 생각이 들어서이다. 하지만 실제 가격이 영향을 주는 것이므로 명목을 피처에 적용했다.
    실질 GRDP: 기준 연도 가격으로 계산된 GRDP, 물가 변동의 영향을 제거하여 실제 생산량 변화를 반영.
    명목 GRDP: 현재 시장 가격으로 계산된 GRDP, 물가 변동의 영향을 받음.

📖 어려운 부분

  • 엑셀의 0이 사라지는 문제 발견
    → 멘토에게 물어봐서 파이썬에서 불러올때 해당컬럼을 문자형으로 불러와서 해결

📖 기타

데이터마다 어떤 데이터인지 잘 파악을 해야하겠다고 느꼈다. 왜냐하면 큰 데이터도 중간 중간 이상하게 적혀있는 것이 있어서 오류를 내기 때문이다.
또한 팀원과 소통하는 것이 가장 중요하다고 생각된다. 공유된 장소에 현재 진행상황과 방식을 올려두고, 올릴때 상대방이 이해하기 쉽게 간결히 올리는게 중요하다고 생각한다.

profile
설계엔지니어의 변신

0개의 댓글