내집마련해조 회고록

Jin·2024년 5월 5일
0
post-thumbnail

프로젝트 주제와 기획의도

서울시 아파트의 전세가를 예측하고 적정가를 알려줍니다. 이 서비스를 이용한다면 전세 거래를 하기 전에 미리 적당한 전세가를 찾아 볼 수 있기 때문에 전세사기를 방지할 수 있습니다. 또한 미래에 완공될 아파트들의 전세가격도 예측할 수 있기 때문에, 전세자금을 마련하기 위한 미래의 금융라이프를 설계하는데 도움을 줄 수 있습니다.

▼ GitHub
https://github.com/chickengak/nzmrhj

▼ 팀, 일정

https://github.com/chickengak https://github.com/lim4373
https://github.com/seoeun9595 https://github.com/MKBD0102

사용 데이터

데이터 명데이터 출처
행정동법정동코드행정안전부
아파트 전월세 실거래가국토교통부
서울시 아파트 정보서울 열린 데이터 광장
아파트 정보네이버 부동산 크롤링
동별 대형할인마트 수4대 대형마트 홈페이지 크롤링
서울시 상권분석 서비스(집객시설-행정동)서울 열린 데이터 광장
RealEstate with distance공공데이터포털 및 서울 열린 데이터 광장
한국은행금리한국 은행 경제 통계 시스템
서울시 아파트별 도시공원산림빅데이터 거래소

서비스 및 기능

UX를 극대화하기 위해 심플하면서 편안한 디자인으로 구성함.
예측하기를 누르면 바로 입력 가능하다.

입력하고 결과보기를 누르면, 모델이 예측한 결과를 웹페이지에 바로 출력한다.
예측하기를 다시 누르면 또 다른 입력도 가능하다.

홈화면 외에도 사용자의 신뢰를 얻기 위해 다양한 시각화 데이터를 사용자에게 제공했습니다.
제공되는 시각화들은 데이터 전처리부터 모델최적화할 때까지 사용했던 시각화들 중 비전문가도 이해하고 인사이트를 얻을 수 있을만한 것들을 골랐습니다.

프로젝트 후기와 배운점

1. VSCode Dev Containers의 적절한 사용

팀이 개발할 때 라이브러리 버전을 맞추는 것이 중요한데 ML/DL에서는 특히 더 중요하다.
그래서 팀원들의 기술스택을 고려해서 최대한 간단하면서 효과적인 툴을 찾아야 했고, VSCode의 Dev Containers 익스텐션을 선택하게 됐다.
간단한 코드만 추가하면 컨테이너 세팅을 GitHub로 공유할 수 있었다. 팀원들은 프로젝트 폴더를 git clone 한 후에 VSCode에서 열고, 우측하단에 "컨테이너 빌드 하실?" 하는 질문에 "yes"를 클릭하기만 하면 똑같은 세팅을 구축할 수 있었기 때문에 간편했다.


2. 적극적인 Git 사용

어찌보면 Git을 사용한 것이 큰 성과는 아닐 수도 있지만,
Git을 처음 쓰는 팀원들도 있어서 자칫 버전관리없는 스토리지가 되어 버릴까봐 조금 우려스러웠습니다.
하지만 가르쳐 준대로 잘 따라와주고 사용한 팀원들덕분에 예쁘게 버전관리 된 Git을 얻을 수 있었습니다.


3. 성장을 목표로 한 일정관리

저희 프로젝트는 각자의 담당업무를 획일화해서 나누지 않았습니다.
어차피 팀원 모두가 DSDE를 배우러 온 사람들인데, 여기에서 담당 업무를 나눠버리면 누군가는 웹 프론트를 담당해야 할 것이고, 누군가는 문서 담당하고 있어야 할 것이고 이러다 보면 프로젝트로 배우는 것이 아니라 프로젝트 짬처리만 하고 얻는 것도 없는 사람이 발생한다는 것을 잘 알고 있었습니다.
그래서 저는 팀원들에게 성과와 수상을 목표로 하지 말고, 이번 프로젝트로 배웠던 것을 실제로 적용해보면서 다같이 성장하는 것을 목표로 하자고 했습니다.
때문에 업무적으로는 다소 비효율적이더라도 다같이 데이터 전처리하고, 다같이 모델 돌려보고, 다같이 최적화하는 방식으로 일정을 관리했습니다.
마지막에 제품으로 출시할 웹페이지와 발표 자료를 만들 때 시간이 부족해서 며칠간 밤늦게까지 팀플해야 했지만, 다같이 DSDE를 진행했기 때문에 혼자 했으면 미처 부족했을 부분도 회의와 토론 그리고 브레인스토밍으로 부족함없이 채울 수 있었습니다.
덕분에 정말정말 큰 배움을 가져갈 수 있었던 프로젝트였습니다.


4. 전처리와 모델 학습
전처리와 모델 학습하는 과정에서 많은 배움을 얻어갈 수 있었다.

  • 테이블을 조인할 때 주의하기
    • 조인할 때 의도하지 않은 데이터가 늘어나는지 주의하기
    • 레프트, 라이트 아우터 조인할 때, 행 수 변화 주의하기
    • 조인 중간중간마다 결과를 체크하고 기록해 놓기
  • 데이터를 찾을 때는 최대한 다양한 방법으로 수집하기
    • 브레인스토밍뿐만 아니라 외부의 자문도 받아 보기
    • 논문같은 근거에 기반하여 데이터 찾기
    • 데이터의 유효성 체크하기
  • 다양한 학습 모델 사용하기
    • 예상 외의 결과를 얻기도 하니까 다양하게 사용하기
    • 앙상블도 고려해보기
  • 다양한 최적화 방법 시도
    • 하이퍼 파라미터 최적화 시, 그리드서치와 랜덤서치를 같이 사용하면 더욱 효과적
    • 데이터 전처리 단계로 되돌아 가는 것도 고려하기
    • 테스트 결과가 안 좋은 데이터들을 직접 찾아서 왜 결과가 안 좋았는 지 생각해보기
  • 데이터 전처리
    • 데이터 분포는 중간중간 계속 확인하기
    • 데이터에 적합한 스케일러 고려해서 적용
    • 데이터에 적합한 로그 변환 고려
    • 오기입된 이상치가 있을 수 있다는 의심을 항상 갖기
    • 데이터 삭제는 최소화 하기

등등 많은 것을 배울 수 있었다.


향후 개선 사항

1. 전국으로 확장하기
서울 시 외에 전국으로 서비스를 확장하는 것을 고려해 볼 수 있다.
다만, 지자체에 따라 없는 데이터들도 있기 때문에 한계점이 있을 수 밖에 없는 개선 사항이다.


2. 사용자 입력을 간편화하기
아직 건축되지 않은 미래의 아파트가 궁금한게 아니고 기존 아파트의 적절한 전세가가 궁금하다면, 굳이 모든 데이터를 사용자가 입력하게 하지 않고, 아파트만 선택하면 자동으로 기입되도록 바꾸는 개선 사항을 고려할 수 있다.


3. 전세 거래 이상 탐지에 활용
전세 거래 데이터를 수집하는 국토교통부에서 활용한다면, 해당 서비스를 전세 거래를 하는 모든 사람들에게 제공할 수 있을 것 입니다.


4. 광고 추가
사용자의 UX를 해치지 않는 선에서 부동산 혹은 전세와 관련된 광고를 게시함으로써 사용자에게는 유용한 정보를 제공하고, 광고 수익은 웹사이트를 무료로 운영하는데 도움이 될 것으로 예상합니다.


마치며

시간가는 줄도 모르고 재밌게 했던 프로젝트였습니다. 데이터 수집부터 모델 최적화까지 ML 모든 과정을 모든 팀원이 같이 참여했는데, 팀원들이 잘 따라와주고 잘 맞기도 해서, 좋은 토론과 브레인스토밍을 지속할 수 있었습니다. 계속 서로의 부족함을 채워주고 서로를 이끌어줬기 때문에 많은 배움을 얻을 수 있었습니다. 팀원 모두가 프로젝트를 완벽히 이해해 가면서 진행한 프로젝트는 처음이었는데, 모두가 만족하고 성장할 수 있었기 때문인지 아직도 기억에 남는 프로젝트입니다.

profile
Data Science & MLOps & Data Engineering https://github.com/chickengak

0개의 댓글