1. 개인 회고
1-1. 목표를 위한 노력.
- 우리 팀과 나의 목표
- 기존,외부 데이터로 파생피쳐 생성하기
- EDA를 통해 이상치, 결측치 처리 의미있게 하기
- 파라미터 튜닝, 모델링을 통해 모델 향상 시키기
- 나의 목표
- 도메인(부동산)을 이해하고, 집값과 연관된 파생피쳐(건물나이, 공시지가)를 통해 향상시키기
- EDA를 통해 이상치 처리 방식과 데이터 변환(로그 변환,box-cox), 스케일링 방법 등 다양하게 시도하여 모델 개선 시키기
1-2. 마주한 한계, 아쉬운점.
- 한계점
- Open-CL(GPU)문제 해결 못하여 하이퍼파라미터 튜닝을 시도 못함.
- 제출시도 한계로 여러 시도의 결과값을 확인하지 못하였다.
- 아쉬운점
- EDA를 통해 데이터 분포 형태를 파악하여 변화(오른쪽 치우침(로그), 왼쪽으로 치우침(box-cox))하였지만 중간결과에서 변환 전보다 하향된 결과가 나왔으며, 그 원인을 정확히 파악 못 함.
- 스케일링 변환도 min-max의 경우 이상치의 영향을 받기에 정규분포 형태로 변환 후 standard도 시도 하였지만 결과가 좋지 않았음.
- 이상치 처리시 IQR방법을 시도 하였고, 이상치 처리 전이 더 좋은 결과가 나와 그 이유를 파악 못함.
- 크롤링으로 결측치를 채웠지만 결측치를 제거한 결과보다 좋지 않아 데이터셋 자체가 문제 있다고 느낌.
1-3. 다음 기회에 시도하고 싶은점.
- 주어진 데이터에서 할 수 있는 것을 정확하게 파악하고, 도메인 이해에 시간을 더 할당 해야겠다.
- 주어진 시간동안 연구 과정들을 작성을 하여 여러 경우의 수를 시도할 수 있도록 해야겠다.
2. 프로젝트 회고
2-1. 시도한 모델 개선 방안.
- 사용한 지식
- 도메인(부동산)
- 층이 높을 수록 가격이 상승할 것이다.
- 지하철과 버스가 가까울 수록 가격이 상승할 것이다.(Geopy라이브러리 사용)
- 지하철 노선에 따라 가격이 다를 것이다.
- GDP, 금리, 인플레이션이 집 값과 연관이 있다.
- EDA
- 결측치가 80% 이상은 제거
- 분포를 보고 치우침에 따라 변환을 시도
- 범위를 맞춰주기 위해 min-max(이상치 x), standard(정규분포) 사용
- 연속형을 범주형으로 만들기 위해 k-means 시도
- 모델링
- 데이터 셋을 k-fold와 분포를 안정화 하기 위해 statified k-fold 시도
- xgboost와 lgbm을 통해 모델링 시도
- 과적합 방지 위해 early stopping,
- optuna를 통해 하이퍼파라미터 시도
- 피쳐 중요도를 확인하며 상위 몇개로 할지 정하고 확인하면서 모델링 시도
2-2. 실패의 과정으로 얻은 교훈.
- 크롤링으로 데이터셋을 채우는 것이 대회에서는 정답이 아닐 수 있다.
- 하이퍼파라미터 튜닝이 과적합을 발생 시킬 수도 있다.
- 여러 변수를 만들어서 추가 하는 것이 결국에는 좋다.(중간결과-적은게 높음, 최종결과-많은게 좋음)
2-3. 협업 과정 잘된 점/ 아쉬운 점.
- 열정적인 팀원들이 여러 시도를 해보면서 최적의 답을 찾은 것 같다.
- 다만 시도한 것들을 제대로 취합하지 못 하여 더 다양한 시도와 사고를 못 한 것 같다.
내가 시도한 기술적인 도전, 학습과정에서의 교훈, 마주한 한계와 도전숙제 등을 담아 정리하면서 학습의 주체로서 무엇을 어떻게 해봤고, 무엇을 얻었는지에 대해 스스로 회고.