아파트 가격 예측 머신러닝 Report

Cho Bryan·2024년 7월 22일

Regression UpstageAILab 국비지원 머신러닝 머신러닝 정리 업스테이지패스트캠퍼스 패스트캠퍼스 패스트캠퍼스AI부트캠프 패스트캠퍼스업스테이지부트캠프 패스트캠퍼스업스테이지에이아이랩

Upstage AI 3기

목록 보기

10/14

9조

학습 목표 및 달성 노력

팀과 개인의 학습 목표 명시

이번 아파트 가격 예측(Regression) 경진대회에서 팀과 개인의 주요 학습 목표는 다음과 같았습니다. 팀의 목표는 서울 아파트 실거래가를 가장 정확하게 예측할 수 있는 모델을 개발하는 것이었습니다. 이를 위해 우리는 최신 데이터 분석 및 머신러닝 기법을 활용하고, 협업을 통해 최적의 성과를 도출하는 것을 목표로 삼았습니다. 개인적으로는 각 팀원이 새로운 기술을 습득하고 실습을 통해 능력을 향상시키는 것을 목표로 하였습니다.

목표 달성을 위한 구체적 행동 설명

팀의 목표를 달성하기 위해 우리는 주기적인 팀 미팅을 통해 진행 상황을 공유하고, 각자의 역할을 명확히 하여 효율적으로 작업을 분담했습니다. 개인적으로는 머신러닝과 관련된 다양한 라이브러리를 깊이 있게 공부하였고, 실제 프로젝트에 적용 가능한 WanDB 등의 활용 기술을 습득하였습니다.

개인 학습 측면

개인적으로는 다양한 머신러닝 모델과 데이터 전처리 기법을 공부하는 데 집중했습니다. LightGBM과 CatBoost와 같은 최신 모델에 대해 학습하고, Optuna를 사용한 하이퍼파라미터 튜닝 기법을 실습하였습니다. 또한, Wandb와 같은 도구를 활용하여 실험을 관리하고 성능을 시각화하는 방법을 익혔습니다.

공동 학습 측면

공동 학습 측면에서는 매일 오전 팀 스터디를 통해 각자의 학습 내용을 공유하고, 깃허브를 통해 코드를 공유하고 개선점을 찾았습니다. 이를 통해 각자의 기술 수준을 높이고, 팀 전체의 시너지 효과를 극대화할 수 있었다고 생가합니다.

모델 개선 과정

사용한 주요 기술과 지식 설명

모델 개선 과정에서 사용한 주요 기술은 데이터 전처리, 피처 엔지니어링, 모델 선택 및 하이퍼파라미터 튜닝 등이었습니다. 특히, Feature Importance를 활용하여 중요한 변수를 선택하고, K-Fold 교차 검증을 통해 모델의 일반화 성능을 평가하였습니다. LightGBM과 CatBoost를 주로 사용하였으며, 두 모델의 앙상블을 적용했습니다.

성능 향상을 위한 시도들 상세 기술

성능 향상을 위해 여러 가지 시도를 하였습니다. 먼저, 결측치를 처리하고 새로운 파생 변수(급지 등)를 생성하여 데이터의 질을 높였습니다. 이후, Optuna를 사용하여 하이퍼파라미터를 최적화하였고, 여러 가지 K-Fold 방법을 적용하여 모델의 성능을 검증하였습니다. 마지막으로, LightGBM과 CatBoost 모델을 앙상블하여 최종 예측 성능을 향상시켰습니다.

데이터 전처리 방법

결측치가 많은 변수를 제거하거나 기타 외부 자료를 참고하여 채웠습니다. 아파트명, 도로명 등의 문자열 변수는 Label Encoding을 사용하여 처리하였습니다. 좌표 데이터를 활용하여 교통정보 및 지리적 특성을 반영할 수 있는 새로운 변수를 생성하였습니다.

피처 엔지니어링 아이디어

지리적 정보, 시공사 정보, 거리 점수 등을 파생 변수로 추가하였습니다. 예를 들어, 아파트와 가장 가까운 지하철역 간의 거리를 기반으로 거리 점수를 부여하였고, 대장아파트와의 거리를 계산하여 주요 아파트와의 연관성을 파악하였습니다.

모델 선택 및 하이퍼파라미터 튜닝

모델로는 LightGBM과 CatBoost를 선택하였고, Optuna를 사용하여 하이퍼파라미터를 튜닝하였습니다. 또한, Wandb를 활용하여 실험 결과를 시각화하고, 성능이 가장 좋은 모델을 선택하였습니다.

성과 및 깨달음

[WandB Report]

구체적인 성과 제시

이번 프로젝트에서 가장 큰 성과는 모델의 성능을 꾸준히 향상시켜 최종적으로 public 리더보드에서 5위, private 리더보드에서 2위를 달성한 것입니다. Validation 데이터에서의 RMSE 값을 5500~5600대에서 5000 이하로 낮추는 데 성공하였습니다.

과정에서 얻은 기술적/비기술적 인사이트 정리

기술적으로는 데이터 전처리와 피처 엔지니어링의 중요성을 다시 한번 깨달았습니다. 또한, 다양한 모델을 사용하고 앙상블 기법을 적용하여 예측 성능을 극대화할 수 있음을 확인하였습니다. 비기술적으로는 팀 협업의 중요성을 실감하였으며, 계획적인 협업이 프로젝트 성공에 큰 역할을 한다는 것을 배웠습니다.

이전 대회와의 비교

새롭게 시도한 접근법이나 기술 설명

이전 대회와 비교하여 이번에는 Feature Importance를 이용한 변수 선택과 Optuna를 사용한 하이퍼파라미터 튜닝을 새롭게 시도하였습니다. 또한, Wandb를 통해 실험 결과를 시각화하고 관리하는 방법을 도입하였습니다.

변화로 인한 긍정적 효과 분석

새롭게 시도한 접근법 덕분에 모델의 성능이 향상되었습니다. 특히, Optuna를 사용하여 하이퍼파라미터를 최적화한 결과, 모델의 예측 정확도가 눈에 띄게 개선되었으며, Wandb를 통해 실험 결과를 체계적으로 관리할 수 있어 효율적인 연구가 가능했습니다.

한계 및 아쉬운 점

기술적 한계

기술적으로는 시간 부족으로 인해 모든 시도를 충분히 수행하지 못한 점이 아쉬웠습니다. 예를 들어, 더 많은 모델을 테스트하고, 다양한 피처 엔지니어링 기법을 시도해볼 수 있었지만, 제한된 시간 내에 이를 모두 수행하는 것은 어려웠습니다.

비기술적 한계

비기술적으로는 팀원 간의 일정 조율이 어려웠던 점이 아쉬웠습니다. 각자 바쁜 일정 속에서 프로젝트를 진행하다 보니, 팀 회의 시간에 모두 모이는 것이 어려웠고, 이로 인해 협업이 원활하지 못했던 순간이 있었습니다.

구체적인 아쉬움 표현

가장 아쉬운 점은 피쳐에 따른 다양한 메타 모델을 설계하고 테스트하는 아이디어를 너무 늦게 생각하게 되어 리더보드에 올려보지 못한 것입니다. 이를 통해 추가적인 성능 향상을 도모할 수 있었을 텐데, 시간이 부족하여 이를 시도하지 못한 것이 아쉬움으로 남습니다.

향후 개선 계획

이번 경험을 통해 깨달은 개선 포인트 정리

이번 경험을 통해 더 많은 시간을 데이터 전처리와 피처 엔지니어링에 투자하는 것이 중요하다는 것을 깨달았습니다. 또한, 팀원 간의 원활한 협업이 프로젝트의 성공에 결정적인 역할을 한다는 것을 배웠습니다.

다음 대회를 위한 구체적인 학습/시도 계획 수립

다음 대회를 위해서는 더욱 효율적인 시간 관리를 통해 다양한 시도를 해볼 계획입니다. 특히, 다양한 모델과복잡한 기법을 미리 준비하고 테스트할 수 있도록 할 것입니다. 또한, 팀원 간의 소통을 더욱 원활히 하기 위해 정기적인 회의 일정을 사전에 조율하고, 각자의 역할을 명확히 분담하여 협업의 효율성을 높일 것입니다. 이를 통해 더 나은 성과를 도출할 수 있도록 노력할 것입니다.

Cho Bryan

인공지능관련 작업중

이전 포스트

Machine Learning Advanced 정리

다음 포스트