길고 긴 첫 프로젝트 주차 마무리!
일일 학습 정리로 매일 복습, 과제, 피어세션, 회고 정리했고 아래 링크 달았습니다.
~/Code/pre_process
하위 디렉토리가 있으나, 개인의 ~/EDA/*.ipynb
로 작업.~/Code/pre_process
하위에 Code 작성feature_add.py
/ 피쳐 선택 → feature_select.py
로 분류하여 작성Github
사용에 대해 더욱 익숙해 질 수 있음나는 내 학습목표 달성을 위해 무엇을 어떻게 했는가?
전공과 경험을 살려서 우선 비트코인이라는 도메인 지식에 더 집중했다.
EDA 과정에서 가격 등락에 영향이 될 지표를 찾거나 새로 만드는 과정을 주력으로 했다.
그 외에도 첫 프로젝트인 만큼 time-series CV, over-sampling, optuna, 여러 모델 사용 등 다양한 시도를 해보려고 노력했다.
나는 어떤 방식으로 모델을 개선했는가?
EDA를 통해 가격 등락에 영향을 끼치는 기본 지표들을 찾고,
그 지표들이 모델 학습에 적합하도록 로그 변환과 표준화 과정을 거치는 전처리 작업을 수행했다.
내가 한 행동의 결과로 어떤 지점을 달성하고, 어떤 깨달음을 얻었는가?
결과적으로 어느 정도 accuracy의 상승이 있었지만, 수치 자체가 크지는 않았다.
주로 사용한 모델이 XGBoost 였는데, 피처의 분포에 robust한 모델이라 뚜렷한 상승이 없다는 것을 깨달았다.
전과 비교하여 새롭게 시도한 변화는 무엇이고, 어떤 효과가 있었는가?
Over-Sampling 방법을 새로 시도해보았는데 이로 인해 정확도를 더 올리지는 못해서 아쉬웠다. 그리고 optuna를 사용해서 하이퍼파라미터 조정도 시도는 해봤지만 validation 방법이 적절하지 못해 신뢰도 있는 결과를 얻지는 못했다.
다음에는 좀 더 공부해서 완성도 있게 시도해보려 한다.
마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?
피처의 전처리, 모델 선택, 하이퍼파라미터 조정과 같은 후반 작업들 보다 초반 작업들이 훨씬 중요하다는 것을 느꼈다. 초반에 도메인 지식 스터디를 좀 더 심도있게 들어가고, EDA 과정도 개인별로 하지않고 모여서 했다면 더 좋은 결과를 얻었을 것 같다.
초반부터 더 계획적으로 프로젝트를 진행해볼 것이다.
그리고 WandB 같은 실험관리 도구나 딥러닝 모델 등 배웠던 내용이지만 활용하지 못했던 것들을 시도해보려 한다.