머신러닝과 통계 관련 모델에 대해 주로 배웠으며 수학적 지식을 많이 요구했다.
그러다보니, 매일 복습을 해도 내용이 어렵다고 느껴졌고 이를 극복하기 위해서는 지속적으로 문제를 풀어보고 모델을 사용하며 비교 분석을 해야겠다고 느꼈다.
5월 첫째주에 진행한 문서화 팀 프로젝트를 통해 개발 전 진행하는 문서화작업이 얼마나 중요한 지에 대해 체감할 수 있었다. 문서화 즉, 요구사항분석, 디자인, api 등을 꼼꼼하고 확실하게 결정을 해야 개발 단계에서 불필요한 에러나 회의가 발생하지 않는 다는 것을 깨달았다.
PythonML기본 프로세스
PythonML분류
PythonML교차검증, 하이퍼파라미터 튜닝
데이터 내용(수치형/범주형/통합)에 따라 파이프라인을 구축해야하며, 모델(릿지회귀, 라쏘회귀, 엘라스틱넷회귀, XGBoost, LightGBM) 또한 이에 따라 달라진다. 앞에 내용과 다른 점은 한 번에 실행을 해서 가장 좋은 모델을 찾는 다는 것이 흥미로웠다. 수치로 한 번에 비교를 하니 해당 모델을 사용하는 이유를 알게되었고 더 간편하다고 느꼈다.
PythonML파이프라인모델
앙상블 모델을 통해 더 좋은 성능을 얻는 방식을 활용하고 streamlit 대시보드로 배포했다.
사용자에게 직관적으로 결과를 보여주고 입력값으로 즉각 반응하게 만드는 부분이 흥미를 일으켰다.
Python_ML_pipeline & streamlit
모델 학습 뿐 아니라 streamlit 대시보드 배포를 통해 반응형 시각화를 만드는 것이 실제 서비스와 유사하다는 느낌을 받았다.
또한, EDA → 전처리 → 파이프라인 구성 → 모델링 → 평가 → 배포까지의 전체 흐름을 직접 경험해보며 큰 그림을 이해할 수 있었다.
개인 프로젝트를 진행하며 python, sql 등을 활용하여 배웠던 통계 모델을 학습할 예정이다.