프로젝트
아직 프로젝트가 한창 진행중이지만 학습과정에서는 느낄 수 없었던 부족함들이 프로젝트 하는 와중에 느껴져 정리해보려 한다.
- 전처리 과정의 체계성 제로: 전처리를 할 때 순서없이 눈에 보이는 것부터 하다 보니까 다시 한 번 정리해야 해서 매우 비효율적이었다.
- 결측치와 이상치를 제거하기만 함: 대체해 볼 생각이 없었던 것은 아니지만, 편의성을 위해 모두 제거함. z-score나 iqr 사용한 이상치 핸들링이나 knn을 활용한 결측치 대체 등 다양한 방법을 시도해봐야 하지만, 시간부족을 이유로 일단 모두 제거함.
- 적절한 시각화 찾기 어려움: 무슨 그래프로 전달해야 하는지, 해당 그래프를 그리려면 어떤 코드를 입력해야 하고, 입력해야하는 파라미터들은 무엇이 있는 지를 찾는 데 한참 걸렸다.
- EDA의 범위에 대한 모호함: 새로운 칼럼들을 만들거나, 인과관계에 관한 가설을 생각해본다던가 EDA의 범위에서 조금 벗어나는 듯한 생각들을 너무 많이 하게 된다. 애초에 회귀를 돌릴 단계도 아닌데 인과관계
결국 많이 해보는 경험과, 다른 사람들의 분석 과정과 결과를 많이 봐야지 실력이 늘 것 같다. Kaggle에서 EDA라도 조금 해보면 빨리 익숙해질 수 있지 않을까 싶다. 이번달 말에 있는 빅분기 실기 시험 준비하는 과정에서도 잘 정리해가면서 연습해봐야겠다.