시험 보고 바로 쓰는 후기!
저번주(7.10)에 2차 과제 테스트가 있었지만, 시스템 상 문제로 오늘(7.17) 2시에 다시 테스트를 보게 되었다.
저번주에는 Pandas, Scikit-Learn을 이용한 Data Preprocessing, Modeling에서 과제가 출제되었었다. 시험 환경에 matplotlib 툴이 없는 것으로 보아, 데이터 시각화 부분은 나오지 않을 것이라 생각하였고, 데이터 전처리 과정(시계열,'object'데이터 및 결측치 처리)과 Modeling, Pipeline 제작 위주로 공부하였다.
Kaggle의 Courses 위주로 기본 지식을 공부하였고,
심화 과정으로 House Price Prediction 그랜드 마스터의 풀이에서 모델링(Stacking, ElasticNet, Lasso, RandomForest, Gradient Boosting 등) 위주로 코드를 분석하며 공부하였다. (대략적인 원리만 이해하고 써보는 것이 흠이 될 수 있겠다. 모델 분석 글도 몇개 작성해야겠다.)
시험은 2시부터 4시까지 치뤄졌고, 문제는 예상 밖에도 pandas를 이용한 데이터 전처리 문제(결측치 처리, text split)만 주어졌다. 1번문제는 15~20분 정도 걸렸고, 2번 문제도 비슷하게 걸렸던 것 같다. 난이도는 정말 쉬웠다. 일단 pandas기초 문제였고, 조금만 과장하자면, 2시간동안 pandas docs의 tutorial만 봐도 풀 수 있었을 듯하다. 시간도 많이 남아서 코드의 최대한 간결하게 정리하는 데에 시간은 많이 투자하였다. Docs에서 써왔던 함수의 파라미터도 뒤져보고, 코드에 대한 주석도 달아놓았다. 그래도 30분이 남았다...
한 마디로 말하자면, 테스트는 정말 쉬웠다. 예상으로는 변별력은 없을지도 모르겠다. 그렇기 때문에 지원서, 기술 면접을 더 준비 많이해야하지 않나 싶다.
그렇다면 어떤 것을 준비하는 게 좋을까? Data Scientist, Data/ML Engineer 직무 시험이니, 데이터를 다루는 것도 중요하고, 모델을 백엔드에 인퍼런싱하는 것도 중요해보인다.
특히나 이미지를 다루는 기술 강조되어있다. 이미지 데이터에 대한 이해도(Image Processing, Computer Vision, Machine Vision)는 나만의 스페셜리티로 삼아도 좋을 것 같아 보인다. 물론, 기초 CS지식과 Backend지식도 중요해 보인다.
다음 준비: 개인 프로젝트(Write Call: Android, Tensorflow-Lite, Django)를 완성하면서 CS(네트워크, OS)와 프로그래밍(Python, Kotlin) 기본 지식을 정리해 나가자.