스터디 중간점검

Treeboy·2022년 7월 30일

ADP 실기도 이제 두달 남짓이 남았습니다 (9월 25일). 앞으로의 일정을 정리하기 전에, 먼저 ADP 빈출 유형 정리가 필요하다고 생각합니다.

머신러닝

아래는 제가 생각하는 ADP의 전형적인 머신러닝 문제입니다.

ADP Machine Learning Workflow

여기서 스터디에서 준비해야할 부분, 즉 자료로 제작해서 가져가야 하는 부분을 살펴봅시다.

EDA

EDA는 마치 요리에 들어가는 재료를 파악하는 것과 같다고 생각합니다. 맛있는 김치찌개를 끓이기 위해서 그에 맞는 재료를 준비하듯이, 좋은 모델을 만들기 위해서는 그에 맞는 feature이 준비가 되어야겠지요.

가장 우선적인 목표는 대표적인 시각화를 써보는 것입니다.

  • 바 플롯 (빈도)
  • 상자 그림 / 히스토그램 (분포 파악, 이상치 파악 등)
  • 산점도 (두 변수간 관계)
  • 히트맵 (변수 사이의 상관관계)
  • Pairplot (연속변수 사이 관계)

또한, 결측치, 이상치, 데이터 포맷 등을 파악하는 것이 빨라야 하므로, 아무래도 최대한 다양한 데이터셋을 접해 보고자 합니다.

  • 고객데이터, 식당데이터 (2주차)
  • 시계열 데이터 (출생아, 비트코인, 차) (3주차)
  • 코스피 나스닥 (4주차)
  • 타이타닉 데이터셋 (5주차)
  • 집값 데이터셋 (6주차)
  • Home Credit Default Risk (8주차)

전처리

당연히 해봐야 하는 것은

  • 범주형 변수 변환
  • 결측치 처리
  • Scaling
  • Train Test Split
  • 오버샘플링

정도가 있겠습니다. 추가로 고려해볼만한 것이

PCA, feature engineering 인데, 이번 타이타닉에서 feature engineering을 했으니 기회봐서 PCA 넣어보고자 합니다.

모델링

분류분석

Decision Tree, Random Forest, SVC

회귀분석

Linear Regression (일반, Lasso, Ridge, Elasticnet), SVR

군집분석

K-NN, DBSCAN, Gaussian Mixture ...

등이 있겠습니다.

이번 타이타닉은 분류분석의 3개 알고리즘을 사용하는 것이였습니다. 따라서, 회귀분석을 3개씩 쓰는 과제를 이번 주차 (6주차, 8/1~) 에 내고, 군집분석은 저번의 고객 분류 과제를 다시 내서 계층적 / 비계층적 모두 모델링 해보도록 합시다. (7주차)

시계열 데이터는 더 낼 생각이 없습니다. 지금까지 시계열 문제가 정말 많이 나왔으니 보완하는 방향으로 갈 생각입니다.

8주차에는 빠진 앙상블 기법 을 집중적으로 다루려고 합니다. 아래의 내용을 다루려고 합니다.

  • 보팅 (하드보팅, 소프트 보팅) 을 구현하고,
  • K-fold를 사용한 앙상블 모델을 만들어 볼것이며,
  • 부스팅 계열 (XGBoost, AdaBoost) 모델을 사용할 것입니다.
  • 배깅은 잘 모르겠습니다..

9주차는 지금까지의 자료들을 잘 정리해서 시험에 가져갈 수 있는 형태로 만들면 좋겠습니다. 단순히 모델링으로 끝나는 것이 아니라 왜 그 모델을 사용했는지도 적어야 하니, 책에만 의존하지 말고 적당한 조사를 겸해서 좋은 자료를 만들어 봅시다.

이후에 9월달은 이 자료를 기반으로 모의고사로 들어가봅시다. 그나마 조금 걸리는게 있다면 자연어 처리인데 요즘 잘 안나온다고 알고 있습니다. 토큰화 후 워드클라우드 까지 만드는건 어렵지 않은데 아마 konlpy 같은 라이브러리 설치가 까다로워서 출제하지 않는 것이 아닐까 추측됩니다.

평가

Confusion Matrix, Precision, Recall, F1 score, RMSE, Accuracy 등등 간단하게 훑어보고 가면 도움이 될 것 같습니다.

통계분석

통계분석은 가설검정, 신뢰구간의 개념을 이해하고, 과정에 익숙해 졌다면 더이상의 문제는 불필요하다고 생각합니다.

하지만, 크루스칼-윌리스, 윌콕슨 사인검정, 만 휘트니 검정 등 비모수통계를 조금 다룰 필요는 있다고 생각합니다. 조금 더 살펴봅시다.

profile
지식이 모자라서 논문리뷰를...

0개의 댓글