회귀에 이어 분류 학습
분류에 있어 가장 중요한 목표는 "X (row)를 K개의 가능한 클래스 중 하나의 클래스로 할당하는 것"이라고 생각한다."
분류를 결정하는데 있어 확률적 모델을 사용하는데, 사전확률과 가능도함수를 적용한 베이지안 정리가 여기서도 적용이 된다.
또한, 판별함수를 통해 각 클래스로 분류될 수 있다.
분류 모델을 진행하는 과정에서도 최소제곱법이 적용된다.
hyperplane과 가장 작은 에러를 보인 클래스에 해당 입력변수를 할당해야 하기 때문이다.
해당 과정에서 앞서 다룬 회귀와의 가장 큰 차이로는 outlier가 있고, 이로 인해 target의 확률분포에 대해 잘못된 가정이 문제가 될 수 있다.이진 분류 기법으로는 대표적으로 (Multiple) Logistic Regression이 있다.
분류에 있어 복잡도가 올라가게 되면, MLP를 도입한 딥러닝 기법을 활용해야 한다.
데이터 분석에 있어 분류 모델이든, 회귀 모델이든 올바른 문제 정의 단계 이후 결국 데이터를 올바르게 이해하여 파생변수를 생성하고, EDA를 통한 인사이트 도출 과정을 거친 전처리 후 앞서 다룬 문제 정의를 기반으로 LOSS Function을 최소화하며 모델의 품질을 지속적으로 개선해야 한다.
이에 앞서 트렌드에 뒤쳐지지 않게 새로운 기술들을 학습하는 습관을 들여 더 좋은 tool을 기반으로 정의한 문제를 개선하고자 하는 방향으로 데이터 분석을 진행하는 것이 중요.