DevCourse TIL Day5 Week16 - Linear Classification

김태준·2023년 7월 21일
0

Data Enginnering DevCourse

목록 보기
76/93
post-thumbnail

회귀에 이어 분류 학습
분류에 있어 가장 중요한 목표는 "X (row)를 K개의 가능한 클래스 중 하나의 클래스로 할당하는 것"이라고 생각한다."

분류를 결정하는데 있어 확률적 모델을 사용하는데, 사전확률과 가능도함수를 적용한 베이지안 정리가 여기서도 적용이 된다.
또한, 판별함수를 통해 각 클래스로 분류될 수 있다.

✅ Classification

분류 모델을 진행하는 과정에서도 최소제곱법이 적용된다.
hyperplane과 가장 작은 에러를 보인 클래스에 해당 입력변수를 할당해야 하기 때문이다.
해당 과정에서 앞서 다룬 회귀와의 가장 큰 차이로는 outlier가 있고, 이로 인해 target의 확률분포에 대해 잘못된 가정이 문제가 될 수 있다.

이진 분류 기법으로는 대표적으로 (Multiple) Logistic Regression이 있다.
분류에 있어 복잡도가 올라가게 되면, MLP를 도입한 딥러닝 기법을 활용해야 한다.

🎇 정리

데이터 분석에 있어 분류 모델이든, 회귀 모델이든 올바른 문제 정의 단계 이후 결국 데이터를 올바르게 이해하여 파생변수를 생성하고, EDA를 통한 인사이트 도출 과정을 거친 전처리 후 앞서 다룬 문제 정의를 기반으로 LOSS Function을 최소화하며 모델의 품질을 지속적으로 개선해야 한다.

이에 앞서 트렌드에 뒤쳐지지 않게 새로운 기술들을 학습하는 습관을 들여 더 좋은 tool을 기반으로 정의한 문제를 개선하고자 하는 방향으로 데이터 분석을 진행하는 것이 중요.

profile
To be a DataScientist

0개의 댓글