지도학습 - 분류

친친·2022년 11월 16일
0

분류?
.입력된 데이터를 이미 정의된 몇 개의 클래스로 구분하는 문제
.학습 결과 : 결정경계와 결정함수

결정경계 접근법
.확률 기반 : 베이즈 분류기
.데이터 기반 : k-NN(최근접이웃) 분류기

베이즈 분류기
.확률분포에 기반한 분류
.클래스별 확률밀도
.이진 분류 문제
: x가 각 클래스에 속할 확률 중 확률값이 큰 클래스에 할당함

베이즈 분류기의 구현
.가우시안 확률분포를 가정
.공분산행렬의 형태에 따른 판별함수
-클래스 공통 단위 공분산행렬 : 최소거리 분류기
-클래스 공통 공분산행렬: 마할라노비스 거리, 정규화된 유클리디안 거리 (타원형 형태)
-일반적인 공분산 행렬 (서로다른 타원형)

k-최근접이웃 분류기
.클래스와 상관없이 모든 데이터 중에서 가장 작은 거리값을 갖는 데이터의 클래스로 할당
.과다적합 문제

가우시안 베이즈 분류기 vs k-최근접이웃 분류기
.가우시안 베이즈 분류기
-각 클래스에 대한 확률분포함수를 미리 가정하고 추정
-학습데이터를 통해 평균과 표준편차만 계산하여 활용
-분류 과정에서 학습 데이터 불필요
.k-최근접이웃 분류기
-미리 가정하지 않고 데이터 집합을 이용하여 추정
-새 데이터가 주어질 때마다 학습 데이터 전체와의 거리 계산이 필요
-항상 학습 데이터를 저장 -> 비용 증가

k-NN 분류기 고려사항
.적절한 k값의 결정
.k=1 : 바로 이웃한 데이터에만 의존, 노이즈에 민감, 과다적합 문제 발생
.k>>1 : 전체 데이터 영역에서 각 클래스가 차지한느 비율(선험확률)에 의존

profile
웹개발 블로그

0개의 댓글