비지도학습, 반지도학습

하루하루 개발일기·2021년 11월 9일

인공지능

목록 보기

11/20

비지도학습(unsupervised learning)

학습데이터에 입력값은 있는데, 출력값없는 경우에 행하는 학습 방식
결과정보가 없는 데이터들에 대해서 특정 패턴을 찾는 것

데이터에 잠재한 구조, 계층구조를 찾아내는 것

숨겨진 사용자 집단을 찾는 것

문서들을 주제에 따라 구조화하는 것

로그 정보를 사용하여 사용패턴을 찾아내는 것

대상: 군집화, 밀도추정, 차원축소

군집화(clustering)

유사성에 따라 데이터를 분할(그룹핑)하는 것

일반 군집화(hard clustering)
- 데이터는 하나의 군집에만 소속
  ex) k-means 알고리즘
퍼지 군집화(fuzzy clustering)
- 데이터가 여러 군집에 부분적으로 소속
- 소속정도(각각의 군집에 소속될 확률)의 합은 1이 됨
  ex) 퍼지 k-means 알고리즘
용도
1. 데이터에 내재된 구조 추정
2. 데이터의 전반적 구조 통찰
3. 가설 설정, 이상치(다른 데이터와 동떨어진 데이터) 감지
4. 데이터 압축 : 동일 군집의 데이터를 같은 값으로 표현
5. 데이터 전처리 작업
성능 : 군집내의 분산(작을 때 좋음)과 군집간의 거리(멀수록 좋음)

밀도추정(density estimation)

부류별 데이터를 만들어 냈을 것으로 추정되는 확률분포를 찾는 것

용도
1. 각 부류 별로 주어진 데이터를 발생시키는 확률 계산
2. 가장 확률이 높은 부류로 분류
모수적(parametric) 밀도 추정
1. 분포가 특정 수학적 함수의 형태를 가지고 있다고 가정
2. 주어진 데이터를 가장 잘 반영하도록 함수의 파라미터 결정
3. 전형적인 형태: 가우시안 함수 또는 여러 개의 가우시안 함수의 혼합
비모수적(non-parametric) 밀도 추정
1. 분포에 대한 특정 함수를 가정하지 않고, 주어진 데이터를 사용하여 밀도함수의 형태 표현
2. 전형적인 형태: 히스토그램(histogram)

차원축소(dimension reduction)

고차원의 데이터를 정보의 손실을 최소화하면서 저차원으로 변환하는 것

목적
1. 2,3차원으로 변환해 시각화하면 직관적 데이터 분석 가능
2. 차원의 저주(curse of dimensionality) 문제 완화
차원의 저주
1. 차원이 커질수록 거리분포가 일정해지는 경향(특정한 거리값을 중심으로 몰리게 된다)
2. 차원이 증가함에 따라 부분공간의 개수가 기하급수적으로 증가
주성분 분석(Principal Component Analysis, PCA)
1. 분산이 큰 소수의 축들을 기준으로 데이터를 사상하여 저차원으로 변환
2. 데이터의 공분산행렬에 대한 고유값이 큰 소수의 고유벡터를 사상 축으로 선택

이상치(outlier) 탐지

이상치

다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터

관심 대상

잡음

관측 오류, 시스템에서 발생하는 무작위적인 오차

관심이 없는 제거할 대상

신규성 탐지(novelty detection)와 관련

점 이상치(point outlier)
1. 다른 데이터와 비교하여 차이가 큰 데이터
상황적 이상치(contextual outlier)
1. 상황에 맞지 않는 데이터
  ex) 여름철에 25도인 데이터는 정상, 겨울철에 25도는 이상치
집단적 이상치(collective outlier)
1. 여러 데이터를 모아서 보면 비정상으로 보이는 데이터들의 집단
용도
- 부정사용감지 시스템(FDS)
  - 이상한 거리 승인 요청 시에 카드 소유자에게 자동으로 경고 메시지 전송
- 침입탐지 시스템(IDS)
  - 네트워크 트래픽을 관찰하여 이상 접근 식별

반지도 학습(semi-supervised learning)

입력에 대한 결과값이 없는 미분류 데이터를 지도학습에 사용하는 방법

분류된 데이터는 높은 획득 비용, 미분류 데이터는 낮은 획득 비용
분류 경계가 인접한 미분류 데이터들이 동일한 집단에 소속하도록 학습
같은 군집에 속하는 것은 가능한 동일한 부류에 소속하도록 학습

반지도학습의 가정

평활성(smoothness) 가정
가까이 있는 접들은 서로 같은 부류에 속할 가능성이 높음

군집(cluster) 가정
같은 군집에 속하는 데이터는 동일한 부류에 속할 가능성이 높음

매니폴드(manifold) 가정
원래 차원보다 낮은 차원의 매니폴드에 데이터가 분포할 가능성이 높음

하루하루 개발일기

개발자로 공부하며 느낀 여러가지 경험들

이전 포스트

확률기반 불확실성 표현

다음 포스트

비지도학습, 반지도학습

인공지능

비지도학습(unsupervised learning)

군집화(clustering)

밀도추정(density estimation)

차원축소(dimension reduction)

이상치(outlier) 탐지

반지도 학습(semi-supervised learning)

반지도학습의 가정

확률기반 불확실성 표현

결정 트리

0개의 댓글