본 포스팅은 <데이터 애널리틱스>를 참고하여 작성되었습니다.
작업 T, 측정된 성능을 P, 경험을 E라고 하자. 어떤 컴퓨터 프로그램이 T를 수행할 때 E가 증가함에 따라 P도 증가하면 그 프로그램은 T 수행에 있어서 E로부터 학습한다고 말할 수 있다. - Tom Mitchell, 1997
머신러닝은 컴퓨터에게 실생활에 대한 관측값과 실생활과의 상호작용에서 획득한 데이터와 정보를 제공함으로써, 컴퓨터가 인간처럼 학습하고 행동하도록 하며 그 학습이 시간에 지남에 따라 자율적인 방식으로 향상되도록 하는 과학 분야 - Daniel Faggella, 2017
: 입력 속성 값과 목표 속성 값의 쌍으로 구성된 데이터 집합이 주어졌을 때 입력속성 값으로부터 목표속성(class, label) 값을 만들어내는 매핑 함수(Mapping Function)를 구축하는 학습 방법
: 레이블이 없는 데이터 집합이 주어졌을 때 그 데이터의 내부 구조를 기술하는 모델을 구축하는 학습 방법
: 지도 학습과 비지도 학습을 혼합해 사용하는 방법
: 학습을 하는 주체 (Agent)가 환경으로부터 받는 피드백을 기반으로 상호작용하면서 학습해나가는 방법
회귀 분석 (Regression Analysis)
: 독립 변수와 종속 변수 간의 관계를 나타내는 식을 도출해서 독립변수로 종속변수를 설명하고 예측하는 기법
로지스틱 회귀 분석 (Logistic Regression Analysis)
: 종속 변수가 이진인 문제에 사용하는 회귀 분석
선형 판별 분석 (LDA : Linear Discriminant Analysis)
: 종속 변수에 따라 데이터를 분류해내는 독립변수의 선형 조합을 찾는 기법
베이즈 분류기 (Bayes Classifier)
: 독립변수가 서로 독립적이라는 가정하에 베이즈 정리를 이용해 데이터를 분류하는 기법
의사결정 트리 (Decision Tree)
: 큰 데이터 집합을 목표속성 값에 대해 연속적으로 작은 데이터 집합으로 나누는 규칙을 도출해 목표속성의 값을 예측하거나 데이터를 분류하는 기법
랜덤 포레스트 (Random Forest)
: 여러 개의 의사결정 트리를 무작위로 만들어서 그 결과들을 결합해 목표속성의 값을 예측하거나 데이터를 분류하는 기법
서포트 벡터 머신 (Support Vector Machine)
: 데이터 집합의 목표 속성 클래스 사이의 간격을 최대화하는 경계선을 찾아서 데이터를 분류하는 기법
인공 신경망 (Artificial Neural Network)
: 수많은 데이터 처리 요소를 네트워크로 연결해 그들을 연결하는 선의 가중치를 조정함으로써 목표속성의 값을 예측하거나 데이터를 분류하는 기법
딥러닝 (Deep Learning)
: 입력 계층과 출력 계층 사이에 있는 은닉 계층의 개수가 세 개 이상으로 구성된 신경망
군집 분석 (Cluster Analysis)
: 레코드를 구성하는 속성의 정보만 사용해 데이터 집합을 그룹으로 나누는 기법
연관 분석 (Association Analysis)
: 데이터 집합으로부터 속성 간의 유용한 관계를 나타내는 규칙을 도출하는 기법
Reference
[1] 데이터 애널리틱스 (2020, 이재식)