오늘날 정제된 학습 데이터 부족함. 전처리가 잘된 데이터가 필요함.
시티즌 데이터 사이언티스트(Citizen Data Scientist·CDS)는 자신의 전문 분야가 따로 있으면서 데이터 가공 능력을 기본 소양으로 갖추고 있는 사람들을 뜻함.
목표 변수에 따라 지도학습 비지도학습으로 구분됨.
예시) 특정 요인에 따라 제품의 강도가 달라진다고 하자 이때 여기서 강도는 목표 변수이다.
분류(Classification)
: 새로운 데이터를 특정 그룹으로 할당하기 위한 최적 분류 규칙(또는 함수, 모형)을 유도하는 기법
판별분석(Discriminant Analysis)
로지스틱 회귀(Logistic Regression)
의사 결정 트리(Decision Tree)
예측(Predicition)
: 독립변수(입력변수)와 종속변수(목표변수)사이의 함수 식을 찾아 종속변수(목표변수)의 값을 예측하는 모형을 만드는 기법
선형 회귀(Linear Regression)
의사 결정 트리(Decision Tree)
시계열 분석(Time Series Analysis)
분석(Clustering)
: 데이터의 여러 속성들을 비교하여 유사한 특성을 갖는 개체나 항목들을 몇개의, 군집으로 집단화 하는 기법
계층적(Hierarchical)/비계층적
모델 기반(SOM 등)
연관 규칙-Association Rule
: 데이터 속에 내재된 다양한 패턴을 찾아내기 위한 기법으로, 데이터 안에 존재하는 항목들 간의 종속관계를 찾아내는 기법
순차(Sequential)연관성