관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법
회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다.
선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다.
주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다.
클러스터란 비슷한 특성을 가진 데이터들의 집단
반대로 데이터의 특성이 다르면 다른 클러스터에 속해야 한다.
= 비슷한 특성 데이터끼리 뭉치게 하는 것
고객 세분화(customer segmentation)와 같이 특성에 따른 그룹으로 나눠서 보고싶은 경우에 사용
주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 레이블(그룹 이름)이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할