장바구니 분석으로도 불리며 '치킨을 구매한 고객은 콜라를 구매할 확률이 높다'와 같이 고객들의 구매 패턴을 분석하여 의미 있는 규칙을 찾아내는 분석이다. 조건에 따른 결과의 형태로 'IF~Then~'으로 해석된다.
연관분석은 탐색적 기법의 일종으로 조건 반응에 의해 표현되어 결과를 쉽게 이해할 수 있다. 또한 특별한 분석 의도가 없는 비지도학습 유형으로 다양하게 활용될 수 있다. 사용이 편리하고 계산이 간단하다.
하지만 연관분석은 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가할 수 있다. 이를 개선하기 위해 유사한 품목을 하나의 범주로 일반화하는 작업을 수행하기도 한다. 너무 세분화된 품목으로 연관규칙을 찾으면 의미없는 분석이 될 수 있다.
(2) ⭐연관분석의 측도⭐
1. 지지도(support)
전체 거래 중에서 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율로, 지지도가 높다는 것은 그 두 개의 아이템이 같이 잘 팔린다는 것을 의미한다.
신뢰도
어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률로, 조건부확률로 나타낼 수 있다.
A가 구매되었을 때 B가 구매될 확률인 신뢰도(A->B)와 B가 구매되었을 때 A가 구매될 확률인 신뢰도(B->A)는 다르다.
향상도
품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸 값이다.
신뢰도와 달리 향상도(A->B)와 향상도(B->A)는 같다.
2) 연관분석의 알고리즘과 특징
(1) ⭐연관분석의 알고리즘⭐
1. apriori 알고리즘
가능한 모든 경우의 수를 탐색하여 측정지표가 높게 나타나는 연관규칙을 찾는 방식은 아이템의 수가 증가할수록 계산에 소요되는 시간과 복잡도가 기하급수적으로 증가하게 된다.
apriori 알고리즘은 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소시키는 알고리즘이다.
apriori 알고리즘 절차
apriori 알고리즘은 품목 수의 증가에 따른 계산량의 증가와 낮은 지지도를 갖는 품목은 의미 없는 결과를 도출할 수 있는 문제를 해결하고자 최소 지지도를 도입하였으나 여전히 많은 계산량을 필요로 한다. apriori 알고리즘 절차는 다음과 같다.
FP-Growth 알고리즘
FP-Growth 알고리즘은 데이터셋이 큰 경우 모든 아이템셋을 하나씩 검사하는 것이 비효율적이라는 문제점에서 탄생했다.
FP-Growth 알고리즘은 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 차츰 올라가면서 빈도수가 높은 아이템 집합을 생성하는 상향식 알고리즘이다. apriori 알고리즘보다 속도가 빠르며, 연산 비용이 저렴하다.
(2) ⭐연관분석의 특징
품목 세분화에 대한 어려움이 있다. 예를 들어, '치킨을 사면 탄산음료를 산다'같은 의미 있는 규칙을 찾았을 때를 가정해 보자. 탄산음료를 지나치게 세분화한다면 '치킨을 사면 콜라를 산다' 또는 '치킨을 사면 사이다를 산다'같은 의미 있는 규칙을 찾지 못할 수도 있기 때문이다.