연관분석 이란?
항목들간의 조건-결과 식으로 표현되는 유용한 패턴
상품의 구매, 서비스 등 일련의 거래·사건들 간의 규칙을 발견하기 위해 적용.
연관규칙을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석 또는 서열분석(Sequence Analy-sis)이라고 불린다.
장바구니 분석 : 장바구니에 무엇이 같이 들어 있는지에 대한 분석
서열분석 : A를 산 다음에 B를 산다
조건과 반응의 형태(if-then)로 이루어져 있다.
(Item set A) ➡️ (Item set B) If A then B : 만일 A가 일어나면 B가 일어난다.아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다.
샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.
온도가 높아지면 아이스크림을 구매량이 높아진다.
전체 거래 항목 중 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.
P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
지지도는 좋은 규칙(빈도가 많거나, 구성비가 높거나)을 찾거나 불필요한 연산들을 줄일때 기준으로 사용합니다.
항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다.
P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
연관성의 정도를 파악할 수 있다.
A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다.
연관규칙 A ➡️ B는 품목 A와 품목B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.
P(A ∩ B) / P(A) × P (B) = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
향상도가 1보다 높을 수록 연관성이 높다.
즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미이다.
Lift > 1 : 품목간 상호 양의 상관관계가 있다.
서로 상관이 있다 A를 사면 B도 산다.
Lift = 1 : 품목간 상호 독립적인 관계에 있다.
0 < Lift < 1 : 품목간 상호 음의 상관관계가 있다.
서로 상관이 없다.
최소지지도를 설정한다.
개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다.
찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾는다.
찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.
반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾는다.
장점 | 단점 |
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉽다. - 강력한 비목적성 분석기법 - 사용 편리한 분석 데이터 분석 - 계산의 용이성 |
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가한다. - 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출된다. - 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다. - 조건을 세분화 하면 오히려 어렵다. |
본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[위키피디아,데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 밝힙니다.