[ADsP] 정형 데이터 마이닝 - 연관분석(Association Analysis)

박진우·2022년 7월 3일
0

ADsP

목록 보기
15/16
post-custom-banner

💡연관분석(Association Analysis)

연관분석 이란?

  • 항목들간의 조건-결과 식으로 표현되는 유용한 패턴

  • 상품의 구매, 서비스 등 일련의 거래·사건들 간의 규칙을 발견하기 위해 적용.

  • 연관규칙을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석 또는 서열분석(Sequence Analy-sis)이라고 불린다.

  • 장바구니 분석 : 장바구니에 무엇이 같이 들어 있는지에 대한 분석

  • 서열분석 : A를 산 다음에 B를 산다



◽ 연관규칙의 형태

조건과 반응의 형태(if-then)로 이루어져 있다.

(Item set A) ➡️ (Item set B) If A then B : 만일 A가 일어나면 B가 일어난다.
  • 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다.

  • 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.

  • 온도가 높아지면 아이스크림을 구매량이 높아진다.




◽연관분석의 측도 3가지

◾ 1) 지지도(Support)

전체 거래 항목 중 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.

  • P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수

  • 지지도는 좋은 규칙(빈도가 많거나, 구성비가 높거나)을 찾거나 불필요한 연산들을 줄일때 기준으로 사용합니다.


◾ 2) 신뢰도(Confidence)

항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다.

  • P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수

  • 연관성의 정도를 파악할 수 있다.


◾ 3) 향상도(Lift)

A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다.

  • 연관규칙 A ➡️ B는 품목 A와 품목B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.

  • P(A ∩ B) / P(A) × P (B) = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률

  • 향상도가 1보다 높을 수록 연관성이 높다.

  • 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미이다.

  • Lift > 1 : 품목간 상호 의 상관관계가 있다.

서로 상관이 있다 A를 사면 B도 산다.

  • Lift = 1 : 품목간 상호 독립적인 관계에 있다.

  • 0 < Lift < 1 : 품목간 상호 음의 상관관계가 있다.

서로 상관이 없다.




◽ Apriori 알고리즘 분석 절차

  • 최소지지도를 설정한다.

  • 개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다.

  • 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾는다.

  • 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.

  • 반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾는다.




◽ 연관규칙의 장점과 단점

장점 단점
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉽다.

- 강력한 비목적성 분석기법

- 사용 편리한 분석 데이터 분석

- 계산의 용이성
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가한다.

- 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출된다.

- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다.

- 조건을 세분화 하면 오히려 어렵다.



본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[위키피디아,데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 밝힙니다.
post-custom-banner

0개의 댓글