[ADsP] 3-11. 연관분석

Mini·2022년 8월 25일
0

ADsP

목록 보기
17/17

(1)-1 연관분석 (장바구니 분석)

  • 치킨을 구매한 고객은 콜라를 구매할 확률이 높다와 같이 고객들의 구매 패턴을 분석하여 의미있는 규칙을 나타내는 분석
  • 조건에 따른 결과의 형태로 'IF ~ Then~'으로 해석
  • 탐색적 기법의 일종, 조건 반응에 의해 표현 -> 결과 쉽게 이해 가능
  • 비지도 학습 유형으로 다양하게 사용 가능
  • 사용이 편리하고 계산이 간단
  • 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가 <- 최소 지지도 이상의 품목에 대해서만 분석 시행
  • 유사한 품목을 하나의 범주로 일반화하는 작업을 수행
  • 너무 세분화된 품목으로 연관규칙을 찾으면 의미없는 분석이 될 수 있음
  • 장점 : 결과가 단순.분명, 분석 위한 계산 간단, 목적변수가 없으므로 데이터 탐색위해 사용 가능
  • 단점 : 품목 세분화에 어려움이 있다, 품목수의 증가는 기하급수적인 계산량의 증가를 초래, 거래가 발생하지 않은 품목에 대해서 분석이 불가능
  • 결과 확인하기 위해서는 inspect 사용

(1)-2 연관분석 척도

  • 지지도 (support) -> 전체 거래 중에서 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율
    • 지지도가 높다는 것은 그 두개의 아이템이 같이 잘 팔린다는 것을 의미
    • P(AnB) = A와 B가 동시에 포함된 거래 수 / 전체 거래 수
  • 신뢰도 -> 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률, 조건부 확률로 나타낼 수 있음
    • 신뢰도(A->B) = P(A|B) = A와 B가 동시에 포함된 거래수 / A가 포함된 거래수
    • 신뢰도(B->A) = p(B|A) = A와 B가 동시에 포함된 거래수 / B가 포함된 거래수
  • 향상도 -> 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸 값
    • 향상도(A->B) = 신뢰도(A->B)/P(B) = P(AnB)/P(A)P(B)
    • 향상도(B->A) = 신뢰도(A->B)/P(A) = P(AnB)/P(B)P(A)
    • 향상도(A->B) : < 1 => 음의 상관관계, = 1 => 관계 없음, > 1 => 양의 상관관계

(1)-3 연관분석 알고리즘

  • apriori 알고리즘 -> 가능한 모든 경우의 수를 탐색하여 측정지표가 높게 나타나는 연관규칙을 찾는 방식은 아이템의 수가 증가할수록 계산에 소요되는 시간과 복잡도가 기하급수적으로 증가

    • 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소시키는 알고리즘
  • FP-Growth 알고리즘 -> 데이터 셋이 큰 경우 모든 아이템 셋을 하나씩 검사하는 것이 비효율적이라는 문제점에서 탄생

    • apriori 알고리즘보다 속도가 빠르며, 연산 비용이 저렴

    • 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 자츰 올라가면서 빈도수가 높은 아이템 집합을 생성하는 상향식 알고리즘

    • 순차패턴분석 - 연관분석에 시간 개념이 추가됨.

0개의 댓글