대체로 frequent itemset generation이 시간복잡도가 더 높다.
1) 사용자가 정의한 minsup에 의거해 frequent 1-itemset을 먼저 만든다.
2) frequent 1-itemset을 내림차순 정렬한다.
3) DB를 스캔해서 FP-tree를 만든다.
1) 어떤 데이터 에 대해서 conditional pattern bases를 만든다.
2) conditional FP-trees를 만든다.
3) 재귀적으로 계속 FP-trees를 마이닝한다.
Frequent itemset 가 있다고 할 때, 는 아이템셋 를 포함하고 있는 conditional pattern base라고 하자. 이 때, 에 있는 아이템 가 빈번하다면, 도 무조건 빈번하다.
즉, c(ABC D)는 c(AB D)보다 크거나 작을 수도 있다.
Null-invariance는 correlation analysis를 하는데 중요한 역할을 수행한다.
Null-invariant는 두 개의 사건이 독립적일 떄 기댓값과 비교하여 상호작용 빈도를 측정하는 척도이다. 즉, 두 사건이 서로 독립적인지 확인하는 역할을 수행한다.
만약 Null-invariant measure가 1에 가깝다면, 두 사건은 독립적이라는 뜻이 된다.
Positively Correlated: 두 제품을 따로 사는 사람에 비해 두 제품을 동시에 사는 사람이 더 크다.
Negatively Correlated: 두 제품을 따로 사는 사람에 비해 두 제품을 동시에 사는 사람이 더 적다.
위와 같은 특별한 경향성이 나오지 않는다면 Kulczynski는 0.5로, 중립적으로 나온다.
반면 '제품 하나만 사는 경우' 가 서로 불균등할 경우, IR이 크게 증가한다.
Lift나 는 null-invariant가 아니다.
Null-invariant 측정은 5가지가 있다.
1) AllConf(a,b)
2) Coherence(a,b)
3) Cosine(a,b)
4) Kulc(a,b)
5) MaxConf(a,b)
IR(Imbalance Ratio)는 두 데이터가 서로 얼마나 얼마나 불균등한지 나타낸다.
Kulczynski(=Kulc)와 IR은 각 데이터셋의 분포 상태를 나타내는데 사용된다.