M: Spammer owned page N: pages on the web X: accessible page들에 의한 PageRank Y: t의 PageRank
각 farm에서 오는 rank = Mβy+N1−β Y=x+βM[Mβy+N1−β]+N1−β Y=1−β2x+cNM
결국 M이 클수록 Y가 증가함
Trust Rank
spam 처리
Term
이메일 스팸 걸러 내는 것과 유사
통계학적 기법을 통해 분석
복제된 페이지 탐지에도 좋음
link
spam farm 같은 구조를 탐지하고 블랙리스트에 올린다
Trust Rank
믿을 수 있는 페이지들의 집합으로 텔레포트 하는 Topic-specific PageRank
Idea of Trust Rank
Approximat isolation : 좋은 페이지가 스팸 페이지를 가리키는 건 거의 없다
seed page를 샘플로 몇개 고른다
인간이 seed page를 판별한다
비싼 작업이기에 크기가 작으면 작을수록 좋다
여기서 good으로 분류된 페이지를 "Trusted Page"
그 뒤로 teleport-set에 Trusted Page를 널고 Topic-specific PageRank 진행
0~1의 trust 값을 가집
임계값을 이용해 스팸 구분
Simple Model
Trusted page의 trust값을 1로
page p의 trust 값: tp
P의 outgoing link 가리키는 노드들의 집합 op
q∈op: p가 q에게 trust값을 주다
Trust는 누적값임
Topic-specific PageRank 비슷하지만 초기값 설정이 다르다
Seed set 고르기
적당한 크기를 골라야함
고르는 방법
PageRank
Use trusted domains
Spam mass
rp: p의 페이지 랭크
rp+: p의 페이지 (신뢰한 페이지로 텔레포트 한 경우)
rp−=rp+−rp : 스팸 페이지에서 오는 랭크값
spam mass p = rprp−
HITS (Hpertext-Induced Topic Selectopn)
페이지 랭크와 비슷한 개념, Link as votes
그러나 페이지 랭크와는 다르게 u 에서 나가는 노드를 중요하게 여김