[Week 5-4] πŸ”—μ •μ  ν‘œν˜„ ν•™μŠ΅

JadeΒ·2021λ…„ 2μ›” 25일
0

λΆ€μŠ€νŠΈμΊ ν”„ AI Tech

λͺ©λ‘ 보기
24/54

5μ£Όμ°¨ λͺ©μš”일

  • 정점 ν‘œν˜„ ν•™μŠ΅ - λ³€ν™˜μ‹ μž„λ² λ”©

πŸ“[정점 ν‘œν˜„ ν•™μŠ΅ - λ³€ν™˜μ‹ μž„λ² λ”©]

정점 ν‘œν˜„ ν•™μŠ΅ : κ·Έλž˜ν”„μ˜ 정점듀을 벑터 ν˜•νƒœλ‘œ ν‘œν˜„ν•˜λŠ” κ²ƒμœΌλ‘œ, 정점 μž„λ² λ”©, λ…Έλ“œ μž„λ² λ”©μ΄λΌκ³  λΆ€λ₯΄κΈ°λ„ ν•œλ‹€.
κΈ°κ³„ν•™μŠ΅μ— μ‚¬μš©λ˜λŠ” λΆ„λ₯˜κΈ°(λ‘œμ§€μŠ€ν‹± νšŒκ·€, MLP)λ‚˜ ꡰ집 뢄석 μ•Œκ³ λ¦¬μ¦˜ 등은 벑터 ν˜•νƒœλ‘œ ν‘œν˜„λœ 데이터λ₯Ό μž…λ ₯으둜 μ‚¬μš©ν•œλ‹€. λ”°λΌμ„œ κ·Έλž˜ν”„μ˜ 정점듀을 벑터 ν˜•μ‹μœΌλ‘œ ν‘œν˜„ν•˜κΈ° μœ„ν•΄ 정점 μž„λ² λ”©μ„ μ‚¬μš©ν•œλ‹€. κ·Έλž˜ν”„λ₯Ό μž…λ ₯λ°›μ•„ 각 정점 u에 λŒ€ν•œ μž„λ² λ”©(벑터 ν‘œν˜„) z_uλ₯Ό 좜λ ₯ν•˜λŠ”λ°, 이 λ•Œ 정점이 ν‘œν˜„λ˜λŠ” 벑터 곡간을 μž„λ² λ”© 곡간이라고 λΆ€λ₯Έλ‹€.

정점을 λ²‘ν„°λ‘œ λ³€ν™˜ν•  λ•ŒλŠ” κ·Έλž˜ν”„μ—μ„œμ˜ 정점 κ°„ μœ μ‚¬λ„λ₯Ό μž„λ² λ”© 곡간 λ‚΄μ—μ„œλ„ 보쑴할 수 μžˆλ„λ‘ ν•΄μ•Ό ν•œλ‹€. μž„λ² λ”© 곡간 λ‚΄μ—μ„œμ˜ μœ μ‚¬λ„λ₯Ό μΈ‘μ •ν•  λ•ŒλŠ” 내적을 μ‚¬μš©ν•œλ‹€. 내적은 두 벑터가 클수둝, 같은 λ°©ν–₯을 ν–₯ν• μˆ˜λ‘ 큰 값을 κ°–κΈ° λ•Œλ¬Έμ— 두 λ²‘ν„°μ˜ 내적이 크닀면 μœ μ‚¬λ„ μ—­μ‹œ 크닀고 λ³Ό 수 μžˆλ‹€. 정점 μž„λ² λ”©μ€ 1) κ·Έλž˜ν”„μ—μ„œμ˜ 정점 μœ μ‚¬λ„λ₯Ό μ •μ˜ν•˜λŠ” 단계 2) μ •μ˜ν•œ μœ μ‚¬λ„λ₯Ό λ³΄μ‘΄ν•˜λ„λ‘ 정점 μž„λ² λ”©μ„ ν•™μŠ΅ν•˜λŠ” 단계 순으둜 이루어진닀.

  • 인접성 기반 접근법
    두 정점이 인접해 μžˆμ„ λ•Œ μœ μ‚¬ν•˜λ‹€κ³  κ°„μ£Όν•˜λŠ” 방법이닀. 두 정점 u와 vκ°€ μΈμ ‘ν–ˆλ‹€λ©΄ λ‘˜μ„ 직접 μ—°κ²°ν•˜λŠ” 간선이 μžˆλ‹€. 인접행렬 Aμ—μ„œ uν–‰ vμ—΄μ˜ μ›μ†ŒλŠ” 두 정점 u,vκ°€ μΈμ ‘ν–ˆλ‹€λ©΄ 1, μΈμ ‘ν•˜μ§€ μ•Šμ•˜λ‹€λ©΄ 0이기 λ•Œλ¬Έμ— μΈμ ‘ν–‰λ ¬μ˜ μ›μ†Œ A_u,vλ₯Ό 두 μ •μ μ˜ μœ μ‚¬λ„λ‘œ κ°€μ •ν•  수 μžˆλ‹€. ν•˜μ§€λ§Œ 거리가 2인 정점과 거리가 6인 정점 λͺ¨λ‘ μœ μ‚¬λ„κ°€ 0이 λ˜μ–΄ μΈμ ‘μ„±λ§ŒμœΌλ‘œ μœ μ‚¬λ„λ₯Ό νŒλ‹¨ν•˜κΈ°μ—λŠ” ν•œκ³„κ°€ μžˆλ‹€.

  • 거리/경둜/쀑첩 기반 접근법

    • 거리 기반 접근법
      두 정점 μ‚¬μ΄μ˜ 거리가 μΆ©λΆ„νžˆ κ°€κΉŒμš΄ 경우 μœ μ‚¬ν•˜λ‹€κ³  κ°„μ£Όν•˜λŠ” 방법이닀. μΆ©λΆ„νžˆμ˜ 기쀀을 2둜 μž‘μ•˜μ„ 경우 거리가 2 μ΄ν•˜μΈ 정점듀을 μœ μ‚¬ν•˜λ‹€κ³  κ°„μ£Όν•œλ‹€.

    • 경둜 기반 접근법
      두 정점 μ‚¬μ΄μ˜ κ²½λ‘œκ°€ λ§Žμ„μˆ˜λ‘ μœ μ‚¬ν•˜λ‹€κ³  κ°„μ£Όν•˜λŠ” 방법이닀. 두 정점 u,v μ‚¬μ΄μ˜ 경둜 쀑 거리가 k인 κ²ƒμ˜ μˆ˜λŠ” 인접행렬 A의 k제곱의 uν–‰ vμ—΄μ˜ μ›μ†Œμ™€ κ°™λ‹€.

    • 쀑첩 기반 접근법
      두 정점이 λ§Žμ€ 이웃을 κ³΅μœ ν• μˆ˜λ‘ μœ μ‚¬ν•˜λ‹€κ³  κ°„μ£Όν•˜λŠ” 방법이닀. 곡톡 μ΄μ›ƒμ˜ 수 외에도 곡톡 μ΄μ›ƒμ˜ λΉ„μœ¨μ„ κ³„μ‚°ν•˜λŠ” μžμΉ΄λ“œ μœ μ‚¬λ„, 곡톡 이웃 각각에 κ°€μ€‘μΉ˜λ₯Ό λΆ€μ—¬ν•˜μ—¬ 가쀑합을 κ³„μ‚°ν•˜λŠ” Adamic Adar 점수λ₯Ό 톡해 μœ μ‚¬λ„λ₯Ό μΈ‘μ •ν•˜λŠ” 방법도 μžˆλ‹€.

  • μž„μ˜ 보행 기반 접근법
    ν•œ μ •μ μ—μ„œ μ‹œμž‘ν•˜μ—¬ μž„μ˜ 보행을 ν•  λ•Œ λ‹€λ₯Έ 정점에 도달할 ν™•λ₯ μ„ μœ μ‚¬λ„λ‘œ κ°„μ£Όν•˜λŠ” 방법이닀. (μž„μ˜ 보행 : ν˜„μž¬ μ •μ μ˜ 이웃 쀑 ν•˜λ‚˜λ₯Ό κ· μΌν•œ ν™•λ₯ λ‘œ 선택해 μ΄λ™ν•˜λŠ” κ³Όμ •)
    μž„μ˜ 보행을 μ‚¬μš©ν•  경우 μ‹œμž‘ 정점 μ£Όλ³€μ˜ 지역적 정보와 κ·Έλž˜ν”„ μ „μ—­ 정보λ₯Ό λͺ¨λ‘ κ³ λ €ν•  수 μžˆλ‹€λŠ” μž₯점이 μžˆλ‹€. μž„μ˜ 보행 기반 접근법은 λ‹€μŒκ³Ό 같은 단계λ₯Ό 거쳐 μˆ˜ν–‰λœλ‹€.

  1. 각 μ •μ μ—μ„œ μ‹œμž‘ν•˜μ—¬ μž„μ˜ 보행을 반볡 μˆ˜ν–‰ν•œλ‹€.
  2. μΆœλ°œν•œ 각 μ •μ λ³„λ‘œ μž„μ˜ 보행 쀑 λ„λ‹¬ν•œ μ •μ λ“€μ˜ 리슀트λ₯Ό κ΅¬μ„±ν•œλ‹€. 정점 uμ—μ„œ μΆœλ°œν•΄ μž„μ˜ 보행 쀑 λ„λ‹¬ν•œ μ •μ λ“€μ˜ 리슀트λ₯Ό N_R(u)라고 ν•œλ‹€. 이 λ•Œ ν•œ 정점에 μ—¬λŸ¬ 번 λ„λ‹¬ν•œ 경우 ν•΄λ‹Ή 정점은 N_R(u)에 μ—¬λŸ¬ 번 포함될 수 μžˆλ‹€.
  3. μ†μ‹€ν•¨μˆ˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” λ°©ν–₯으둜 μž„λ² λ”©μ„ ν•™μŠ΅ν•œλ‹€.

μž„μ˜ 보행 기반 μ ‘κ·Όλ²•μ—λŠ” DeepWalk와 Node2Vec이 μžˆλŠ”λ°, 두 기법은 μž„μ˜ 보행을 ν•˜λŠ” 방법이 μ’€ λ‹€λ₯΄λ‹€.

  • DeepWalk
    기본적인 μž„μ˜ 보행 방식을 μ‚¬μš©ν•œλ‹€. ν˜„μž¬ μ •μ μ˜ 이웃 쀑 ν•˜λ‚˜λ₯Ό κ· μΌν•œ ν™•λ₯ λ‘œ μ„ νƒν•˜μ—¬ μ΄λ™ν•œλ‹€.
  • Node2Vec
    2μ°¨ 치우친 μž„μ˜ 보행 방식을 μ‚¬μš©ν•œλ‹€. ν˜„μž¬ 정점과 직전에 λ¨Έλ¬Όλ €λ˜ 정점을 λͺ¨λ‘ κ³ λ €ν•˜μ—¬ λ‹€μŒ 정점을 μ„ νƒν•˜λŠ”λ°, 직전 μ •μ μ˜ 거리λ₯Ό κΈ°μ€€μœΌλ‘œ λ°©λ¬Έν•  λ‹€μŒ 정점이 1. 이전 정점과 κ°€κΉŒμ›Œμ§€λŠ” λ°©ν–₯ 2. 이전 μ •μ κ³Όμ˜ 거리가 μœ μ§€λ˜λŠ” λ°©ν–₯ 3. 이전 정점과 λ©€μ–΄μ§€λŠ” λ°©ν–₯ 3κ°€μ§€λ‘œ ꡬ뢄해 각 κ²½μš°λ³„λ‘œ 차등적인 ν™•λ₯ μ„ λΆ€μ—¬ν•œλ‹€. 차등적인 ν™•λ₯ μ€ μ‚¬μš©μžκ°€ κ²°μ •ν•  수 있으며, λΆ€μ—¬ν•˜λŠ” ν™•λ₯ μ— 따라 λ‹€λ₯Έ μ’…λ₯˜μ˜ μž„λ² λ”©μ„ μ–»κ²Œ λœλ‹€.
    λ©€μ–΄μ§€λŠ” λ°©ν–₯에 높은 ν™•λ₯ μ„ λΆ€μ—¬ν•˜λŠ” 경우 닀리, 변두리 λ“± μ •μ μ˜ 역할이 같은 κ²½μš°μ— μž„λ² λ”©μ΄ μœ μ‚¬ν•΄μ§„λ‹€. 반면, κ°€κΉŒμ›Œμ§€λŠ” λ°©ν–₯에 높은 ν™•λ₯ μ„ λΆ€μ—¬ν•  λ•ŒλŠ” 같은 ꡰ집에 μ†ν•˜λŠ” κ²½μš°μ— μž„λ² λ”©μ΄ μœ μ‚¬ν•΄μ§„λ‹€.

μœ„μ˜ 방법듀은 λ³€ν™˜μ‹ μž„λ² λ”© λ°©λ²•μœΌλ‘œ, ν•™μŠ΅μ„ 톡해 μ •μ μ˜ μž„λ² λ”© 자체λ₯Ό 얻을 수 μžˆλ‹€. 이와 λ°˜λŒ€λ˜λŠ” λ°©μ‹μœΌλ‘œλŠ” 귀납식 μž„λ² λ”© 방법이 μžˆλŠ”λ°, 귀납식 μž„λ² λ”©μ€ 정점을 μž„λ² λ”©μœΌλ‘œ λ³€ν™˜μ‹œν‚€λŠ” ν•¨μˆ˜(인코더)λ₯Ό μ–»λŠ” 방법이닀. λ³€ν™˜μ‹ μž„λ² λ”© 방법은 ν•™μŠ΅ 이후 μΆ”κ°€λœ μ •μ μ˜ μž„λ² λ”©μ„ 얻을 수 μ—†κ³  λͺ¨λ“  정점에 λŒ€ν•œ μž„λ² λ”©μ„ 미리 계산해 μ €μž₯ν•΄ 둬야 ν•˜λ©° μ •μ μ˜ 속성 정보λ₯Ό ν™œμš©ν•  수 μ—†λ‹€λŠ” 단점이 μžˆλ‹€.

profile
λ°˜κ°€μ›Œμš©

0개의 λŒ“κΈ€