Scraping & Crawling

μ •μŠΉμ›Β·2023λ…„ 4μ›” 5일
0
post-thumbnail
post-custom-banner

πŸ“’ λͺ©μ°¨

  • πŸ“Œ μŠ€ν¬λž˜ν•‘μ΄λž€?
  • πŸ“Œ ν¬λ‘€λ§μ΄λž€?
  • πŸ“Œ μŠ€ν¬λž˜ν•‘κ³Ό 크둀링의 차이
  • πŸ“Œ μ°Έμ‘°

πŸ“Œ μŠ€ν¬λž˜ν•‘μ΄λž€?

μŠ€ν¬λž˜ν•‘μ΄λž€ νŠΉμ • μ›Ή μ‚¬μ΄νŠΈμ— κ°€μ„œ ν•΄λ‹Ή μ›Ήμ‚¬μ΄νŠΈμ˜ HTML을 κΈμ–΄μ˜€λŠ” 것을 μ˜λ―Έν•œλ‹€.

이렇듯 μŠ€ν¬λž˜ν•‘μ„ μ‚¬μš©ν•˜κ²Œ 되면 ν•΄λ‹Ή μ›Ήμ‚¬μ΄νŠΈμ— λŒ€ν•œ 정보λ₯Ό 직접 μž…λ ₯ν•˜μ§€ μ•Šμ•„λ„ μ‚¬μ΄νŠΈ 정보λ₯Ό 링크만 가져와도 λ‚˜νƒ€λ‚Ό 수 μžˆλ‹€.

μœ„μ˜ 사진을 보게되면, μœ μ €κ°€ μž‘μ„±ν•œ λ‚΄μš©μ— httpκ°€ ν¬ν•¨λœ URL이 μžˆλ‹€λ©΄, ν•΄λ‹Ή μ‚¬μ΄νŠΈμ˜ open graphκ°€ μžˆλŠ” λΆ€λΆ„μ˜ λ‚΄μš©μ„ 긁어와 μ €μž₯ν•˜λŠ” 것을 확인할 수 μžˆλ‹€.

예λ₯Όλ“€μ–΄, μ•„λž˜μ˜ λ„€μ΄λ²„μ˜ 경우λ₯Ό 보게되면 <head> νƒœκ·Έ μ•ˆμ— meta νƒœκ·Έλ“€μ΄ 있고, κ·Έ μ€‘μ—μ„œ propertyκ°€ og둜 μ‹œμž‘ν•˜λŠ” νƒœκ·Έλ“€μ΄ 보인닀.

ν•΄λ‹Ή νƒœκ·Έλ“€μ˜ λ‚΄μš©μ„ μŠ€ν¬λž˜ν•‘ν•˜κ²Œ 되면 μœ„μ˜ 결과와 같이 og νƒœκ·Έμ˜ λ‚΄μš©μ„ μŠ€ν¬λž˜ν•‘ν•΄μ˜¬ 수 μžˆλ‹€.

πŸ“Œ ν¬λ‘€λ§μ΄λž€?

크둀링은 URL을 반볡적으둜 νƒμƒ‰ν•˜μ—¬ 링크λ₯Ό μ°Ύκ³  κ°€μ Έμ˜€λŠ” 것이닀. μ›Ή νŽ˜μ΄μ§€λ₯Ό λŒμ•„λ‹€λ‹ˆλ©° 정보λ₯Ό μˆ˜μ§‘ν•œλ‹€.

πŸ“Œ μŠ€ν¬λž˜ν•‘κ³Ό 크둀링의 차이

μŠ€ν¬λž˜ν•‘κ³Ό 크둀링은 정보λ₯Ό μΆ”μΆœν•œλ‹€λŠ” μ μ—μ„œ 곡톡점을 κ°–κ³  μžˆλ‹€. ν•˜μ§€λ§Œ 정보λ₯Ό μΆ”μΆœν•˜λ €λŠ” 타깃 μ›Ή νŽ˜μ΄μ§€μ˜ μœ λ¬΄μ™€ 쀑볡 μ‹€ν–‰ λΆ€λΆ„μ—μ„œ 차이가 λ‚˜νƒ€λ‚œλ‹€.

크둀링의 경우, 타깃 μ›ΉνŽ˜μ΄μ§€κ°€ μ—†λ‹€. 일단 탐색을 μ‹œμž‘ν•˜κ³  정보λ₯Ό κ°€μ Έμ˜¨λ‹€. ν•˜μ§€λ§Œ μŠ€ν¬λž˜ν•‘μ€ 타깃 μ›Ή νŽ˜μ΄μ§€κ°€ μ‘΄μž¬ν•œλ‹€. λ”°λΌμ„œ μ–΄λ– ν•œ 정보λ₯Ό κ°€μ Έμ˜¬ 지 μ •ν•˜κ³  정보λ₯Ό κ°€μ Έμ˜¨λ‹€.

λ˜ν•œ, ν¬λ‘€λ§μ—μ„œλŠ” μ€‘λ³΅μ œκ±°κ°€ ν•„μˆ˜μ΄λ‹€. ν•˜μ§€λ§Œ μŠ€ν¬λž˜ν•‘μ€ μ€‘λ³΅μ œκ±°κ°€ ν•„μˆ˜λŠ” μ•„λ‹ˆλ‹€.

πŸ“Œ μ°Έμ‘°

https://codebootcamp.co.kr/

post-custom-banner

0개의 λŒ“κΈ€