Scrapping, Crawling

JUNHO YEOM·2022년 7월 30일
0

CS

목록 보기
1/2

스크래핑 (Scrapping)

크롤링이란 웹사이트에서 데이터를 추출하는 것을 말합니다.
알고나면 스크래핑은 우리 근처에서 흔하게 일어난다.

카카오톡에서 naver.com을 검색해보자

다음과 같은 이미지와, 페이지에 관련된 정보가 나오는 것을 알 수 있다.
우리가 naver.com을 검색했을때,
카카오톡은 naver.com 홈페이지에 가서 meta태그의 og:로 시작하는 정보를 가져오는 것이다.
이것이 바로 스크래핑이다.

네이버 홈페이지에 들어가서 개발자 도구를 통해서 meta라는 글자를 찾으면 우리가 카카오톡에서 본 정보와 동일한 정보가 나오는 것을 확인할 수 있다.


크롤링 (Crawling)

크롤링은 데이터를 주기적이고, 자동화된 방법으로 탐색하는 것을 말한다.
데이터 크롤링을 통해서 우리가 원하는 정보를 정해서 가져올수 있고,
지속적으로 자료를 가져와서 최신화된 자료를 유지할 수도 있다.

https://finance.naver.com/robots.txt

네이버 증권의 robots.txt 화면이다. 크롤링이 허용되는것들과, 허용되지 않는것들을 알려주고 있다.
과도한 크롤링은 서버에 부담을 줄 수 있고, 상대방의 정보를 가져오는 것이기 때문에 법적 문제가 될 수도 있다.

0개의 댓글