웹 스크래핑 vs 웹 크롤링

아현·2021년 10월 12일
0

Web

목록 보기
7/10

웹 크롤링과 웹 스크래핑

출처


웹 서버에 저장된 데이터를 가져오는 행위를 웹 크롤링 혹은 웹 스크래핑이라고 부릅니다.

  • 예를 들어, 빗썸 웹 사이트에서 코인들의 현재가를 가져오거나 네이버 금융 사이트로부터 일봉 데이터를 가져오는 행위를 일컫습니다.

웹 크롤링과 웹 스크래핑은 비슷한 것 같지만 미묘한 차이가 있습니다.

  • 일반적으로 특정한 데이터만을 웹사이트로부터 가져오는 행위를 스크래핑이라고 부릅니다.

    • 따라서 일반인들이 웹에서 데이터를 가져오는 것들은 모두 웹 스크래핑입니다.
  • 웹 크롤링은 구글, 네이버, 다음과 같은 포털 사이트들이 인터넷에 있는 다수의 정보를 가져가는 행위입니다.

    • 여러분들이 홈페이지를 새로 만들면 어떻게 그 웹사이트가 구글에서 검색이 될까요? 구글은 검색을 위해서 인터넷에 연결된 모든 웹 페이지를 돌아다니면서 페이지의 정보를 저장해두기 때문에 검색할 수 있습니다.

    • 이처럼 포털 사이트에서 대규모의 웹 데이터를 가져가는 것을 웹 크롤링이라고 부릅니다.



웹 통신 과정


여러분의 웹 브라우저에 도메인을 입력했을 때 어떤 웹 페이지로 이동할 때 다음과 같은 일이 일어납니다.

  1. 웹브라우저에 도메인을 입력한다.

  2. 네임서버에게 도메인에 해당하는 IP 주소를 확인한다.

  3. 네임서버는 IP 주소를 알려준다.

  4. IP 주소를 얻었다면 IP 주소를 사용하여 목적지의 웹 서버에게 웹 페이지를 요청한다.

  5. 웹 서버는 웹 브라우저가 요청한 페이지를 전송해준다.

  6. 웹 브라우저는 웹 서버로부터 받은 웹 페이지 정보를 읽어 들인 후 화면에 표시한다.

profile
For the sake of someone who studies computer science

0개의 댓글