스크래핑과 크롤링은 처음 접하면 그 개념이 굉장히 어려울 것이다. 하지만 직접 사용해 보며 스크래핑과 크롤링의 차이를 알게 된다면 꽤 유용하게 사용할 수 있다. 나도 처음에는 스크래핑과 크롤링의 차이를 알지 못하고 사용하느라 이해가 어려워서 수많은 오류와 함께... 이해를 하기 시작했다.
스크래핑과 크롤링의 차이를 간단히 설명하자면
한 번 가지고 오는 것은 스크래핑이고
꾸준히 가지고 오는 것은 크롤링이다.
여기서 가지고 온다는 것은 다른 웹사이트의 데이터를 끌어오는 것이다.
스크래핑이란?
스크래핑은 axios를 활용해서 할 수 있다. 스크래핑은 딱 한 번 가지고 오기 때문에 고정적이고 정적이다. 이렇게 한 번 하고 말 거면 크롤링을 하지 왜 스크래핑을 하는가?라는 의문점이 들 수도 있다.
그런데 이렇게 딱 한 번 갖고 오는 스크래핑이 꼭 필요한 부분이 있다. 스크래핑을 할 때 오픈 그래프로 시작하는 태그들이 스크래핑해 오는 사이트에서 사이트를 홍보할 때 이거로 미리보기 해 주세요 하는 태그이다. 그래서 메타태그에서 og로 시작하는 것들을 찾아 스크래핑을 하게 되면 사이트를 홍보할 미리보기를 만들 수 있는 것이다. 이런 용도로 스크래핑이 자주 사용이 된다.
크롤링이란?
그렇다면 크롤링은 자주자주 스크래핑한다~ 라고 생각하면 편하다. 어떤 특정 정기 시간을 정해 놓고 여러 번 스크래핑을 한다는 것이다. 크롤링은 데이터를 수집하고 분류하며 저장하는 것을 뜻한다. 엄밀히 말해 크롤링은 데이터의 수집 보다는 여러 웹페이지를 돌아다닌다는 뜻이 강하며 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이라 할 수 있다.
이렇게 크롤링과 스크래핑을 정의해 보고 둘의 차이점도 살펴 보았다. 냅다 난 스크래핑을 할래! 아니면 난 크롤링을 할래!라고 사용하려고 하면 둘의 차이를 몰라 헷갈리는 부분이 생길 수 있다. (내가 그랬던 것처럼...) 하지만 이렇게 차이점을 명확히 알고 사용한다면 조금 더 쉽게 사용할 수 있을 것 같다.