etc. #1 :: 스크래핑(Scraping)과 크롤링(Crawling) 이야기

해다·2022년 3월 25일
0

etc.

목록 보기
5/21
post-custom-banner

🙊 잘못 기재한 부분이 있다면 댓글로 남겨주세요!


🤔Scraping과 Crawling은 뭘까?

공부를 시작할 때 항상 왜 이 단어를 쓰게 됐을지 어떤 맥락에서 어떻게 나온 말인지 따지는 습관(=전공병)이 있어서 좀더 스크래핑과 크롤링에 대해서 찾아보기로 했다. 실제로 어떻게 돌아가는 지는 몰라도 이런 소소한 걸 알아봤을 때 개념도 그렇고 동작이 좀더 잘 이해될 때가 있기 때문에!

✂️스크래핑(Scraping)?

말 그대로 스크랩 하는 것이다. 어떤 경로로 이 블로그를 찾아오게 되었간에 스크랩의 정의를 모르는 사람은 없을 것이다. 다들 뭔가를 찾아서 정보를 가져가기 위해 이 곳에 왔을 것이기 때문이다.
ctrl+c ctrl+v 이고 그 때문에 단발적이고 일회성인 행위이다.

🕷️크롤링 (Crawling)?

내가 알고 있는 crawl의 뜻은 사람이 기어간다는 동사인데, 이 단어가 어쩌다가 웹의 영역에 들어오게 된 걸까? crawling에 뭔가 다른 뜻이 있나 싶어서 구글에 검색을 해봤는데 별로 알게 된 건 없었다. 아래는 구글에 crawling을 치면 나오는 이미지 검색 결과이다.

이와 관련된 공부를 하면서 구글 이미지 검색을 확인하면 보통은 단어를 설명해주는 추가자료나 그래프가 나왔는데 기어가는 사진만 나오다니, 그럼 대체 이 단어는 어디서 왔단 말인가?

더 찾아보니 웹상의 정보를 자동으로 검색하고 돌아보기 위한 소프트웨어, web crawler 에서 나온 단어였다. 최근에는 웹 크롤러를 통해서 하는 행위만이 아니고 자동화된 방법으로 데이터나 웹사이트 등을 수집,분류, 저장하는 행위를 총칭한다.

web은 거미줄이고, 그 거미줄 위를 기어다니는 건 거미니까 spider라고도 불리는데, 이것이 통상적으로 crawler 로 불리게 된 것이다.

🤼스크래핑과 크롤링의 차이는?

크롤링은 기어다니는 거미같은 소프트웨어이기 때문에 자동적으로 사이트를 돌아다니면서 정보를 추출하고, 스크래핑은 가서 긁어오는 것. 그러고 보면 크롤링이 스크래핑의 하위 개념인 것 같기도 하다.

profile
잘하는 건 아닌데 포기하진 않을거야
post-custom-banner

0개의 댓글