scraping(스크래핑)
은 특정 웹사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 작업으로, 해당 사이트의 HTML을 긁어오는 것을 말합니다. 웹 스크래핑은 자동으로 수집된 특정 정보가 필요한 분야에서 다양하게 활용되고 있습니다. 예를 들어, 스크래핑 기술을 활용하여 뉴스 정보를 수집하거나(금융 및 주식 분야), 기업 재무제표 정보를 수집하거나(투자 분야), 경쟁사 상품의 정보 수집하거나, 가격 변동 이슈를 파악하거나(전자상거래 시장), 다양한 분야에서 활용되고 있습니다.
crawling(크롤링)
은 웹상의 정보들을 탐색하는 수집하는 작업으로, 스크래핑을 주기적으로 여러번하는 것을 말합니다. 다만, 다른 사이트를 크롤링하는 것은 법적 이슈도 있기 때문에 사용할 때 어느정도 주의가 필요하기도 합니다.
Scraping 과 Crawling 은 데이터를 긁어온다는 점이 비슷하여 의미가 자주 혼용이 되곤 하는데, 기술적으로도 함께 사용되는 경우가 많아서 더욱 헷갈리기도 합니다. 하지만 scraping(스크래핑)
의 경우, 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만 추적할 수 있지만, Crawling(크롤링)
은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나간다는 점에서 차이점이 존재합니다. (그 외 차이점은 아래표 참고)
Crawling | Scraping |
---|---|
웹에서 페이지 및 링크 다운로드 | 웹을 포함한 다양한 소스에서 데이터 추출 |
( 웹 기반으로 작동 ) | ( 반드시 웹과 관련된 것은 아님 ) |
중복제거 필수적 | 중복제거 반드시 필요한 것은 아님 |
내가 찾는 키워드와 연관된 링크 모아서 볼 수 있음 | 원하는 데이터가 명확하여 흩어져있는 해당 데이터를 자동 추출 후 전달함 |