웹 사이트에 있는 특정 정보를 추출하는 기술. 보통 웹 사이트의 html을 긁어 온다. 한 번만 실행한다.
이 정보들을 갖고오고 싶은데 어떻게 갖고와야할까 ?
다 일일히 갖고 올 순 없다.
스크랩핑은 데이터를 한 번만 갖고오는데 언제 사용할까?
discord가 naver를 스크랩핑했다.
naver.com 을 보면 head태그에 og(open graph)로 시작하는 것들을 만들어뒀다.
이것을 갖고오면 된다.
웹 사이트를 주기적으로 scraping을 여러 번 하는 것
여기어때가 야놀자의 정보를 무단 크롤링한 사건이 있었다.
이로 인해 법적 이슈가 발생했다. 관련기사 링크
항소심에서 무죄가 나왔지만 이러한 무단 크롤링은 조심해야 할 것이다.