웹크롤링 2 - 웹 크롤링시 주의 사항

우수민·2022년 12월 31일

강의 자료

목록 보기

17/18

크롤링의 세계는 인터넷의 크기만큼이나 무한하기 때문에 어떤 데이터든 수집이 가능하다. 혹여나 처음에는 크롤링이나 스크래핑에 만족하다가 나중에는 암호화된 정보를 고민할 수 있다.
다만, 크롤링의 접근 방식은 법적인 문제를 일으키는 경우가 존재하는데, '크롤링 남의 자산 훔치는 범죄행위, 인식 변화 갖자'라는 기사를 참고하면 크롤링 대부분은 위법이 아니라고 설명하고 있다.
아래의 기사(링크)에 따르면 웹페이지의 운영자가 긁어가지 못하도록 조치한 데이터를 긁어간다거나, 긁어간 데이터를 사용해 부당이득을 얻는다거나 하는 행위를 할 경우에는 저작권 법이나 부정 경쟁 방지법 등의 제제를 받을 수 있다고 표현되어 있다.
또한 최근 야놀자와 여기어때의 법정 다툼(링크)도 크롤링으로 인해 발생한 사건인 만큼 사용할 경우에는 각별한 조심이 필요하다.

robots.txt는 웹사이트에 웹 크롤러의 접근을 제어하기 위한 규약이며 아직 권고안이라 꼭 지킬 의무는 없다.
크롤러는 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다.
다만 서버의 트래픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다.
지킬 의무가 없다고 하나 지켜주는 게 상식이며, 마찬가지로 서버 주인 입장에서는 규칙을 지키지 않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.
robots.txt는 웹사이트의 최상위 경로에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다.
- ex. https://namu.wiki/robots.txt
- ex. http://blog.naver.com/robots.txt

데이터 분석하고 있습니다