웹크롤링 2 - 웹 크롤링시 주의 사항

우수민·2022년 12월 31일
0

강의 자료

목록 보기
17/18
post-thumbnail

  • 크롤링의 세계는 인터넷의 크기만큼이나 무한하기 때문에 어떤 데이터든 수집이 가능하다. 혹여나 처음에는 크롤링이나 스크래핑에 만족하다가 나중에는 암호화된 정보를 고민할 수 있다.

  • 다만, 크롤링의 접근 방식은 법적인 문제를 일으키는 경우가 존재하는데, '크롤링 남의 자산 훔치는 범죄행위, 인식 변화 갖자'라는 기사를 참고하면 크롤링 대부분은 위법이 아니라고 설명하고 있다.

  • 아래의 기사(링크)에 따르면 웹페이지의 운영자가 긁어가지 못하도록 조치한 데이터를 긁어간다거나, 긁어간 데이터를 사용해 부당이득을 얻는다거나 하는 행위를 할 경우에는 저작권 법이나 부정 경쟁 방지법 등의 제제를 받을 수 있다고 표현되어 있다.

  • 또한 최근 야놀자와 여기어때의 법정 다툼(링크)도 크롤링으로 인해 발생한 사건인 만큼 사용할 경우에는 각별한 조심이 필요하다.

robots.txt

  • robots.txt는 웹사이트에 웹 크롤러의 접근을 제어하기 위한 규약이며 아직 권고안이라 꼭 지킬 의무는 없다.

  • 크롤러는 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다.

  • 다만 서버의 트래픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다.

  • 지킬 의무가 없다고 하나 지켜주는 게 상식이며, 마찬가지로 서버 주인 입장에서는 규칙을 지키지 않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.

  • robots.txt는 웹사이트의 최상위 경로에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다.

profile
데이터 분석하고 있습니다

0개의 댓글