크롤링_220516

Jiian·2022년 5월 16일
0

경제 및 시사 공부

목록 보기
39/42

1. 정의

크롤링 이란?
컴퓨터 프로그램을 통해 웹페이지로부터 자동으로 데이터를 수집하는 과정이다.

웹 크롤링 프로그램은 특정 웹페이지에 접근해 웹페이지의 내용물을 수집·분류·저장하고, 해당 페이지에 연결된 다른 웹페이지(하이퍼링크)들도 분류 및 저장한다. 이후 목록 안의 하이퍼링크에 각각 접속해 같은 과정을 수없이 반복한다.

일련의 과정은 모두 자동으로 진행되며, 통상 10초에서 30분 등 일정한 간격을 두고 자동으로 반복 시행된다. 크롤링의 결과물은 '행'과 '열'로 정리돼 엑셀 프로그램에서 읽을 수 있는 형태의 데이터 목록이다.

웹 크롤링 기술은 '스파이더(spider)' 등으로도 불리며, 구글 등 웹 검색 엔진 기술도 웹 크롤링의 일종이다. 웹 검색 엔진이 하는 일은 많은 양의 웹페이지 목록을 크롤링하는 것이다.


  • 웹 크롤링의 문제점

1. 사업정보에 대한 일종의 '침입'으로 간주

  • 종종 인터넷 서비스 사업자가 인터넷에 게시한 방대한 정보를 통째로 긁어가는 행위이기 때문

2. 웹페이지의 서버를 과부하 시킬 수 있음

  • 크롤러가 짧은 시간에 여러 번 접속을 시도함
  • 실제로 웹 페이지에 반복적으로 서버 과부하를 유도하는 것을 '디도스(DDos)'공격이라고 하는데, 크롤러가 하는 일과 크게 다르지 않다.

2. 크롤링 관련 사례

Case : “크롤링 무죄 판결에 속타는 대형 플랫폼” [2022.05.16]

네이버가 부동산 정보 스타트업을 상대로 민사소송을 제기하는 등 플랫폼업계에 ‘크롤링’ 분쟁이 있다. 한편 여기어때와 야놀자 간 크롤링 분쟁 재판에서는 “정보 제공자 허락 없이도 합법적 크롤링이 가능하다”는 판례가 나왔다.


  • 정보통신망법 침입죄 관련 견해

사람인 크롤링 사건 재판부는 잡코리아가 크롤링을 금지한 상황에서 사람인이 가상사설망(VPN)을 활용해 침투한 행위라는 이유로 유죄로 판단했다.

반면 여기어때와 야놀자 사건 재판부는 모바일 데이터에 대한 ‘접근 권한’이 따로 제한돼 있지 않았고, 누구나 열람해볼 수 있는 정보였다는 점에서 여기어때 크롤링에 대해 무죄를 선고했다. 즉, 플랫폼에서 설정한 접근 권한 내에서 크롤링했다면 합법적인 크롤링으로 볼 수 있다는 것이다. 정보 제공자 허락 여부는 판단 기준이 되지 않았다.


  • 데이터베이스 제작자 권리 침해 관련 견해

데이터베이스 제작자 권리침해죄에 대해선 해석이 엇갈린다. 다윈중개는 크롤링한 매물을 ‘아웃링크 방식으로 부동산 매물을 노출했다. ‘외부 매물도 다윈중개 중개사에게 의뢰하면 저렴한 수수료로 중개 받을 수 있습니다’라는 문구와 함께 네이버 부동산 매물 정보를 게시해왔다. 크롤링으로 수집한 단지명, 층, 면적, 가격 등 4개 정보를 보여주고 누르면 네이버 부동산으로 넘어가는 링크를 넣는 방식이다.

이런 방식은 네이버부동산 플랫폼에 큰 피해를 주지 않는 크롤링이라는 게 다윈중개의 주장이다. 반면 네이버는 “허위 매물을 거르고 부동산 매물을 노출하는 등 데이터 자체에도 저작권이 인정된다”고 맞서고 있다. 법조계 관계자는 “아웃링크 방식 크롤링은 새로운 형태”라며 “업계에서 가장 예의주시하고 있는 대목”이라고 분석했다.

Cf) 아웃링크: 사용자가 검색을 통해 찾은 기사의 제목을 클릭하면 해당 뉴스를 제공하는 언론사 사이트로 곧장 연결해주는 뉴스 서비스 방식입니다. 대표적으로 구글이 '아웃링크' 방식으로 뉴스 서비스를 제공한다.


3. 개인 견해 (5줄 이상)

기존에 크롤링은 개발자들 사이에서 “불법” 이라는 이미지가 강해, 부정적인 견해가 많았다. 실제로 개인 프로젝트가 아닌, 기업이나 기관이 연계된 중요한 프로젝트에서는 크롤링을 하지 않도록 권고하기도 한다. 따라서, 여기어때 – 야놀자 관련 데이터 크롤링 이슈는 IT 서비스 업계에서 큰 영향을 미칠 것으로 예상된다. 현재, 크롤링이 불법인 것에 대한 기준은 있지만, 명확한 기준이 없기에 판례가 다양하게 나오는 것이라고 생각한다. 한편, 앞으로 데이터가 자산이며, 데이터 산업 자체가 활성화되기에, 이러한 데이터 수집에 관한 명확한 기준이 필요하다고 생각한다. 대표적으로 수집한 데이터의 양에 대한 기준이나 데이터 수집에 대한 기준이다.


출처

크롤링 개념
https://news.einfomax.co.kr/news/articleView.html?idxno=4163664

“크롤링 무죄 판결에 속타는 대형 플랫폼”
https://www.hankyung.com/society/article/2022051568601

웹 돌아다니며 정보 수집…데이터 ‘크롤링’ 날개 다나
https://www.joongang.co.kr/article/25070824#home

아웃링크 정의
https://www.mk.co.kr/news/society/view/2018/05/280331/

profile
Slow and Steady

0개의 댓글

관련 채용 정보