웹사이트를 스크랩할 계획이라면 항상 robots.txt를 먼저 확인해야 합니다. Robots.txt는 웹사이트에서 "봇"이 사이트를 스크랩하거나 크롤링하고 색인을 생성해야 하는지 여부 또는 방법을 알려주는 데 사용하는 파일입니다. 대상 웹사이트에 대한 링크 끝에 "/robots.txt"를 추가하여 파일에 액세스할 수 있습니다.
브라우저에 https://www.facebook.com/robots.txt를 입력하고, 페이스북에서 robots 파일을 확인해보자. 이 두 줄은 파일 맨 아래에서 찾을 수 있습니다.
사용자 에이전트; *
허용하지 않음: /
라인은 Facebook이 모든 자동화된 스크레이퍼를 금지한다고 명시하고 있습니다. 즉, 웹사이트의 어떤 부분도 자동화된 크롤러가 방문해서는 안 됩니다.
robots.txt를 존중해야 하는 이유는 무엇입니까?
웹사이트는 로봇 파일을 사용하여 사용자 또는 봇이 웹사이트와 상호 작용하는 방식에 대한 규칙 집합을 지정합니다. 웹사이트가 크롤러에 대한 모든 액세스를 차단하는 경우 가장 좋은 방법은 해당 사이트를 그대로 두는 것입니다. robots 파일을 따르는 것은 비윤리적인 데이터 수집과 법적 결과를 피하기 위한 것입니다.
Facebook은 로봇 파일의 맨 처음에 "명시적인 서면 허가가 없는 한 Facebook 크롤링은 금지됩니다."라고 경고합니다.
#주의사항: 명시적으로 작성하지 않는 한 Facebook 크롤링은 금지됩니다.
#허가. 참조: http://www.facebook.com/apps/site_scraping_tos_terms.php
두 번째 줄에 있는 링크를 확인하면 2010년 4월 15일에 마지막으로 수정된 Facebook의 자동 데이터 수집 약관을 찾을 수 있습니다.
전 세계의 다른 이용 약관과 마찬가지로 Facebook 자동 데이터 수집 약관은 길고(비정상적으로 작은 글꼴 크기) 소수의 사람들이 완전히 이해할 수 있는 법률 용어로 가득 차 있습니다.
이러한 용어는 휴대폰에 새 앱을 설치하거나 웹사이트에 가입할 때마다 볼 수 있으므로 매우 친숙합니다.
"...에 대한 허가를 얻음으로써 귀하는 ...을 준수하는 데 동의합니다."
"당신은 당신이하지 않을 것에 동의합니다 ..."
"귀하는 이 약관을 위반할 경우 다음과 같은 결과가 발생할 수 있다는 데 동의합니다."
그러나 그들은 같은 무고한 사람이 아닐 수도 있습니다.
소셜 미디어 거물인 Facebook은 돈, 시간, 전담 법률 팀을 보유하고 있습니다. 자동 데이터 수집 약관을 무시하여 Facebook 스크랩을 계속하면 괜찮지만 최소한 "서면 허가"를 받아야 한다는 알림을 받았음을 경고합니다. 때때로 그들은 불법적인 스크래핑에 대해 상당히 공격적일 수 있습니다.
robots.txt를 준수하지 않고 크롤링을 수행했다고 해서 규칙을 위반했기 때문에 법적 문제가 발생하는 것은 아닙니다.
소셜 미디어에서 스크랩한 데이터는 의심할 여지 없이 인간 행동 및 실제 사건에 대한 가장 크고 가장 역동적인 데이터 세트입니다. 10년 이상 동안 전 세계의 연구원과 비즈니스 전문가는 스크레이퍼를 사용하여 Facebook에서 정보를 수집하고 개인, 그룹 및 사회를 이해하기 위한 대표적인 샘플을 생성하고 데이터에 숨겨진 완전히 새로운 기회를 탐색했습니다.
사용자의 경우 소셜 데이터 사용이 항상 나쁜 것은 아니라는 데 동의합니다. 예를 들어, 소셜 데이터를 사용하여 마케팅을 개인화하는 것은 인터넷을 무료로 유지하고 우리가 보는 광고와 콘텐츠를 보다 관련성 있게 만드는 것입니다.
Facebook 데이터를 얻는 데 사용할 수 있는 도구
캠브리지 애널리티카 스캔들 이후 대중의 항의에 대응하여 페이스북은 지난해 4월 자사 API에 대한 극적인 접근 제한을 시행했다.
API(응용 프로그래밍 인터페이스)는 사람들이 자동화된 프로세스로 대규모 데이터를 검색할 수 있도록 하는 컴퓨터 프로그램에서 사용하도록 설계된 소프트웨어 인터페이스입니다. 오늘날 많은 회사에서 사용자, 연구원 및 타사 앱 개발자가 인프라에 액세스할 수 있는 수단으로 공개 API를 제공합니다.
Facebook의 API 잠금 및 사용자 정보를 보호하기 위한 근본적인 데이터 액세스 제한은 논란의 여지가 있습니다. 그러나 여전히 결과적으로 이제 사람들은 하나의 선택만 남게 되었습니다.
API가 없었으면 이제 사용자 인터페이스, 즉 웹 페이지를 통해서만 Facebook 데이터를 얻을 수 있었습니다. 이것이 바로 웹 스크레이퍼가 작동하는 때입니다. 우리는 최고의 소셜 미디어 스크래핑 도구에 대한 블로그를 작성했습니다.
Facebook에서 데이터를 스크래핑하기 전에 웹 스크래핑에서 GDPR 준수에 대해 배우는 것이 도움이 될 수 있습니다.
EU 일반 데이터 보호 규정(더 일반적으로 알려진 대로 GDPR)은 2018년 5월 25일에 발효되었습니다. 이는 20년 만에 데이터 개인 정보 보호 규정에서 가장 중요한 변경으로 기술에서 모든 것에 전면적인 변경을 강요하도록 설정되어 있다고 합니다. 광고로, 의약품에서 은행으로.
Facebook과 같은 기술 회사와 같이 대량의 소비자 데이터를 보유하고 처리하는 회사 또는 조직이 GDPR의 영향을 가장 많이 받습니다. 이전에는 사용자 데이터를 보호하기 위해 규칙을 시행하는 것이 이 회사들에 달려 있었습니다. 이제 GDPR에 따라 법률을 완전히 준수해야 합니다.
좋은 소식은…
GDPR은 개인 데이터에만 적용됩니다.
여기서 "개인정보"라 함은 특정 개인을 직간접적으로 식별하는 데 사용할 수 있는 데이터를 말합니다. 이러한 종류의 정보는 개인 식별 정보(PII)로 알려져 있으며, 여기에는 개인의 이름, 실제 주소, 이메일 주소, 전화번호, IP 주소, 생년월일, 고용 정보 및 비디오/오디오 녹음이 포함됩니다.
개인 데이터를 스크랩하지 않는 경우 GDPR이 적용되지 않습니다.
요컨대, 그 사람의 명시적인 동의가 없는 한 GDPR에 따라 EU 거주 개인 데이터를 스크랩하는 것은 이제 불법입니다.
위에서 언급했듯이 Facebook은 모든 자동화된 크롤러를 금지하지만 사이트에서 데이터를 스크랩하는 것은 기술적으로 여전히 가능합니다. 문제는 -
위험하다.
법적 영향 외에도 Facebook이 의심스러운 IP를 차단하고 향후 더 강력한 차단 메커니즘을 구현할 수도 있으므로 정기적으로 원하는 데이터를 검색하기가 더 어려워질 수 있습니다. 불가능한.
따라서 목표 시장에 대한 비즈니스 인텔리전스와 통찰력을 얻기 위해 소셜 미디어 데이터에 대한 보다 신뢰할 수 있는 소스를 찾는 것이 좋습니다.
트위터
하루에 약 5억 개의 트윗이 생성되는 Twitter는 브랜드 모니터링 및 고객 감정 측정을 위한 훌륭한 소스로 사용할 수 있는 정보의 바다입니다. Facebook과 달리 Twitter는 사람들이 Twitter의 API를 통해 대규모로 데이터를 검색할 수 있도록 합니다.
레딧
Twitter만큼 많은 사용자를 보유한 Reddit은 세계에서 가장 큰 UGC(사용자 생성 콘텐츠) 소스 중 하나입니다. Reddit은 또한 데이터 수집, 자동 댓글 봇 또는 하위 레딧 조정 지원과 같은 다양한 목적에 사용할 수 있는 공개 API를 제공합니다.
V콘탁테(VK)
VK는 러시아인 및 기타 동유럽 사용자를 대상으로 하는 러시아 소셜 미디어 플랫폼입니다. 지금까지 매월 9천만 명 이상의 고유 방문자와 매일 90억 페이지 뷰를 자랑합니다. 러시아 회사인 VK는 러시아 법률을 준수하며 로봇 파일을 확인하면 크롤러에 매우 친숙하다는 것을 알 수 있습니다.
인스 타 그램
Facebook이 소유한 Instagram은 시각적 콘텐츠 공유, 특히 동영상과 사진에 더 중점을 둡니다. 플랫폼은 많은 브랜드에서 콘텐츠를 인간화하여 고객을 더 잘 연결하고 브랜드 인지도를 높이는 데 사용됩니다. 그러나 작년 Facebook의 데이터 잠금과 함께 Instagram은 데이터 액세스에 대한 근본적인 제한을 구현하여 사이트를 이전보다 훨씬 덜 안정적으로 만들었습니다.