중간에 추가된 일
중간에 취소된 일
크롤링에 앞서 항상 사이트명 뒤에 robot.txt를 붙여 위법성을 확인해야한다.
만약 크롤링 하려는 사이트가 유튜브라면
https://www.youtube.com/robots.txt
식으로 하면된다.
수업중에는 자세히 다루지 않아 따로 찾아 정리 해보았다.
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml
Crawl-delay: 10
이런 형식을 가지는데
User-agent
Disallow
Allow
Sitemap
User-agent: *
Disallow: /private/
Sitemap: https://example.com/sitemap.xml
Crawl-delay
(구글 크롬을 사용하자) 인터넷에 원하는 사이트에 들어가서 F12를 누르면 개발자툴이 열리는데 이때
여기서 해당 주소에 마우스 우클릭을 눌러 XPATH를 복사하여 파이선에서 사용할 수 있다.
(XPATH주소가 사용된 모습)
본격적으로 크롤링 코드를 사용하여 파이선으로 데이터를 가져와 사용하는 방법은 별도의 문서로 만들어 진행하여 프로젝트에 이용할 예정이라 크롤링 내용은 여기서 일단 끊고 다음에 작성하겠다.(코드에 대한 해석이 많이 들어가 페이지가 길어질꺼 같다. 추후 TIL을 수정하여 링크를 달아두려 한다)😎
크롤링 방법도 알았겠다.. 본격적으로 최종데이터에 사용할 유저 코멘트를 모아보려했는데, 대다수 사이트가 허가하지않아 곤란한 상황이다. 수집가능한 게임을 고를건지.. 고른게임의 코멘트를 수동수집할건지 고민해봐야할 것 같다.