Jsoup을 이용하여 간단한 크롤링(2) - Jsoup 사용

0

시작함에 앞서

우선 크롤링 할 사이트를 찾아야하는데 원하는 사이트 아무 사이트 메인페이지에 들어가서 주소 뒤에
robots.txt를 입력하고 Disallow에 뭐가 붙어있는지 확인해서 어디까지 크롤링이 되는지 확인해야함
예를 들어 
https://myanimelist.net 나는 이 사이트를 크롤링 할 건데
이 사이트 뒤에 https://myanimelist.net/robots.txt 를 입력해서 크롤링을 어디까지 허용하는지 알아보자


이런식으로 Disallow가 붙은건 크롤링이 안 됨
정확히는 나도 잘 모르겠어서 GPT한테 물어봄

된다니까 일단 시작

내가 여기서 가져올 데이터
1~9위 까지의 애니메이션 이름과 랭킹



이렇게 개발자 모드를 해서 ctrl+shift+c를 누르면

이렇게 해당영역의 클래스의 이름과값을 볼 수 있게 된다

이 클래스의 데이터를 토대로 1~9위까지의 랭킹과 이름을 가져올 것

Jsoup 사용

클래스 이름은 자유롭게해서 Main을 추가해주자

설명은 코드로 대체

출력값


잘 나온당

주의 사항

  1. 크롤링시 주의사항을 참조하자
  2. 꼭 try catch를 사용해줘야한다
  3. Document를 불러올때 어디서 불러오는지 import경로를 잘 확인해줘야함
  4. Element와 Elements가 있는데 Element는 단일 요소를 가져올때 사용하고
    Elements는 여러요소들을 가져올때 사용됨
  5. 위에 코드처럼 클래스를 가져올땐 getElementsByClass() 메서드를 사용함

 

0개의 댓글