JSoup Scraping Error

카레·2023년 3월 7일
0

회고

목록 보기
3/3

JSoup 을 이용하여 네이버 날씨 scraping 을 하던 중 발생한 에러이다.

URL Status 403 에러가 발생하였다.
서버에서 봇으로 인식하고 차단을 하였을 경우 발생하는 에러였다.

해결방법은 아래와 같이 Header 에 값을 넣어 해결하였다.

doc = Jsoup.connect(url)
           .userAgent("Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1667.0 Safari/537.36")
           .header("scheme", "https")
           .header("accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8")
           .header("accept-encoding", "gzip, deflate, br")
           .header("accept-language", "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7,es;q=0.6")
           .header("cache-control", "no-cache")
           .header("pragma", "no-cache")
           .header("upgrade-insecure-requests", "1")
           .get();

에러 젭알 그만 ㅠㅠ


참고
https://ktko.tistory.com/entry/JSOUP%EB%A1%9C-%EC%9E%90%EB%B0%94%EB%8F%84-%ED%81%AC%EB%A1%A4%EB%A7%81%EC%9D%B4-%EA%B0%80%EB%8A%A5%ED%95%98%EB%8B%A4
https://ktko.tistory.com/entry/robotstxt-%EC%86%8C%EA%B0%9C%EC%99%80-%EC%9E%91%EC%84%B1%EB%B2%95%EC%9D%84-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90 (- robots.txt 작성법)

0개의 댓글