https://www.tutorialspoint.com/jsoup 의 내용을 참고하여 내용을 정리하고 실습을 진행하였습니다.
Java Crwaler인 Java 라이브러리
Jsoup
에 대해 살펴봅니다.Crawler4j
라이브러리도 있지만 2018년 이후 업데이트가 없어 현재까지 업데이트를 지원하고 있는Jsoup
을 사용하였습니다.
XSS (= Cross Site Scripting) 공격:
공격자가 상대방의 브라우저에 특정 스크립트가 실행되도록 하여 사용자의 세션을 가로채거나, 웹 사이트를 변조하는 것
Document document = Jsoup.parseBodyFragment("html fragment");
String url = "https://www.google.com";
Document document = Jsoup.connect(url).get();
Jsoup library
의 select
메소드는 jQuery-like selector syntax
이 적용 가능하다. doc.select("h3.r > a")
와 같이 사용할 수 있다.select
메소드를 사용하면서 주의할 점을 발견할 수 있었다..text()
의 경우 자식들을 스페이스로 구분하여 하나의 String
으로 출력한다.String
으로 출력할 수 있다는 점이다. <td>
)을 파싱한다거나, 각각의 자식 값이 없다는 것을 null
과 같은 상태로 표시하여주어야 하는 경우, 이를 따로 표시하여 결과를 출력할 수 없다는 것이다..chilren()
메소드를 사용하여 각각의 자식 값에 접근할 수 있다.코드는 다소 길어지겠지만, 자식 각각의 값이
null
인지 아닌지를 파악하여야 하는 경우, 각 자식 값을 한 번씩만 읽으면서 필요한 결과로 출력할 수 있다는 것이다.