Java로 크롤러를 짜려 한다면 누구나 제목에 있는 두 라이브러리의 이름을 보게 될 것이다. 물론 쉽게 시간이 없는 사람은 구글에 Java 크롤러 라고 검색한 다음 상위 문서부터 볼 테지만 시간이 많은(?) 필자는 한번 이 두 라이브러리를 분석을 해봤다.
stackoverflow에 있는 글귀가 딱 맞는 것 같아서 가져왔다.
Crawler4j is a crawler, Jsoup is a parser.
페이지마다 HTML을 파싱하는 건 jsoup을, 여러 페이지들의 데이터를 크롤링 하는 건 crawler4j을 사용하면 된다. (crawler4j의 지원이 끊긴 건 아쉽다.)
jsoup 홈페이지(https://jsoup.org/cookbook/extracting-data/dom-navigation)
crawler4j 홈페이지(https://github.com/yasserg/crawler4j)