PYTHON 은 웹 크롤링으로 아주 좋은 라이브러리와 간단한 코드를 가지고 있다.
그렇다면 우리 nodejs는 어떨까?
python 에 비하면 크롤링에 슈퍼 특화됬다고 볼수는 없다고 한다. 가독성이 좋고, 플러그인도 다
양하고, 높은 문법 사용으로 파이썬 이 크롤링에 사랑받는 이유가 다 있더군요.
하지만!
우리 노드도 CHEERIO PUPPETEER 같은 꽤 좋은 크롤링 라이브러리가 존재한답니다!
콜백지옥만 조심하면 노드도 ...꽤 좋을지도?
그래서 일단 제일 유명한 CHEERIO 와 PUPPETEER을 비교해보기로 했다.
CHEERIO | PUPPETEER |
---|---|
빠른 파싱 성능을 가지고 있습니다 | 무거운 리소스를 사용하며, HTML을 파싱하는 속도가 느릴 수 있습니다 |
정적인 HTML 파싱에 사용되므로, JavaScript 실행이 불가능합니다 | Chrome 브라우저의 Headless 모드를 사용하기 때문에 JavaScript 실행이 가능합니다 |
HTML을 파싱하지만, 페이지의 렌더링된 콘텐츠를 스크래핑할 수 없습니다 | 페이지의 렌더링된 콘텐츠를 스크래핑할 수 있습니다 |
간단한 HTML 파싱 및 조작에 적합합 | 동적 웹 페이지 크롤링, 브라우저 자동화, 사용자 인터랙션 시뮬레이션 등에 적합 |
그럼 이제 프로젝트를 위해서는 어떤 걸 선택해야할까?
1. 네이버 맛집 크롤링 :