자동으로 크롤링이 되는 크롤러를 만들기 위해서 puppeteer 를 사용하던중 문제가 발생하였다.
우선 하나씩 차근차근 시작하기 위해 회사의 이름들부터 찾아봤는데 위 사진과 같이 잘 찾은것을 확인할 수 있었다. 그런데 애시당초 내가 원하는 대기업부분의 처음부터 40개까지만 크롤링을 하고싶었는데 사진에서 표시해놓은것처럼 내가 원하는 부분보다 더 많은 양이 크롤링 된것을 확인할 수 잇었다.
내가 원하는 부분은 딱 여기까진데 왜 더 밑에까지 크롤링이 될까 하는 의문을 찾기위해 잡코리아 홈페이지를 와보니 당연히 밑부분에서는 다른 태그일꺼라 생각했던 xpath 부분이 부모 부분만 다르고 정작 회사제목 부분은 같은 이름으로 작성이 되었다는걸 알게되었다.