2022.07.12 - 크롤링오류 (1)

Seong Hyeon Kim·2022년 7월 11일
0

트러블슈팅

목록 보기
2/4

내가 원하는 값이 아닌 다른 값이 크롤링되는 오류 발생

자동으로 크롤링이 되는 크롤러를 만들기 위해서 puppeteer 를 사용하던중 문제가 발생하였다.

우선 하나씩 차근차근 시작하기 위해 회사의 이름들부터 찾아봤는데 위 사진과 같이 잘 찾은것을 확인할 수 있었다. 그런데 애시당초 내가 원하는 대기업부분의 처음부터 40개까지만 크롤링을 하고싶었는데 사진에서 표시해놓은것처럼 내가 원하는 부분보다 더 많은 양이 크롤링 된것을 확인할 수 잇었다.

내가 원하는 부분은 딱 여기까진데 왜 더 밑에까지 크롤링이 될까 하는 의문을 찾기위해 잡코리아 홈페이지를 와보니 당연히 밑부분에서는 다른 태그일꺼라 생각했던 xpath 부분이 부모 부분만 다르고 정작 회사제목 부분은 같은 이름으로 작성이 되었다는걸 알게되었다.

profile
삽질도 100번 하면 요령이 생긴다. 부족한 건 경험으로 채우는 백엔드 개발자

0개의 댓글