[Review] 이것이 진짜 크롤링이다 - 실전편

윤진호·2022년 8월 1일
0

Review

목록 보기
8/17

이것이 진짜 크롤링이다 - 기초편에 이어서 수강했다. 이것이 진짜 크롤링이다 - 실전편은 기초편보다 더 프로젝트별로 자세히 설명해주고 실무에서 접목해서 상당 부문 활용했다. 프로젝트로는 네이버 뉴스, 쿠팡, 네이버 이미지, 구글 이미지, 유튜브, 네이버 금융, 네이버 지도 등을 수행했다. 2022년 7월에는 토요코인 호텔 크롤링 자료도 신규로 업로드해 줄 정도로 업데이트도 성실하게 진행해주고 있다.

사례별로 접근하다 보니깐 해당 케이스에는 어떻게 접근해야하는 지를 잘 설명한다는 생각이 들었다. 웹 크롤링은 파이썬 이외에도 HTML, 통신 등에 대한 어느 정도의 이해가 필요한 데 자세히 설명은 하지 않지만 예외 사례들을 잘 들어서 처리해 주는 게 좋았다. 이번에 공부하면서 배운 사례들은 다음과 같다.

  • 예외 처리
  • 광고 상품 제외
  • 이미지 주소 추출 및 다운로드
  • 403 Forbidden 오류
  • Click Intercepted 오류
  • get 방식(네트워크 추출)
  • Post 방식(네트워크 추출)
  • Ifframe 태그 대응 방법

회사 실무에 있어서 해당 코드들을 많이 썼고, 또 추가로 아마존, 라쿠텐, 에누리, 디시인사이드 등을 수집하는 업무를 무리 없이 수행할 수 있었다. 올해 들었던 강의 중에서는 가장 많은 도움이 된 강의였던 것 같다.

profile
데이터 분석가

0개의 댓글