웹크롤링으로 백만장자되는 그 날까지

aongee log·2024년 10월 28일

KT AIVLE

목록 보기
3/11
post-thumbnail

에이블스쿨 3주차에 진행했던 웹크롤링 수업을 들으며,
자잘하게 정리해두었던 필기들을 공유하고자 한다.

웹크롤링 수업을 들을 때만 해도 모든 웹사이트를 크롤링할 수 있겠다는 근거없는 자신감이 가득이었는데,,

한달이 지나니 까마득한 기억에,, 이론 복습 겸 정리해보았다.

*실습 및 코드는 추후에 다시 업로드 할 예정이다.

URL 구조

  • http : 프로토콜
  • naver.com : domain
  • /main/ : path
  • n.html : file
  • ?aid = 1 : 쿼리

HTTP Requet Methods

  • Get : URL에 쿼리 포함
  • Post : Body에 쿼리 포함

Cookie, Session, Cache

  • Cookie : client의 브라우저의 SSD에 저장되는 데이터
  • Session : client의 브라우저와 server의 연결 정보 (URL을 통해 연결)
  • Cache : client, server의 RAM(메모리)에 저장되는 데이터

Scraping / Crawling

  • Scraping : 한 페이지에서 데이터 수집
  • Crawling : 여러 페이지에서 데이터 수집

웹페이지 종류

  • 동적 페이지 : 클릭해도 URL 변경 X, response할 때 JSON
  • 정적 페이지 : 클릭하면 URL 변경 O, response할 때 html

웹 크롤링 방법

  • 동적 페이지
    1) URL 찾기 : dev tools 찾기 (개발자 도구)
    2) request(URL) → response(data) : JSON(str)
    3) parsing : JSON(str) → list/ dict 형태로 변환 → DF
  • 정적 페이지
    1) URL 찾기 : dev tools 찾기 (개발자 도구)
    2) request(URL) → response(data) : html(str)
    3) parsing : html(str) → bs4 패키지, css-selector 사용하여 우리가 필요한 text 수집→ list/ dict → DF

  • 참고) parsing : 우리가 원하는 데이터 형태로 바꾸는 것. 동적 페이지와 정적 페이지에서 가져오는 데이터 형태가 다르기 때문에 parsing 과정만 다르다!

0개의 댓글