웹크롤링으로 백만장자되는 그 날까지

aongee log·2024년 10월 28일

KT AIVLE

목록 보기

3/11

에이블스쿨 3주차에 진행했던 웹크롤링 수업을 들으며,
자잘하게 정리해두었던 필기들을 공유하고자 한다.

웹크롤링 수업을 들을 때만 해도 모든 웹사이트를 크롤링할 수 있겠다는 근거없는 자신감이 가득이었는데,,

한달이 지나니 까마득한 기억에,, 이론 복습 겸 정리해보았다.

*실습 및 코드는 추후에 다시 업로드 할 예정이다.

URL 구조

HTTP Requet Methods

Cookie, Session, Cache

Scraping / Crawling

웹페이지 종류

웹 크롤링 방법

동적 페이지
1) URL 찾기 : dev tools 찾기 (개발자 도구)
2) request(URL) → response(data) : JSON(str)
3) parsing : JSON(str) → list/ dict 형태로 변환 → DF

정적 페이지
1) URL 찾기 : dev tools 찾기 (개발자 도구)
2) request(URL) → response(data) : html(str)
3) parsing : html(str) → bs4 패키지, css-selector 사용하여 우리가 필요한 text 수집→ list/ dict → DF
참고) parsing : 우리가 원하는 데이터 형태로 바꾸는 것. 동적 페이지와 정적 페이지에서 가져오는 데이터 형태가 다르기 때문에 parsing 과정만 다르다!