
에이블스쿨 3주차에 진행했던 웹크롤링 수업을 들으며,
자잘하게 정리해두었던 필기들을 공유하고자 한다.
웹크롤링 수업을 들을 때만 해도 모든 웹사이트를 크롤링할 수 있겠다는 근거없는 자신감이 가득이었는데,,
한달이 지나니 까마득한 기억에,, 이론 복습 겸 정리해보았다.
*실습 및 코드는 추후에 다시 업로드 할 예정이다.
URL 구조
HTTP Requet Methods
Cookie, Session, Cache
Scraping / Crawling
웹페이지 종류
웹 크롤링 방법
정적 페이지
1) URL 찾기 : dev tools 찾기 (개발자 도구)
2) request(URL) → response(data) : html(str)
3) parsing : html(str) → bs4 패키지, css-selector 사용하여 우리가 필요한 text 수집→ list/ dict → DF
참고) parsing : 우리가 원하는 데이터 형태로 바꾸는 것. 동적 페이지와 정적 페이지에서 가져오는 데이터 형태가 다르기 때문에 parsing 과정만 다르다!