웹의 프론트는 안에 정보가 모두 들어있다.
html 문서에서
분석하여
원하는 데이터만 가져오기
크롤링은
단순 스크래핑에서 나아가서
어떻게 잘 분석할 것인가
라는 개념이 추가되었다고 생각하면 된다.
파이썬으로 만들어진 패키지중에서는 web crawling에 매우 유용한 것들이 많다.
여기서는 BeautifulSoup4 와 Selenium 을 이용해 본다.
주소+태그 속성등으로 정보를 가져와서 변수에 담음.
요즘은 JS와 리액트로 SPA 가 많기때문에
url 이 변동이 없을때가 많다..( 아이템 스크롤 무한 다운 etc)
그래서 Selenium 을 사용하면 된다.
매크로다.
내가 하나하나 페이지 새로 들어가서 할 수 없으니
그걸 자동화 해줌.
webdriver 를 설치, import 후
브라우저 실행시켜 연동
데이터의 저작권 문제
사이트 주소 뒤에
/robots.txt
를 입력해서 들어가보면
Allow:뒤에 나오는 경로에 있는 데이터는 긁어와도 된다.
크롤링연습하기 좋은 사이트이다.