[Web] Web crawling and Web scraping

이승연·2020년 11월 30일
0

Web/Network

목록 보기
2/10
post-thumbnail

웹 사이트를 분석하여 원하는 데이터를 추출하는 과정
Web crawling: 자동화가 키워드! 웹 사이트에 변화가 생기는 시점마다 나의 데이터베이스도 최신화가 된다.
Web scraping: 잡지, 신문 스크랩 하듯 그 시기에 있는 그 정보를 긁어오는 것.

Beautiful Soup: 웹을 구성하는 <"html">dml 'id''class'와 같은 selector를 분석하여
Selenium: 브라우서를 실행시켜 동적인 입력이 필요한 웹을 구동할 수 있는 라이브러리. 나 대신 컴퓨터가 단어나 웹사이트를 입력할 수 있게 해줌.

Web crawling이던 Web Scraping이던 어디서 어떤 컨텐츠를 가지고 올지는 처음에 인간이 세팅해주어야 한다. 그래서 백엔드 개발자도 웹을 아주 잘 알고 있어야 한다.

http://books.toscrape.com/

개발자 도구의 elements 탭에 가서 copy selector하면 쭈루루ㅜㄱ 나옴

예를 들어 여러개의 카테고리 안에 있는 커피 메뉴를 가져오고 싶다면 Selenium이 눌러준다.

데이터도 지적재산권이 인정되기 때문에 함부로 크롤링을 할 수 없다.

url뒤에 robots.txt를 붙이면 크롤링이 되는지 안되는지 알 수 있다.

가끔 내가 다운받은 모듈이 존재하지 않는 환경에서 작업하다 보면 크롤링이 안되는 경우가 있다. 이때 경로를 재설정해주어야하는데 미니콘다 > 내 가상환경 > bin > web-crawling으로 경로를 바꿔주고 시작하자. 다음 링크에 너무너무 자세하게 나와있다!! 감사합니다:
https://shwank77.tistory.com/1588

0개의 댓글