웹에서 원하는 자료를 컴퓨터에게 수집해오도록 하는 기술
requests 라이브러리를 활용한 브라우저 없는 크롤링
selenium 라이브러리를 활용한 물리 드라이버 크롤링
urllib 라이브러리를 활용한 api 크롤링 등이 있다.
크롤러의 역할은 원하는 정보를 포함한 자료를 수집해오는 것까지이며
실제로 원하는 데이터를 용도에 맞게 처리하는 것은 BeautifulSoup가 담당한다.
교보문고 베스트셀러 브라우저 접속
브라우저가 특정 페이지에 접근했을 때, 해당 페이지 소스코드 전체를 긁어와서 필요한 데이터를 추려나가는 방식이다.
셀레니움의 역할은 전체 소스 코드를 크롤링 하는 것이다.(크롤링 한 소스 코드들의 모습)
이후 필요한 소스 코드를 BeautifulSoup 로 정제해서 사용한다. BeautifulSoup 는 수집 기능 라이브러리가 아니라 소스를 해석하는 기능이다.)
driver.page_source는 source 변수에 전체 페이지 소스를 문자로 저장함
BeautifulSoup(소스코드, "html.parser") 로 입력시 해당 코드를 html 형식으로 인식함. (그래서 전체 소스를 가져온 source 변수와 BS4를 적용한 parsed_source 변수가 타입이 다른 것이다.)
책 제목, 저자, 가격 데이터 수집
필요한 데이터를 모두 리스트화 하였다.
리스트로 만든 자료들을 보기 좋게 정리.
파이썬 3.5버전 들어서 내장 라이브러리로 바뀜(예전에는 pip로 설치해야 했었음)
파이썬으로 텍스트파일을 제어할 수 있도록(읽어오기, 쓰기) 도와줌
콘솔창에 출력된 내용을 txt파일로 옮겨서 출력할때 사용
f 변수가 텍스트파일 그 자체처럼 사용함
함수 작성법
특이사항
이를 메모장에 정리 후 다시 메모장의 내용을 파이썬에 출력해보자.