2023.01.18 정적 크롤링

차유빈·2023년 1월 18일
0
post-thumbnail

정적 크롤링

  • 앞에서는 전체 페이지를 스캔해오는 것이고 이제 부분만 스크랩해오는 것

BeautifulSoup 라이브러리

일반적으론 첫번째꺼 사용함

html이나 body는 생략 가능(보통 다 있기때문에)

string과 text 또는 get_text구분


bs.find_all()

태그 여러개 불러올 수 있음


bs.select()


bs.find_all() 실습 1

bs.find_all() 실습 2


bs.select() 실습 1 - 위키백서 윤동주 시 추출

bs.select() 실습 2 - 네이버영화 페이지 추출

100 페이지까지 결과 출력해보기

1페이지에 댓글 10개 있으므로 1000개 결과 출력 확인

데이터 프레임으로 저장 및 csv파일로 저장

DB로 저장
mysql에 표 만들기

mysql에 저장되었는지 확인


네이버 영화 상영작/예정작 정보 출력하기 실습

줄거리 페이지 이동


profile
chacha's 프로그래밍 공부

0개의 댓글