[TIL] 항해99 웹개발 종합 3주차 220610

HJ Kim·2022년 6월 11일
0

TIL

목록 보기
15/27
post-thumbnail

1. 웹 스프래핑(크롤링) 기초

  • 크롤링에 필요한 가장 기본적인 사항 2가지
    • 웹 페이지에 html을 가져오는 것 (requests 가지고 할 수 있음)
    • 가져오고 싶은 값을 쉽게 가져올 수 있도록 도와주는 library (beautifulsoup)

pycharm 기준 beautifulsoup 설치 방법

  • File > Settings 클릭

  • Project: pythonprac > Python Interpreter 클릭 후 + 버튼 클릭

  • 검색창에 BS4 입력 후 Install Package 클릭

영화 제목 가져오기

  • 네이버 영화 페이지 에서 원하는 제목에 마우스를 놓은 후 마우스 우클릭 > 검사 클릭

  • 아래와 같이 해당 제목에 해당하는 부분을 확인할 수 있는데 (빨간색 부분) 그 부분에 마우스 우클릭 > copy > copy selector 클릭

  • copy한 부분을 아래 코드에 붙여넣기 (select_one을 통해서 1개 제목에 대한 정보만 가져옴)
title = soup.select_one('여기에 붙여넣기')

print(title)
  • 아래 그림과 같이 출력 확인

  • 만약 title을 갖고 오려면 아래와 같이 입력

print(title.text)

  • 만약 href 값을 가져오려면 아래와 같이 입력
print(title['href'])

profile
티끌모아 태산을 아는 사람

0개의 댓글