웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것
비슷하게 크롤링(crawling) 이라는 용어로 혼용해서 쓴느 경우가 많다.
원래 크롤링은 자동화하여 주기적으로 웹 상에서 페이지들을 돌아다니며 분류/색인하고 업데이트된 부분을 찾는 등의 일을 하는 것을 뜻함
고로 구글링 할 때 web scraping 으로 검색해야 페이지 추출에 대한 결과가 나옴!
select()
: 조건을 만족하는 모든 요소를 리스트에 담아 반환
select_one()
: 그 중 가장 위에 나오는 요소를 반환
선택자는 CSS를 작성할 때 사용했던 것과 똑같이 쓰면 됨
# 선택자를 사용하는 방법 (copy selector)
soup.select('태그명')
soup.select('.클래스명')
soup.select('#아이디명')
soup.select('상위태그명 > 하위태그명 > 하위태그명')
soup.select('상위태그명.클래스명 > 하위태그명.클래스명')
# 태그와 속성값으로 찾는 방법
soup.select('태그명[속성="값"]')
# 한 개만 가져오고 싶은 경우
soup.select_one('위와 동일')