웹스크래핑

해롱그·2023년 7월 3일

파이썬

목록 보기

10/12

웹스크래핑(Web Scraping)

웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것

비슷하게 크롤링(crawling) 이라는 용어로 혼용해서 쓴느 경우가 많다.
원래 크롤링은 자동화하여 주기적으로 웹 상에서 페이지들을 돌아다니며 분류/색인하고 업데이트된 부분을 찾는 등의 일을 하는 것을 뜻함
고로 구글링 할 때 web scraping 으로 검색해야 페이지 추출에 대한 결과가 나옴!

beautifoulsoup 사용법

select() : 조건을 만족하는 모든 요소를 리스트에 담아 반환
select_one() : 그 중 가장 위에 나오는 요소를 반환

선택자는 CSS를 작성할 때 사용했던 것과 똑같이 쓰면 됨

# 선택자를 사용하는 방법 (copy selector)
soup.select('태그명')
soup.select('.클래스명')
soup.select('#아이디명')

soup.select('상위태그명 > 하위태그명 > 하위태그명')
soup.select('상위태그명.클래스명 > 하위태그명.클래스명')

# 태그와 속성값으로 찾는 방법
soup.select('태그명[속성="값"]')

# 한 개만 가져오고 싶은 경우
soup.select_one('위와 동일')

해롱그

사랑아 컴퓨터해 ~

이전 포스트

파이썬 패키지

다음 포스트

웹스크래핑

파이썬

웹스크래핑(Web Scraping)

beautifoulsoup 사용법

파이썬 패키지

수행시간 측정 코드 예제

0개의 댓글