08-04 BeautifulSoup

Ruinak·2021년 8월 4일
0

Bigdata Lesson

목록 보기
5/18
post-thumbnail

1. BeautifulSoup 라이브러리

BeautifulSoup

  • 파이썬 기본적으로 제공하는 라이브러리가 아니므로 별도 설치 필요
  • Anaconda는 BeautifulSoup 패키지가 Site-packages로 설치되어 있음
  • 설치
  • HTML 및 XML 파일의 내용을 읽을 때 다음 파서(Parser) 이용
  • 파이썬이 내장하고 있는 파서 사용 가능
  • 좀 더 성능이 좋은 파서를 추가로 설치하여 사용해도 됨

HTML 파싱

파서 라이브러리(Parser Library) 비교

bs4.BeautifulSoup 객체의 태그 접근 방법

  • HTML 문서를 파싱하고 bs4.BeautifulSoup 객체 생성
  • <html>, <head> 태그와 <body> 태그는 제외하고 접근하려는 태그에 계층구조를 적용
  • 태그명을. 연산자와 함께 사용
  • HTML 문서의 내용을 파싱하여 BeautifulSoup 객체 생성

태그의 정보 추출

  • bs4.element.Tag객체의 주요 속성과 메서드

태그로부터 다른 태그로 이동

실습

2. BeautifulSoup 라이브러리 응용

bs4.BeautifulSoup 객체의 주요 메서드

  • HTML 문서에 대한 파싱이 끝나고 생성된 트리구조 형식의 DOM 객체
    - bs4.BeautifulSoup 객체의속성으로접근가능
  • 다음에 제시된 메서드로도 가능

메서드를 사용한 웹페이지 파싱 : bs.find_all( )

메서드를 사용한 웹페이지 파싱 : bs.find( )

  • find( )는 find_all( )에 limit=1로 설정한 것과 동일하게 수행
  • find_all( )에서 사용하는 아규먼트값을 find( )에서도 동일하게 사용 가능

메서드를 사용한 웹페이지 파싱 : bs.select( )

profile
Nil Desperandum <절대 절망하지 마라>

0개의 댓글