08-03 BeautifulSoup 라이브러리

Ruinak·2021년 8월 3일
0

Bigdata Lesson

목록 보기
4/18
post-thumbnail

1. BeautifulSoup 라이브러리

BeautifulSoup

  • 파이썬 기본적으로 제공하는 라이브러리가 아니므로 별도 설치 필요
  • Anaconda는 BeautifulSoup 패키지가 Site-packages로 설치되어 있음
  • 설치 : pip install beautifulsoup4
  • HTML 및 XML 파일의 내용을 읽을 때 다음 파서(Parser) 이용
  • 파이썬이 내장하고 있는 파서 사용 가능
  • 좀 더 성능이 좋은 파서를 추가로 설치하여 사용해도 됨

HTML 파싱

파서 라이브러리(Parser Library) 비교

bs4.BeautifulSoup 객체의 태그 접근 방법

  • HTML 문서를 파싱하고 bs4.BeautifulSoup 객체 생성
  • <html>, <head> 태그와 <body> 태그는 제외하고 접근하려는 태그에 계층구조를 적용
  • 태그명을. 연산자와 함께 사용
  • HTML 문서의 내용을 파싱하여 BeautifulSoup 객체 생성

태그의 정보 추출

  • bs4.element.Tag객체의 주요 속성과 메서드

태그로부터 다른 태그로 이동

실습

네이버 영화페이지 크롤링해서 파싱(?)

profile
Nil Desperandum <절대 절망하지 마라>

0개의 댓글