크롤링 패턴 코드

bin-lee·2021년 12월 9일
0
  1. data = soup.find('타입', [속성_='속성값'])
  2. data = soup.find('타입', attrs={'속성':'속성값'})
  3. data = soup.find_all('타입')

1. data = soup.find('타입', 속성_='속성값')

태그가 <p>이고 클래스가 content인 코드가 두 개 있다. 이때 beautifulsoup으로 타입이 <p>이고 클래스가 content인 코드를 data변수에 담으면, find 함수의 특성상 상단 값만 출력시킨다. 그리고 class_=는 생략 가능하다.


2. data = soup.find('타입', attrs={'속성':'속성값'})

만약 아랫줄에 있는 콘텐츠의 내용입니다. 2 를 출력시키고 싶다면 속성과 속성값을 attrs에 담아 주면 된다. (딕셔너리처럼) attrs={'[속성]':'[속성값]', ...}으로 해당되는 조건을 찾아 print해 보면 찾고 싶었던 아랫줄 콘텐츠가 찍히게 된다.


3. data = soup.find_all('타입')

find_all 함수는 특정 태그를 전부 찾아낸다. 해당 함수의 결과물은 리스트 형태로 추출되기 때문에 for문을 이용해서 인덱스마다의 값을 뽑아 주면 된다.

profile
🚀 오늘 배운 건 오늘 적자

0개의 댓글