Beautiful Soup (간단한 웹 크롤링)

bolim·2022년 1월 19일
0

ML

목록 보기
3/3

간단한 웹 크롤링

위의 BeautifulSoup를

import하지 않고

직접 패키지를 다운 받을 수 있다.

=> !pip install BeautifulSoup

url을 가져올 때 영어와의 byte차이로 인해 깨진다.

우리가 잘 아는

페이지 없음의 404와 같은 숫자처럼

성공을 뜻하는 것은 200대이다.

class, id 설정


이후 <class~~>이런 표시 말고
페이지에 입력된 text들만 보고 싶다면
.text를 사용한다.

  • id를 가져올 때는 .id이름
  • class를 가져올 때는 #class이름

만약 class와 id가 둘다 있다면

한번만 사용되는 id를 사용하는 것이 좋다.


만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라
사람이 직접하는 거라고 속이고 싶을 때는
useragent를 검색 후 복사해주면 된다.
위에서는 header에 넣어줬다.

profile
나는야 호기심 많은 느림보🤖

0개의 댓글