Part 04. EDA/웹 크롤링/파이썬 프로그래밍_ 유가분석

하은·2023년 11월 14일
0
soup.find_all(class_="outer-text")

= soup이라는 변수로 beautifulsoup기능을 이용하겠다
= find(또는 select) 매서드를 통해, class에 할당된 이름을 가진 테그의 위치를 가져오고, 데이터를 뿌리겠다

바뀌기 전 후 코드(selenium)

some_tag = dricer.find_element_by_id('''값''')

= element를 찾을 건데 태그 중 id를 사용해서 가져오겠다.

-> driver.find_element(By.XPATH, "값")
by라는 클래스를 써주고, 뒤에 값을 더함

동적페이지 크롤링 도구: 셀레니움

웹브라우저를 테스트하기 위한 목적으로 만들어진 것
동작하는 기능을 활용해서 크롤링 하는 것

Beautiful Soup만을 해결할 수 없는 것

: 접근할 웹 주소를 알 수 없을 때 - 스크롤 내리면 콘텐츠가 뜨면서 태그가 추가되는 것 ex) 페이스북, 인스타, 영상
: 자바스크립트를 사용하는 웹페이지
: 웹브라우저로 접근하지 않으면 안될 떄 - 클릭/ 로그인 필요

Selenium이 필요한 상황
: = 웹브라우저를 원격 조작하는 도구 - 파이썬으로 제어가 가능한 브라우저가 뜨는 것
: 자동으로 URL을 열고 '클릭' 등이 가능
: '스크롤', 문자'입력', 화면 캡쳐 등

  • 파이썬 모듈 설치 - 크롬 드라이버 다운

1개의 댓글

comment-user-thumbnail
2023년 11월 14일

이렇게 유용한 정보를 공유해주셔서 감사합니다.

답글 달기