[PYTHON] ✨Web Crawling✨

Soo·2023년 10월 7일

데린이 입학 👼🏻 (데이터 기초)

목록 보기

33/42

참고 : 지금까지 해온 코드들을 짜집기로 그대로 복붙이라 아래 내용끼리 일치하지 않음

✏️ 자주 사용하는 기본 코드

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from tqdm import tqdm_notebook
from tqdm import tqdm
from bs4 import BeautifulSoup
import numpy as np

#이건 종종
import warnings
warnings.simplefilter(action="ignore",category=FutureWarning)

💡 셀레니움

기본

driver = webdriver.Chrome()
driver.get('https://주소') #연결할 페이지 링킹
time.sleep(10) #버퍼링 고려해 time sleep 넣어주는게 안전
driver.find_element(By.CSS_SELECTOR,'CSS 주소').click()

표 읽기

#표 찾아서 table 이라는 변수로 지정
table = driver.find_element(By.CSS_SELECTOR,'표 CSS 주소')

💡 Beautiful Soup (파싱)

기본

req=driver.page_source
soup = BeautifulSoup(req,'html.parser')
print(soup.prettify)

select / find_all / find_element

select_변수 = soup.select('beatifulsoup에서 내가 필요한 곳에 대한 주소') #html(soup)에서 전체만 추출
select_변수

✏️ 출처

제로베이스 데이터취업스쿨 강의
[python] Selenium으로 웹 페이지 크롤링하기 2 / 표(table)
웹크롤링 - BeautifulSoup에서 find와 select 사용하기

Soo

데린이인데요 ໒꒰ྀ ˶ • ༝ •˶ ꒱ྀིა (잘못 된 부분은 너그러이 알려주세요.)

이전 포스트

[PYTHON] ✨Web Crawling✨

데린이 입학 👼🏻 (데이터 기초)

✏️ 자주 사용하는 기본 코드

💡 셀레니움

💡 Beautiful Soup (파싱)

✏️ 출처

[PYTHON] ✨DATAFRAME✨

0개의 댓글