목표
import requests
# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의 웹 사이트 소스코드를 추출합니다
html = request.text.strip()
print(html)
import requests
from bs4 import BeautifulSoup
# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get
('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의웹 사이트 소스코드를 추출합니다.
html = request.text
# HTML 소스코드를 파이썬 BeatifulSoup 객체로 변환합니다.
soup = BeautifulSoup(html, 'html.parser')
# <a> 태그를 포함하는 요소를 추출합니다.
links = soup.select('td > a')
# 모든 링크에 하나씩 접근합니다.
for link in links:
# 링크가 href 속성을 가지고 있다면
if link.has_attr('href'):
# href 속성의 값으로 notice라는 문자가 포함되어 있다면
if link.get('href').find('notice') != -1:
print(link.text)
- 만약 크롤링은 막는 웹이라면
- headers = {'User-Agent': ''} 값을 바꿔줘라
- Selenum 활용한 웹 크롤링