웹 페이지
웹 사이트
웹 브라우저
웹 스크래핑
웹 크롤링
올바른 HTTP Request를 위해선..
로봇 배제 프로토콜(REP)
HyterText Transfer Protocol
웹 상에서 정보를 주고받기 위한 약속
HTTP Request | HTTP Response | |
---|---|---|
방향 | Client -> Server | Client <- Server |
역할 | 정보 요청 | 요청에 대한 내용을 담은 응답 |
HEAD | method, path, ... | content-type, date, ... |
BODY | document |
requests
GET
import requests
res = requests.get("https://www.naver.com") # HTTP Response
res.headers # Header 확인
res.text # Body(document) text 형태로 확인
POST
payload = {"name": "Hello", "age": 13}
url = "https://webhook.site/<개인 주소>"
res = requests.post(url, payload)
res.status_code # 상태 코드 확인
Document Object Model
HTML을 파싱하여, 브라우저가 이해하도록 만든 Tree형태의 자료구조
HTML Parser
가 필요(어렵거나 새롭게 알게 된 것 등 다시 확인할 것들)
Jupyter lab
DOM에 대한 설명 및 활용 : 복습 후 다른 예시들을 더 찾아볼 것
HTML 스크래핑을 해본적이 있어서 이론이나 실습 모두 빠르게 진행했다. 5시간 분량의 강의인데 3시간 내로 끝난 것 같다. TIL을 잘 적고 싶어서 고민을 좀 했고 그 외의 시간은 평소보다는 널널하게 흘려보냈다.
TIL을 적을 때 기존에는 강의 받아쓰기처럼 적는 경향이 있었는데, 나중에 다시 읽어보니 이해하고 쓴 것 같은 느낌이 전혀 들지 않았다. 어제 HTML이론에 대한 TIL은 실습 부분 외에도 직접 사용해보고 하면서 적은거라, '내가 직접 써보고 이해한 내용'임을 알 수 있었다. 그런데 초반에 적은 TIL을 다시 보니까 그냥 받아적은게 티가 나기도 하고 잘 기억이 나지 않았다.
오늘은 강의를 처음부터 끝까지 들은 후 키워드만 체크해 필기한 다음, TIL을 적으면서 중간중간 다시 듣는 방식을 사용했다. 이 방식으로 더 잘 읽히고 짜임새 있는 구성의 글을 쓰게 되어서 만족스러웠다. TIL 쓰는 시간은 오래 걸리지만 익숙해지면 줄어들 것 같아서 걱정은 되지 않는다.
커리큘럼을 보니 내일부터는 BeautifulSoup를 사용해 스크래핑을 시작하는데, 모르는 부분이 많을 것 같아 벌써부터 기대가 된다. :>