WEB
HTTP(HypterText Transfre Protocol)
웹 크롤링 vs 웹 스크래핑
REP
robots.txt
를 사용하여 크롤링/스크래핑의 범위를 지정한다.python 코드
import requests
# get 요청 : 정보를 불러올 때 사용하는 Method
res = requests.get("url")
print(res.head) # header 내용
print(res.text) # body 내용을 text로 표출
# post 요청 : 정보를 갱신할 때 사용하는 Method
# payload는 dict 형식 (예. {'name': 'danee', 'age' : 28})
res = requests.post("url", payload)
print(res.status_code) # 통신 상태 값, 200은 성공
# REP
# 스크래핑/크롤링 하려는 url에 /robots.txt 를 붙혀서 get을 해오면
# 해당 페이지의 REP 규제 범위를 알 수 있다.
res = requests.get("url/robots.txt")
print(res.text)
크롤링이라고만 불렀던 행동이 스크래핑과 더 비슷하다는 것을 알게되었다. 웹과 네트워크의 간단한 정의조차도 몰랐었는데 이번에 알게 되어 개발자에 조금더 가까워지고 있는 느낌이 들어서 기분이 좋다.
오늘은 양방향 연결 리스트에 대한 블로그를 작성했다. 꽤나 유용하게 사용할 수 있는 자료 구조라는 생각이 들었고 빠르게 다음 내용들을 정리하고 직접 문제에 적용해보고 싶었다.