import requests
res = request.get("https://www.naver.com")
res.headers # header정보 확인
res.text[:200] # body정보 확인
# https://webhook.site
import requests
payload = {"name" : "Hello", "age":13}
res = request.post("my_website",payload)
res.status_code
스크래핑: 웹페이지로부터 원하는 정보를 추출 → 데이터를 추출
크롤링: 크롤러를 활용해서 웹페이지의 정보를 인덱싱 → URL을 타고다니며 반복적으로 데이터를 가져오는 과정 → 데이터 색인
User-agent : * # 특정 에이전트를 명시해준다.
Disallow:/ # /는 순수하게 해당페이지만을 허락한다.
user-agent를 찾는 법 : https://www.whatismybrowser.com/detect/what-is-my-user-agent/
robots.txt 정리 : https://seo.tbwakorea.com/blog/robots-txt-complete-guide/
기본적으로 robots.txt를 확인해야 한다.
# 웹사이트 뒤에 /robots.txt를 입력하면 된다.
import requests
res = request.get("https://naver.com/robots.txt")
print(res.rext)
: robot.txt를 처음 알게 되었다. 이부분은 생각하지 못하고 크롤링을 진행했던 터라, 다음부터는 잘 확인해야겠다.