웹 스크래핑

O(logn)·2024년 11월 23일

파이썬 웹크롤링

목록 보기
7/12
post-thumbnail

사진: UnsplashKellen Riggin

웹 스크래핑과 웹 크롤링

  • 웹 스크래핑: 특정한 목적으로 특정 웹 페이지에서 데이터를 추출하는 것(예: 날씨 데이터 가져오기, 주식 데이터 가져오기)
  • 웹 크롤링: 크롤러(Crawler)가 url을 타고다니면서 반복적으로 데이터를 가져오는 과정, 데이터 색인(ex: 검색 엔진의 웹 크롤러)

올바르게 HTTP 요청하기

  • 목적이 윤리적인가
  • 서버에 미칠 영향 고려

로봇 배제 프로토콜(REP)

  • 1994년 로봇 사용 규제하는 협약
User-agent: *
Disallow: /

모든 user agent의 접근을 거부한다는 뜻

User-agent: MussgBot
Disallow: / 

user agent가 mussgbot일 경우 허용하지 않겠다는 뜻

profile
聞一知十

0개의 댓글