웹 크롤링

dooh kim·2020년 8월 5일
0

crawler

목록 보기
1/2

기초지식

  • 대상 웹 페이지 조건 확인
    /robot.txt(웹클롤링 url 확인)

( www.daum.net/robot.txt , naver.com/robot.txt ... 확인해보아라)

  • 크롤러 분류 - 상태 유무, Javascript 유무

  • Request 요청 주의 할 점 - 서버 부하 고려
    ( 마치 유저가 브라우저를 보는 것처럼 속도 조절해서 크롤링 하자)
    or
    (youtube data api | instagram data api 검색해서 api를 지원하는지 확인하여 ip 차단 당하지 않도록 하자)

  • 콘텐츠 저작권 문제

  • 페이지 구조 변경 가능성 숙지

profile
testify to the light

0개의 댓글