웹스크랩핑

김건웅·2026년 1월 31일

강의를 들으면서 웹스크랩핑이라는 분야에 대해 알게 되어 복습겸 작성합니다.

웹스크래핑

특정 원하는 정보만 가져오고 저장하는 기술
특정 구조를 분석해 구조하된 데이터를 가져오는 기술

크롤링과의 차이점

크롤링

  • 접속할수 있는 모든 웹사이트를 접속하여 해당 링크를 인덱싱
  • 기본적으로 검색 엔진을 만드는 행위

차이점
크롤링은 도서관을 만드는 행위
스크래핑은 특정 책의 필요한 문장만 찾아서 쓰는 행위

  • 크롤링은 범위 , 스크래핑은 한 특정 타겟 데이터

http통신

  • 추상적인 규약,protocol
  • 비연결성
    -> 클라이언트와 서버가 한번 연결을 맺은 후 클라이언트 요청에 대해 서버가 응단을 마치면 맺었던 연결을 끊어버리는 성질
  • url인코딩 규칭 -> 한글을 지원하지 않아 유니코드로 변환

웹 스크래핑은 http통신을 모방해야한다

정적페이지vs동적페이지

js가 실행되는 시점은 랜더링이 끝난 뒤에 시작된다
브라우저가 응답응ㄹ 받고 랜더링 후에 사용자에게 틀을 보여주고 난 뒤 js를 실행하며 이러한 이유로 html문서에 js를 추가할때는 scipt태그를 제일 하단에 위치했던 기억이 났으며 중간에 script를 넣으면 중간에 js를 실행할수도 있겠다는 생각이 들었음

정적 페이지와 동적페이지의 차이로는 js에 있었고
동적페이지의 특징은

  • 껍데기만 먼저 주고 알맹이는(js) 는 나중에 채워넣기
  • 사용자의 행동(클릭.스크롤)에 따라 변함
  • 스크래핑 방법
    -> jSON API를 찾아서 직접 호출
    -> 브라우저 자동화(Platwright/selenium) 랜더링 결과 가져오기

동적 페이지는 한번에 전체 html과 알멩이(js)를 가져옴

single page application

  • page는 하나만 두고 섹션만 바꾸는것

multi page application

  • page를 전체를 매번 최신화

robot.txt

-user-agent에 따라 허락할 항목과 접근을 금지하는 항목 리스트

  • user-agent:* -> 전체 유저
  • user-agent:user명 -> 특정 유저만

스크래핑 주의점

  • 서버 부하 방지 (DDOS 오인)
    -> timeout 사용
  • 저작권 준수
    -> robot.txt 확인하기

0개의 댓글