웹스크랩핑

김건웅·2026년 1월 31일

강의를 들으면서 웹스크랩핑이라는 분야에 대해 알게 되어 복습겸 작성합니다.

웹스크래핑

특정 원하는 정보만 가져오고 저장하는 기술
특정 구조를 분석해 구조하된 데이터를 가져오는 기술

크롤링과의 차이점

크롤링

접속할수 있는 모든 웹사이트를 접속하여 해당 링크를 인덱싱
기본적으로 검색 엔진을 만드는 행위

차이점
크롤링은 도서관을 만드는 행위
스크래핑은 특정 책의 필요한 문장만 찾아서 쓰는 행위

크롤링은 범위 , 스크래핑은 한 특정 타겟 데이터

http통신

추상적인 규약,protocol
비연결성
-> 클라이언트와 서버가 한번 연결을 맺은 후 클라이언트 요청에 대해 서버가 응단을 마치면 맺었던 연결을 끊어버리는 성질
url인코딩 규칭 -> 한글을 지원하지 않아 유니코드로 변환

웹 스크래핑은 http통신을 모방해야한다

정적페이지vs동적페이지

js가 실행되는 시점은 랜더링이 끝난 뒤에 시작된다
브라우저가 응답응ㄹ 받고 랜더링 후에 사용자에게 틀을 보여주고 난 뒤 js를 실행하며 이러한 이유로 html문서에 js를 추가할때는 scipt태그를 제일 하단에 위치했던 기억이 났으며 중간에 script를 넣으면 중간에 js를 실행할수도 있겠다는 생각이 들었음

정적 페이지와 동적페이지의 차이로는 js에 있었고
동적페이지의 특징은

껍데기만 먼저 주고 알맹이는(js) 는 나중에 채워넣기
사용자의 행동(클릭.스크롤)에 따라 변함
스크래핑 방법
-> jSON API를 찾아서 직접 호출
-> 브라우저 자동화(Platwright/selenium) 랜더링 결과 가져오기

동적 페이지는 한번에 전체 html과 알멩이(js)를 가져옴

single page application

page는 하나만 두고 섹션만 바꾸는것

multi page application

page를 전체를 매번 최신화

robot.txt

-user-agent에 따라 허락할 항목과 접근을 금지하는 항목 리스트

user-agent:* -> 전체 유저
user-agent:user명 -> 특정 유저만

스크래핑 주의점

서버 부하 방지 (DDOS 오인)
-> timeout 사용

김건웅

이전 포스트

whiled의 무한루프

다음 포스트