Spring Web + Crawling

Jeong_Hyun·2025년 5월 19일
0

웹 크롤링이란?

인터넷(웹) 상에 있는 데이터를 자동으로 수집하는 작업

파이썬 서버 구축, API 호출하는 방식

  1. Python 크롤러 → DB에 저장 → Spring에서 읽기

→ 완전 분리되어 독립적이고 확장성이 좋음

→ 매번 크롤링하면 부하 크니 캐시처럼 db 읽어오면 가볍고, 재사용 용이


  1. Python 크롤러를 Rest API로 띄우기 → Spring 호출

API 기반 통신(FastAPI) : 서버 2개를 HTTP 통신으로 요청-응답 방식

실시간 데이터 중요 시, 데이터 자주 변경되거나 적을 때, 맞춤형 요청 시


강력한 생태계 제공, js도 처리 가능 → 주로 사용되는 웹 크롤링 방식


스프링 프로젝트에서 웹 크롤링 사용하는 방식

  • Jsoup

java html parser : 자바로 정적인 데이터를 웹 크롤링

  • Selenium

동적 웹 크롤링


단순 HTML 정보 크롤링 방식에 사용

0개의 댓글