RSS와 크롤링

김내현·2025년 2월 7일

개인공부

목록 보기
42/51

크롤링(웹 스크래핑)은 웹사이트의 HTML을 직접 가져와서 원하는 데이터를 추출하는 것을 의미.

반면, RSS 피드는 웹사이트가 공식적으로 제공하는 구조화된 데이터(XML) 포맷이기 때문에, 허용된 방식으로 데이터를 가져오는 것.


📌 RSS와 크롤링의 차이

구분RSS 피드크롤링(웹 스크래핑)
데이터 제공 방식웹사이트가 공식적으로 제공HTML을 직접 가져와서 분석
구조화 여부XML 형식으로 정리되어 있음HTML 구조를 분석해야 함
법적 문제보통 문제가 없음 (허용된 방식)웹사이트 정책에 따라 불법일 수도 있음
속도 & 안정성안정적 (사이트에서 제공하는 데이터)사이트 변경 시 코드 수정 필요
필요한 기술Fetch API, XML 파싱웹 파싱, BeautifulSoup, Puppeteer

📌 RSS는 왜 크롤링이 아닐까?

  • RSS는 사이트가 공식적으로 제공하는 API 같은 것이기 때문.
  • HTML을 직접 분석하는 것이 아니라, 이미 정리된 데이터(XML) 를 받아오는 방식.
  • 대부분의 뉴스 사이트에서 "RSS 사용을 허용" 하고 있음.
    → 반면, 크롤링은 사이트의 robots.txt 정책을 위반할 가능성이 높음.

📌 즉, RSS는 합법적으로 제공되는 데이터를 활용하는 것이고, 크롤링은 데이터를 직접 긁어오는 방식.

따라서 RSS를 활용하면 법적 문제 없이 뉴스 데이터를 수집 가능. 🚀

0개의 댓글