크롤링(웹 스크래핑)은 웹사이트의 HTML을 직접 가져와서 원하는 데이터를 추출하는 것을 의미.
반면, RSS 피드는 웹사이트가 공식적으로 제공하는 구조화된 데이터(XML) 포맷이기 때문에, 허용된 방식으로 데이터를 가져오는 것.
| 구분 | RSS 피드 | 크롤링(웹 스크래핑) |
|---|---|---|
| ✅ 데이터 제공 방식 | 웹사이트가 공식적으로 제공 | HTML을 직접 가져와서 분석 |
| ✅ 구조화 여부 | XML 형식으로 정리되어 있음 | HTML 구조를 분석해야 함 |
| ✅ 법적 문제 | 보통 문제가 없음 (허용된 방식) | 웹사이트 정책에 따라 불법일 수도 있음 |
| ✅ 속도 & 안정성 | 안정적 (사이트에서 제공하는 데이터) | 사이트 변경 시 코드 수정 필요 |
| ✅ 필요한 기술 | Fetch API, XML 파싱 | 웹 파싱, BeautifulSoup, Puppeteer |
robots.txt 정책을 위반할 가능성이 높음.📌 즉, RSS는 합법적으로 제공되는 데이터를 활용하는 것이고, 크롤링은 데이터를 직접 긁어오는 방식.
따라서 RSS를 활용하면 법적 문제 없이 뉴스 데이터를 수집 가능. 🚀