간단한 프로젝트 소개 뉴스 기반 실시간 트렌드 분석기입니다. 뉴스를 실시간으로 수집하고 -> 각 기사에서 핵심 키워드를 추출한 뒤 -> 추가 정보를 포함한 점수 계산을 통해 트렌드 순위를 만드는 것입니다. 이를 위해 가장 필요한 단계는 데이터 수집입니다. 시작이 반이
1️⃣ 모든 선택에는 대가가 따릅니다 뉴스 기사 수집 파이프라인을 설계하면서 제가 가장 먼저 내린 결정은 "Puppeteer나 Playwright 같은 동적 스크래핑을 기본 전략으로 두지 않는다"는 것이었습니다. 하지만 이 결정은 단순히 구현을 줄이기 위한 편의상
'실시간 트렌드 분석 시스템' 개발을 시작했습니다. 트렌드를 분석하려면 가장 먼저 데이터가 필요합니다. 그 시작점으로 뉴스 데이터를 수집하는 Collector 모듈을 구현한 과정을 정리해봅니다. 필요한 모듈을 구현 후 합치는 방식으로 프로젝트를 완성할 계획입니다.
실시간 트렌드 분석기라는 프로젝트 특성상, 처음엔 요즘 많이 사용한다는 kafka와 같은 메시지 큐 시스템이 필수라고 생각했습니다. 여러 언론사에서 데이터를 지속적으로 수집하고, 그걸 바로바로 처리해야되기 때문입니다. 꼭 kafka를 써야할까? 먼저 kafka는 대

본 프로젝트는 여러 언론사의 RSS 데이터를 수집하고, 기사 단위로 스크래핑 및 분석을 수행하여 실시간 트렌드 키워드를 산출하는 시스템입니다. 뉴스 수집량이 증가함에 따라 비동기 처리와 시스템 안정성을 확보하기 위해 메시지 큐(MQ) 도입이 필수가 되었고 , 그 과정에
실시간 키워드 랭킹 서비스를 설계하며 가장 먼저 고민한 것은 어떤 알고리즘을 사용할 것인가가 아니었습니다. > “이 랭킹이 사용자에게 어떤 역할을 해야 하는가?” 단순히 많이 등장한 단어를 나열하는 것은 기술적으로 어렵지 않지만, 그 결과가 사용자의 이해를 돕지 못한다면 트렌드 서비스로서의 가치가 없다고 생각했습니다. 이 글에서는 뉴스 기반 실시간 키...