개요
- 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함
- EC2에 돌릴 크롤러가 Producer가 되어야함
- EC2(Python) -> Kafka -> Fluentd로 전달 예정
- 크롤러 url : 크롤러
- 따라서 Producer를 Python코드로 짜볼 예정
제한사항
- topic 이름은 news(대문자가 들어가면 안됨)
- 보낼 데이터(네이버 뉴스)
- 뉴스 제목
- 신문사
- 뉴스 장르(정치, IT, 생활, 세계 등 6개)
Code
producer = KafkaProducer(
acks=0,
compression_type='gzip',
bootstrap_servers=['125.133.75.24:33149'],
value_serializer=lambda v: dumps(v).encode('utf-8'),
)
producer.send('news', {
'title': news_title,
'news_company': news_company,
'news_url': news_url,
'news_type': news_type[news_type_num],
})
URL
실시간 뉴스