개요 네이버 뉴스에서 실시간, 대용량 데이터를 수집/처리/시각화 프로젝트 네이버 뉴스에서 키워드에 맞게 원하는 정보 수집 그 정보를 토대로 분야 별로 분류하고 사용자들이 어떤 정보를 더 보는지 확인 프로젝트 기간 2022.03.14 ~ 2022.04.01 자원 개
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 뉴스 데이터를 보여줄 사이트가 필요함 제한사항 현재 보여줄 뉴스 장르는 최신뉴스, 정치, 사회, IT, 생활, 경제, 세계 등 6개로 이루어져 있음 > 최신뉴스는 모든 장르의 뉴스 중 최신 뉴스만 뽑은 것 Set UP Frontend 네이버 뉴스 랭
개요 EC2로 실시간 크롤링하여 데이터를 Kafka를 이용하여 데이터를 전달할 예정 데이터 신문사 주제 시간 뉴스 url 제한사항 실시간 크롤링이므로 1분전인 글만 crawling 나머지들은 continue '.,`"[]?! 등 특수문자 제거 Install Code 결과 selenium & requests가 아닌 bs4 & requests를 사용...
개요 실시간 크롤링하는데 걸리는 시간이 약 32초로 긴 시간인 것을 확인할 수 있음 EC2를 병렬처리하여 시간을 줄일 예정 시간을 단축하기 위해서 Python -> Cpython or pypy로 돌릴 예정 Cpython, pypy Cpython : 대부분의 파이썬의 경우 내부는 C언어로 구현 pypy : 2007년에 처음 발표된 Python의 언어 구현 ...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 crawler(Python) -> Kafka -> Fluentd로 전달 예정 크롤러 url : 크롤러 따라서 Kafka에 배울필요가 있음 Before Install Ubuntu 3대가 필요함(Producer, Broker, Consumer) Install ![](https://velog.vel...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 EC2에 돌릴 크롤러가 Producer가 되어야함 EC2(Python) -> Kafka -> Fluentd로 전달 예정 크롤러 url : 크롤러 따라서 Producer를 Python코드로 짜볼 예정 제한사항 topic 이름은 news(대문자가 들어가면 안됨) 보낼 데이터(네이버 뉴스) 뉴스 제...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 EC2(Python) -> Kafka -> Fluentd -> Elastic Search로 전달 예정 외부에서 들어온 데이터를 내부에서 제공해야함 크롤러 url : 크롤러 Troubleshooting 외부의 데이터가 들어오지 않음 netstat -anlp :9200을 했을 때, 데이터가 들어오려는...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 Consumer를 Fluentd를 사용할 예정 EC2(Python) -> Kafka -> Fluentd -> Elastic Search로 전달 예정 Fluentd로 보낸 데이터는 다시 ES(Elastic Search)로 전달할 예정 크롤러 url : 크롤러 따라서 Consumer를 Fluentd로 ...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 Consumer를 Fluentd를 사용할 예정 Kafka -> Fluentd -> Elastic Search로 전달 예정 따라서 Consumer를 표준출력을 ES로 보내기 위해 conf파일 수정 예정 제한사항 topic 이름은 news(대문자가 들어가면 안됨) 보낼 데이터(네이버 뉴스) 뉴스 ...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 Kafka -> Fluentd -> Elastic Search로 전달 예정 들어온 데이터를 시각화 및 BI 따라서 ElasticSearch & Kibana 설치가 필요함 제한사항 index_name 이름은 news(대문자가 들어가면 안됨) 받는 데이터(네이버 뉴스) 뉴스 제목 신문사 뉴...
개요 실시간 크롤링한 뉴스 데이터를 전달할 플랫폼이 필요함 Kafka -> Fluentd -> Elastic Search로 전달 예정 들어온 데이터를 시각화 및 BI 따라서 Fluentd ES 연동이 필요함 제한사항 index_name 이름은 news(대문자가 들어가면 안됨) 받는 데이터(네이버 뉴스) 뉴스 제목 신문사 뉴스 장르(정치, IT...
개요 ElasticSearch -> Django로 전달 예정 Django는 ES데이터를 API를 사용하여 가져올 예정 Python Elasticsearch Client 사용할 예정 출처 : Elasticsearch Client Install ElasticSearch API 설치 코드 ./post/views.py 최신뉴스이므로 모든 데이터 중 10개의 데...
개요 Kibana -> Django의 시각화 제공 예정 사용방법 Share에서 Embed code 선택 포함시킬 옵션을 선택 및 Copy Copy한 iFrame code를 Html에 붙여넣기 결과 Kibana를 클라이언트에게 Web Service를 제공 ![](https://velog.velcdn.com/images
개요 Django -> Spark -> Zeplin Web Service를 사용하는 클라이언트의 Log를 처리할 예정 배치처리하여 hdfs에 저장해 Troubleshooting Deadline(2022.04.01)이 별로 남지 않았음 해결방안 시간이 별로 없어 지금은 Kafka로 처리를 하고 나중에 log처리 방법을 강구 차후에 장고 Logging을 사...