데이터를 각각의 도메인에서 시작하여 하둡의 HDFS까지 적재한다.최종 목표는 Hive를 통해서 원하는 형태의 데이터를 추출하는 것이다.스키마 레지스트리를 통해 토픽별 Key:Value형태의 스키마를 작성하고 해당 형태에 맞는 데이터만 프로듀스와 컨슘이 가능하도록 강제한
해당 페이지에 이전까지의 클러스터 생성부터 수정한 사항에 대해 서술한다.클러스터 생성시, EMR에서 제공하는 가장 최신의 버전으로 구성을 진행하였다.초기의 기본설정에서 몇가지 어플리케이션이 없는것과, 용량에 대한 문제로 재구축을 하였다.인스턴스 기동시 서버의 기본 시간
해당 페이지에서 jupyterhub를 띄우는 작업에 대해서 공유하고자 한다.일단 AWS에서 제공하는 EMR은 불친절 + 일부러 오류가 안고쳐진 상태로 배포되는것 같다. ( 화딱지.. )분명히 EMR클러스터를 띄울때 Application목록에 jupyterhub를 체크를
해당 페이지에서는 현재 재직중인 회사 라이픽에서 데이터 통계를 내기 위해 진행했던 작업에 대해 기술 하고자 한다.작업 순서는 다음과 같다.PostgreSQL의 DB 테이블을 Hive로 이관(Import)한다.프로세스 실행시마다 증분되거나 변경되는 데이터를 최신데이터로
해당 예제는 도커에 Python - Notebook을 띄우고 Hive를 연결하여 데이터가 나오기 까지의 예제이다.도커허브에서 anaconda3을 기준으로 pull 받는다.docker pull continuumio/anaconda31차적으로 정상동작하는지 띄워본다.정상
현재 클러스터를 테스트/운영으로 구성을 하였다. 두 서버의 차이는 모두 같지만단지 task노드의 인스턴스 개수뿐,,, ( 운영 : 2, 테스트 : 1)이때 발생한 이슈가 있는데 같은 Hive쿼리의 속도가 너무 차이가 크게 발생하였다.운영 서버 : 1분 12초테스트 서버
해당 페이지에서는 이미 설치되어있는 airflow(SQLite)를 PostgreSQL을 이용한연결로 변경하고자 함이다.EMR의 설치로 인하여 HUE전용 MySQL이 설치가 되어 있어서 해당 부분에 연동을 하려고 하였는데, EMR을 최신버전으로 설치했음에도 불구하고 버전
해당 페이지에서는 Airflow를 통한 데이터를 조회하고 삽입하는 부분에 대해서 서술한다.Jupyter Notebook을 통해 선행으로 예제가 작성되었으며 이로인한 task는하나로만 정의하고자 한다. task를 분할하지 않는 이유는, airflow에서 DataFrame
라이픽의 이벤트, 통계 및 여러 데이터를 적재하고자 구성한 데이터 플랫폼의 최종 구성현황을 작성한다.데이터 적재부터 분석까지 아우르는 라이픽의 전체 서비스데이터를 적재하기 위한 프로세스앱에서 발생하는 이벤트를 적재하기 위한 외부 솔루션. 해당 솔루션 웹페이지에서 각종
스키마 레지스트리를 EKS환경에서 사용할 수 있도록 구성한다해당 문서에서는 schema registry를 SR로 명명한다💡 SR에서는 EKS Ingress 설정을 하지 않는다. 해당 이유는 Ingress설정시 지속적인 헬스 체크가 강요되고 SRU를 통해서 내역을 볼수
스키마 레지스트리 UI를 EKS환경에서 사용할 수 있도록 구성한다해당 문서에서는 schema registry ui를 SRU 로 명명한다EKS에서 구동하기 위한 docker 이미지가 있어야 한다. 해당 이미지는landoop 이라는 사람? 명칭? 기업?이 제공하고 있는 이
YouTube를 통해 간략하게 BERT에 대해 정리한 내용을 작성한다. 참고한 유튜브 영상은 다음과 같다.\[JUSTA]-BERT란 무엇인가BERT가 이러이러하고 이러이러해서 탄생했다정도로만 알기 위해서 작성한다. 실제의 수학적 동작방식이나 코드에 대해서는 작성하지 않
다양한 형태로 원하는 내용과 관련있는 결과를 얻어내는 것을 정보 검색(Information Retrieval, 이하 IR)이라고 한다.IR의 정확도 및 효율을 분석하기 위한 평가기준을 알아본다.True Positives(tp) = 선택된 결과(positives)가 관련
기존에 로그데이터 색인을 배치를 통해 진행하고 있었다. 하지만 해당 방식은 실시간이 될 수 없었고(배치 시간을 아무리 쪼개도 결국 배치가 수행되어야만 색인이 되므로),배치로 ES에 색인을 하니, 추천 데이터를 바로바로 Refresh가 되지 않았다. 앱을 방문하는 사용자