[데이터] 라이픽 데이터플랫폼 아키텍처 설계

라이픽의 이벤트, 통계 및 여러 데이터를 적재하고자 구성한 데이터 플랫폼의 최종 구성현황을 작성한다.데이터 적재부터 분석까지 아우르는 라이픽의 전체 서비스데이터를 적재하기 위한 프로세스앱에서 발생하는 이벤트를 적재하기 위한 외부 솔루션. 해당 솔루션 웹페이지에서 각종

2022년 6월 8일
·
0개의 댓글

[Python] Pandas 예제

일반 학번 성적 0 2000 85 1 2001 95 2 2002 75 3 2003 70 4 2004 100 5 2005 100 6 2006 95 7 2007 85 8 2008 80 9 2009 85 ...

2022년 5월 21일
·
0개의 댓글

[Airflow] 설정, 예제

해당 페이지에서는 Airflow를 통한 데이터를 조회하고 삽입하는 부분에 대해서 서술한다.Jupyter Notebook을 통해 선행으로 예제가 작성되었으며 이로인한 task는하나로만 정의하고자 한다. task를 분할하지 않는 이유는, airflow에서 DataFrame

2022년 5월 16일
·
0개의 댓글

[Python] Airflow DB 연동 및 예제

해당 페이지에서는 이미 설치되어있는 airflow(SQLite)를 PostgreSQL을 이용한연결로 변경하고자 함이다.EMR의 설치로 인하여 HUE전용 MySQL이 설치가 되어 있어서 해당 부분에 연동을 하려고 하였는데, EMR을 최신버전으로 설치했음에도 불구하고 버전

2022년 5월 13일
·
0개의 댓글

[파이썬] NumPy 예제

array([1, 2, 3]) array([0., 0., 0., 0., 0.]) array([[0., 0., 0.], [0., 0., 0.]]) array([1., 1., 1., 1., 1., 1., 1.])

2022년 5월 7일
·
0개의 댓글

[데이터] Hive 로컬/분산 모드

현재 클러스터를 테스트/운영으로 구성을 하였다. 두 서버의 차이는 모두 같지만단지 task노드의 인스턴스 개수뿐,,, ( 운영 : 2, 테스트 : 1)이때 발생한 이슈가 있는데 같은 Hive쿼리의 속도가 너무 차이가 크게 발생하였다.운영 서버 : 1분 12초테스트 서버

2022년 5월 2일
·
0개의 댓글

[Python] 도커에 Notebook 띄우고 hive 연결

해당 예제는 도커에 Python - Notebook을 띄우고 Hive를 연결하여 데이터가 나오기 까지의 예제이다.도커허브에서 anaconda3을 기준으로 pull 받는다.docker pull continuumio/anaconda31차적으로 정상동작하는지 띄워본다.정상

2022년 5월 2일
·
0개의 댓글

[데이터] Hue에서 Workflow 구성하기

해당 페이지에서는 현재 재직중인 회사 라이픽에서 데이터 통계를 내기 위해 진행했던 작업에 대해 기술 하고자 한다.작업 순서는 다음과 같다.PostgreSQL의 DB 테이블을 Hive로 이관(Import)한다.프로세스 실행시마다 증분되거나 변경되는 데이터를 최신데이터로

2022년 4월 29일
·
0개의 댓글

[데이터] EMR Jupyterhub 띄우기

해당 페이지에서 jupyterhub를 띄우는 작업에 대해서 공유하고자 한다.일단 AWS에서 제공하는 EMR은 불친절 + 일부러 오류가 안고쳐진 상태로 배포되는것 같다. ( 화딱지.. )분명히 EMR클러스터를 띄울때 Application목록에 jupyterhub를 체크를

2022년 4월 11일
·
0개의 댓글

[데이터] EMR -> Hue 데이터 확인

해당 페이지에 이전까지의 클러스터 생성부터 수정한 사항에 대해 서술한다.클러스터 생성시, EMR에서 제공하는 가장 최신의 버전으로 구성을 진행하였다.초기의 기본설정에서 몇가지 어플리케이션이 없는것과, 용량에 대한 문제로 재구축을 하였다.인스턴스 기동시 서버의 기본 시간

2022년 4월 11일
·
0개의 댓글

[데이터] 데이터 적재 Work flow

데이터를 각각의 도메인에서 시작하여 하둡의 HDFS까지 적재한다.최종 목표는 Hive를 통해서 원하는 형태의 데이터를 추출하는 것이다.스키마 레지스트리를 통해 토픽별 Key:Value형태의 스키마를 작성하고 해당 형태에 맞는 데이터만 프로듀스와 컨슘이 가능하도록 강제한

2022년 4월 11일
·
0개의 댓글

[Kafka] 기본 개념

Zookeeper: 카프카의 메타데이터 관리 및 브로커의 정상상태 점검을 담당Kafka, Kafka Cluster: 여러 대의 브로커를 구성한 클러스터를 의미Broker: 카프카 어플리케이션이 설치된 서버 또는 노드Producer: 카프카로 메세지를 보내는 역할을 하는

2022년 2월 1일
·
0개의 댓글

클린 아키텍처 5주차

업무 규칙은 사업적으로 수익을 얻거나 비용을 줄일 수 있는 규칙 또는 절차다.자동화된 소프트웨어 시스템이 없더라도 그대로 존재한다.핵심 업무 규칙과 핵심 업무 데이터(상품 - 상품 카달로그, 상품 카테고리)는 본질적으로 결합되어 있기 때문에 객체로 만들 좋은 후보가 된

2022년 1월 14일
·
0개의 댓글

AWS EKS에 Elasticsearch 구성하기

Amazon Elastic Kubernetes Service(Amazon EKS) 의 약자로 ,클라우드, 또는 온프레미스에서 Kubernetes 어플리케이션을 실행하고 크기를 조정하는 관리형 컨테이너 서비스 이다.Elasticsearch 접속확인Kibana와 Elast

2022년 1월 14일
·
1개의 댓글

AWS Lambda

Lambda는 서버를 프로비저닝하거나 관리하지 않고도 코드를 실행할 수 있게 해주는 컴퓨팅 서비스입니다. Lambda는 고가용성 컴퓨팅 인프라에서 코드를 실행하고 서버와 운영 체제 유지 관리, 용량 프로비저닝 및 자동 조정, 코드 및 보안 패치 배포, 코드 모니터링 및

2022년 1월 14일
·
0개의 댓글

[Kafka] Kafka Connect

반복적인 데이터 파이프라인을 효과적으로 배포하고 관리하는 방법, 카프카에서 공식적으로 제공하는 컴포넌트 중 하나 ( 카프카 생태계에서 빠질 수 없는 아주 중요한 플랫폼 ) 카프카에서 데이터 파이프라인을 반복적으로 만들어내고 개발하고 운영할때 효과적이며, 카프카 클

2022년 1월 14일
·
0개의 댓글

클린아키텍처 4주차

스터디 범위 15장 ~ 19장참여자 총 7명@LIAM@BRANDON@CHRIS@LEO@PARKER@ODIN@BUZZ소프트웨어 시스템이 쉽게 개발, 배포, 운영, 유지보수되도록 만들기 위해서는 가능한 한 많은 선택지를 가능한 한 오래 남겨두는 전략을 따라야한다.주의를 기

2021년 12월 23일
·
0개의 댓글

클린아키텍처 3주차

스터디 범위 7장 ~ 10장참여자 총 7명@LIAM@BRANDON@CHRIS@LEO@PARKER@ODIN@BUZZ컴포넌트는 시스템의 구성 요소로 배포할 수 있는 가장 작은 단위다.잘 설계된 컴포넌트는 반드시 독립적으로 배포 가능한, 따라서 독립적으로 개발 가능한 능력을

2021년 11월 26일
·
0개의 댓글

클린아키텍처 2주차

스터디 범위 7장 ~ 10장참여자 총 7명@LIAM@BRANDON@CHRIS@LEO@PARKER@ODIN@BUZZ단일 모듈은 변경의 이유가 하나, 오직 하나뿐이어야 한다.소프트웨어 시스템은 사용자와 이해관계자를 만족시키기 위해 변경된다.→ 하나의 모듈은 하나의, 오직

2021년 11월 26일
·
0개의 댓글

Elasticsearch Script 조회 및 등록

ES 서버에 어떠한 스크립트가 적용되어 있는지, 또 그 스크립트는 어떤 코드로 작성되어 있는지 확인하고 싶을 때가 있다. 그때 확인하는 명령어는 다음과 같다

2021년 11월 18일
·
0개의 댓글