데놀랜드 요약

Sung Jun Jin·2020년 10월 17일

당근마켓

Data Democratization(데이터 민주화) : 높은 접근성

ELT (Extract-Load-Transform)

Process
데이터 추출 -> 가공 -> 웨어하우스 저장

문제점 : 저장하기전에 데이터 가공과정에서 문제가 발생함. 어떤 형태로 데이터를 가공할 것인지에 대한 기술적, 커뮤니케이션 공수 발생

해결 : 선 데이터 저장 -> 꺼낼 때 가공

Lambda Architecture

배치 프로세스를 이용해서 더 작은 단위로 데이터를 쪼개 처리
실시간 데이터를 처리하는 파이프라인

히스토리컬 데이터부터 실시간 데이터까지 빠르게 처리 가능

Google Bigquery

당마 메인 데이터 웨어하우스
장점 : 퀄리티 있는 웹 UI 제공, 저렴한 비용(실제로 스캔된 데이터에 대해서만 비용 발생)과 확장성
BigQuery Omni
AWS S3 Azure blog storage 클라우드에 적용 가능

단계적 티어(Tier) 테이블
raw(원본) -> analytic(가공) -> objective(최종 사용자)

Open Source Contribution

분석적인 유저의 관점으로 프로젝트 분석, 다양한 use case를 남겨보기, tester로써의 안목 기르기
광범위한 프로젝트 활용

code commit 만이 기여가 아니다 문서화(Documentation), 번역, 오타수정 또한 contribution이 될 수 있다.

git 대한 높은 이해도 또한 필수적

github의 이슈들 중에서 내가 해결할 수 있는 issue를 판단해 찾는다. (issue labeling 참고)
ex) Good First issue

프로젝트 전체를 압도하는 실력이 아니라 issue를 해결한 실력이면 충분하다

Kubernetes

Amazon Athena를 활용한 문제

Apache Spark

Kubernetes

Container Orchestration 툴
Pod (컨테이너) 를 포함하여 추상화된 리소스를 선언, 실질적인 배치, 배포는 Kubernetes 자동화

Cluster Autoscaler
가용한 리소스가 부족할 경우 -> 인스턴스를 자동으로 늘리고 줄여주는 작업을 자동화

Superset
Web 기반 오픈소스 BI 프레임워크

Spark Thrift Server + Superset

Spark Thrift Server 기반 데이터 서비스
유저 push message 자동화

UserDB, DW(S3)

의료 데이터

one-hot 인코딩

특정 값만 1
[1,0,0,0,0,0]

임베딩을 직접 만드는 AI

Skip-Grams (자연어 처리) : 입력된 단어를 기준으로 그 주변의 단어를 예측

Word 2 Vec 생성을 위한 모델

Linewalks is hiring great machine learning engineers

window size = 단어 주변의 거리

ex) input = machine, window size = 2
hiring, great learning, engineers

Matrix Factorization (행렬 인수분해)

하나의 행렬을 특정한 구조를 가진 다른 행렬의 구조로 나타내는 수학적 방법

Elastic

검색 기능의 종류
1. 풀텍스트 (Full Text)
텍스트 검색에 사용, 입력된 검색을 포함하는 결과를 연관도가 높은 순서대로 스코어를 매김
ex) 다룰줄 아는 개발 언어, 도구, OS
Elastic Search Query
match

정확값 (Exact Value)
불리언 여부만 따짐, 정확하게 일치하는 결과만 가져옴
ex) 고용 조건 (22세 ~ 55세)
22 <= age <= 55

Elastic Search Query
term
range
geo_bounding_box
geo_distance

total score = tf + idf

precision : 검색 결과에 나타난 것 중 실제로 True인 것
Recall : 실제 true인 것에서 검색엔진이 true라고 판단한 것

Airflow

Bigquery : 쿼리 예약을 통한 자동화 모듈, 쿼리 실패시 메일 발송

Airflow : Airbnb에서 개발 설정한 시간에 특정 작업을 진행할 수 있도록 하는 라이브러리
스케쥴링, python, DAG구성

DAG: Airflow의 하나의 workflow, Python 스크립트로 정의

GCP Cloud Composer와 함께 사용

수동 DAG도 지원

Sung Jun Jin

주니어 개발쟈🤦‍♂️

이전 포스트

Redis

다음 포스트

데놀랜드 요약

당근마켓

Lambda Architecture

Google Bigquery

Open Source Contribution

Kubernetes

Kubernetes

의료 데이터

Skip-Grams (자연어 처리) : 입력된 단어를 기준으로 그 주변의 단어를 예측

Matrix Factorization (행렬 인수분해)

Elastic

Airflow

Redis

educative - Kotlin - 1

0개의 댓글