Data Democratization(데이터 민주화) : 높은 접근성
ELT (Extract-Load-Transform)
Process
데이터 추출 -> 가공 -> 웨어하우스 저장
문제점 : 저장하기전에 데이터 가공과정에서 문제가 발생함. 어떤 형태로 데이터를 가공할 것인지에 대한 기술적, 커뮤니케이션 공수 발생
해결 : 선 데이터 저장 -> 꺼낼 때 가공
배치 프로세스를 이용해서 더 작은 단위로 데이터를 쪼개 처리
실시간 데이터를 처리하는 파이프라인
히스토리컬 데이터부터 실시간 데이터까지 빠르게 처리 가능
당마 메인 데이터 웨어하우스
장점 : 퀄리티 있는 웹 UI 제공, 저렴한 비용(실제로 스캔된 데이터에 대해서만 비용 발생)과 확장성
BigQuery Omni
AWS S3 Azure blog storage 클라우드에 적용 가능
단계적 티어(Tier) 테이블
raw(원본) -> analytic(가공) -> objective(최종 사용자)
분석적인 유저의 관점으로 프로젝트 분석, 다양한 use case를 남겨보기, tester로써의 안목 기르기
광범위한 프로젝트 활용
code commit 만이 기여가 아니다 문서화(Documentation), 번역, 오타수정 또한 contribution이 될 수 있다.
git 대한 높은 이해도 또한 필수적
github의 이슈들 중에서 내가 해결할 수 있는 issue를 판단해 찾는다. (issue labeling 참고)
ex) Good First issue
프로젝트 전체를 압도하는 실력이 아니라 issue를 해결한 실력이면 충분하다
Amazon Athena를 활용한 문제
Apache Spark
Container Orchestration 툴
Pod (컨테이너) 를 포함하여 추상화된 리소스를 선언, 실질적인 배치, 배포는 Kubernetes 자동화
Cluster Autoscaler
가용한 리소스가 부족할 경우 -> 인스턴스를 자동으로 늘리고 줄여주는 작업을 자동화
Superset
Web 기반 오픈소스 BI 프레임워크
Spark Thrift Server + Superset
Spark Thrift Server 기반 데이터 서비스
유저 push message 자동화
UserDB, DW(S3)
one-hot 인코딩
특정 값만 1
[1,0,0,0,0,0]
임베딩을 직접 만드는 AI
Word 2 Vec 생성을 위한 모델
Linewalks is hiring great machine learning engineers
window size = 단어 주변의 거리
ex) input = machine, window size = 2
hiring, great learning, engineers
하나의 행렬을 특정한 구조를 가진 다른 행렬의 구조로 나타내는 수학적 방법
검색 기능의 종류
1. 풀텍스트 (Full Text)
텍스트 검색에 사용, 입력된 검색을 포함하는 결과를 연관도가 높은 순서대로 스코어를 매김
ex) 다룰줄 아는 개발 언어, 도구, OS
Elastic Search Query
match
Elastic Search Query
term
range
geo_bounding_box
geo_distance
total score = tf + idf
precision : 검색 결과에 나타난 것 중 실제로 True인 것
Recall : 실제 true인 것에서 검색엔진이 true라고 판단한 것
Bigquery : 쿼리 예약을 통한 자동화 모듈, 쿼리 실패시 메일 발송
Airflow : Airbnb에서 개발 설정한 시간에 특정 작업을 진행할 수 있도록 하는 라이브러리
스케쥴링, python, DAG구성
DAG: Airflow의 하나의 workflow, Python 스크립트로 정의
GCP Cloud Composer와 함께 사용
수동 DAG도 지원