SQL Structured Query Langauge - 구조화된 질의 언어 테이블 형태의 데이터 구조를 다루는데 최적화된 언어 BigQuery SQL 언어의 확장 다양한 내장 함수 데이터 형식 : 배열, 구조체 등 확장 문법 문장 (St
Probblem Definition DAG Task에서 수행하는 작업의 대상에 동시성 제약 (Concurrency Limit)이 존재하는 경우 Airflow 에서 적절히 Throttling을 > 수백 개의 tasks 들이 주어지고, 동시에 수행 가능한 task의 수가
들어가며 BigQuery가 JSON을 문자열이 아닌 하나의 데이터 타입으로 지원하기 시작했다. 어떤 내용인지 살펴보자. [BigQuery Release Note]( https://cloud.google.com/bigquery/docs/release-notes#Janu
K8S Networking을 이해하는데 필요한 용어들과 배경지식들을 정리하고자 한다. namespace To be updated ☞ 참고자료 UTS 네임스페이스를 사용한 호스트네임 격리 veth veth는 virtual ethernet device 의미하며 보통
☞ 참고 사이트 https://yaml.org/ https://learnxinyminutes.com/docs/yaml/ YAML >YAML (a recursive acronym for “YAML Ain’t Markup Language”) is a data serial
흩어짐, 변동관측값과 평균의 차이 제곱의 합분산 $s^2 = \\dfrac{1}{n-1} \\cdot \\sum\_{i=1}^{n}(X_i - \\bar X)^2$표준 편차 - root를 씌워 원자료의 단위와 동일하게 만듬$s = \\sqrt {s^2} = \\sqrt
평균 - Outlier에 민감$\\bar X = \\frac{1}{n} \\cdot \\sum\_{i=1}^{n}x_i$BigQuery에서는 AVG() 집계함수를 이용하여 쉽게 평균을 구할 수 있다.중위수/중앙값정렬된 자료에서 중앙에 위치한 값 (짝수일 경우 가운데 2
데이터 > - 관측을 통해 획득한 사실 - 논리의 기초가 되는 재료 어떤 결론의 근거가 될 수 있는 모든 사실 데이터 분석 > - 수집된 데이터로부터 의미있는 정보를 도출해 내는 과정 요약과 추정의 과정을 거침 요약 - 수집된 데이터를 일목요연하게 정리하는 것
▷ 테이블 조인 개요 쿼리 리뷰를 하다보면 두 테이블을 결합(JOIN)하는 과정에서 선택(필터링) 조건을 ON 절에 기술하는 경우를 가끔 만나게 된다. 사소하긴 하지만 주의를 요하는 경우가 있어 간략히 정리하고자 한다. 결합(JOIN)방식에 따라서 필터링 조건을
Vagrant 프로비저너는 vagrant up 과정 중에 자동으로 소프트웨어를 설치하거나 머신의 설정을 변경할 수 있도록 해준다.vagrant ssh로 박스에 들어가서 소프트웨어를 직접 설치할 수도 있으나, 프로비저닝 시스템을 이용하면 반복되는 과정을 자동화할 수 있다
ML 모델을 학습시키기 위해서는 가끔 무작위 추출된 데이터셋이 필요한 경우가 생긴다. 이 경우 RAND() 함수를 사용하여 랜덤 샘플링을 하곤 한다. BigQuery에서 위의 방식이 가지는 문제점은 랜덤 샘플링을 위해서 전체 테이블을 스캔해야 하므로 이로 인한 시간
Vagrant 프로젝트 구성의 첫 단계는 Vagrantfile 생성하는 것이다.Project Root Directory 지정프로젝트에 필요한 머신과 자원을 기술 + 설치할 SW + 어떻게 접근할 것인지 지정Vagrant는 가상 머신을 바닥부터 만드는 대신에 box 라고
https://learn.hashicorp.com/collections/vagrant/getting-startedWindows에서 VirtualBox를 사용하려면 Hyper-V가 비활성화가 되어야 한다.https://www.vagrantup.com/d
Understanding kubernetes networking: pods Pods 하나의 포드는 동일한 호스트에 같이 위치하며 네트워크 스택과 스토리지 볼륨과 같은 리소스를 공유하는 여러 컨테이너들로 구성된다. 그림의 최상단에는 물리적인 NIC인 eth0 가 위
Kubernetes Networking (1) - Container-to-Container 개요 쿠버네티스 네트워킹을 이해하기 위한 여정을 떠나보자. 이번 여정의 1차 도착지로는 Kristen Jacobs 의 Talks들을 이해하는 것으로 잡았다. 꽤 도전적이다.
관심의 대상 을 관측하여 수집한 자료를 정리, 요약 하고 이를 바탕으로 일반화된 결론을 도출하는 학문관심대상 - 현상, 집단정리,요약 - 수치적 요약, 시각적 요약 (Data Visualization)관심대상 --> 모집단, 관측하여 수집한 자료 --> 표본수치적 요약
이 글은 아래 블로그의 내용을 번역한 내용으로 모호하게 정리된 부분은 원문을 참고하시 바랍니다.BigQuery Admin reference guide: Storage internals빅쿼리는 완전 관리형 스토리지를 제공한다. 이는 직접 서버를 프로비저닝할 필요가 없다는
ABC 분석은 재고관리에 사용되는 재고 분류 기법의 하나이다.1제품의 중요도에 따라 등급을 매기고 그에 따른 판매 전략을 세울 때 활용된다. 중요도는 매출에 따라 구분되며 20%의 제품이 80%의 매출을 차지한다고 알려진 파레토 법칙도 ABC 분석에 근거하고 있다.e
BigQuery 시계열 분석 - Fan Chart Analysis 지난 핸즈온에서 시계열 분석의 일종인 Z-Chart 분석을 다루었다. 이번에는 시계열 데이터인 날짜별 매출액을 Fan Chart 시각화하여 상품의 매출 증가율을 비교 분석하는 과정을 다뤄본다. Fan
Bigtable을 외부 데이터 소스로 External Table을 생성할 때 필요한 테이블 정의 파일 (table definition file) 다뤄보고 간단한 Poc를 통해 BigQuery로 Bigtable에 접근 가능한지 확인해 보자.Cloud Storage나 Go