[데브코스 TIL] DAY23 데이터 웨어하우스와 SQL 기본(2)

May·2024년 4월 23일

데이터 엔지니어링 데브코스

목록 보기

17/22

오늘의 학습 주제

1. Redshift
2. 관계형 데이터베이스 예제
3. SQL
4. 실습

1. Redshift

Launch AWS Redshift Database

2. 관계형 데이터베이스 예제

웹서비스 사용자/세션 정보
- 사용자 ID: 보통 웹서비스에서는 등록된 사용자마다 부여하는 유일한 ID
- 세션 ID: 세션마다 부여되는 ID
  - 세션: 사용자의 방문을 논리적인 단위로 나눈 것
    - 사용자가 외부 링크(보통 광고)를 타고 오거나 직접 방문해서 올 경우 세션을 생성
    - 사용자가 방문 후 30분간 interaction이 없다가 뭔가를 하는 경우 새로 세션을 생성
  - 즉 하나의 사용자는 여러 개의 세션을 가질 수 있음
  - 보통 세션의 경우 세션을 만들어낸 접점(경유지)를 채널이란 이름으로 기록해둠
    - 마케팅 관련 기여도 분석을 위함
  - 또한 세션이 생긴 시간도 기록
  - 이 정보를 기반으로 다양한 데이터 분석과 지표 설정이 가능
  - 마케팅 관련, 사용자 트래픽 관련
  - DAU, WAU, MAU등의 일주월별 Active User 차트
  - Marketing Channel Attribution 분석
    - 어느 채널에 광고를 하는 것이 가장 효과적인가?
- 사용자 ID 100번: 총 3개의 세션을 갖는 예제
  - 세션 1: 구글 키워드 광고로 시작한 세션
  - 세션 2: 페이스북 광고를 통해 생긴 세션
  - 세션 3: 네이버 광고를 통해 생긴 세션
    - 어느 채널에 credit을 부여할 것인가?
      - first channel attribution : 첫번째 유입 채널에 기여도 집중
      - last channel attribution : 상품 구매 직전 마지막 채널에 기여도 집중
      - multi channel attribution : 모든 채널에 기여도를 배분

3. SQL

1. Redshift 중심으로 DDL과 DML 소개

1. SQL 기본
  먼저 다수의 SQL 문을 실행한다면 세미콜론으로 분리 필요
  SQL문1; SQL문2; SQL문3;

2. SQL 주석
  -- : 인라인 한줄짜리 주석. 자바에서 //에 해당
  /* -- */: 여러 줄에 걸쳐 사용 가능한 주석

3. SQL 키워드는 대문자를 사용한다던지 하는 나름대로의 포맷팅이 필요
  팀 프로젝트라면 팀에서 사용하는 공통 포맷이 필요

4. 테이블/필드이름의 명명규칙을 정하는 것이 중요
  단수형 vs. 복수형
      User vs. Users
  _ vs. CamelCasing
      user_session_channel(SnakeCase) vs. UserSessionChannel(CamelCase)

2. DDL : 데이터 구조 정의 언어

1. CREATE TABLE
	- Primary key 속성을 지정할 수 있으나 무시됨
		- Primary key uniqueness
 			- Big Data 데이터웨어하우스에서는 지켜지지 않음 (Redshift, Snowflake, BigQuery)
	- CTAS: CREATE TABLE table_name AS SELECT
 		- vs. CREATE TABLE and then INSERT

CREATE TABLE raw_data.user_session_channel (
  userid int,
  sessionid varchar(32) primary key,
  channel varchar(32)
);

2. DROP TABLE
	- DROP TABLE table_name;
        - 없는 테이블을 지우려고 하는 경우 에러를 냄
	- DROP TABLE IF EXISTS table_name;
	- vs. DELETE FROM
        - DELETE FROM은 조건에 맞는 레코드들을 지움 (테이블 자체는 존재)

3. ALTER TABLE
  - 새로운 컬럼 추가:
      - ALTER TABLE 테이블이름 ADD COLUMN 필드이름 필드타입;
  - 기존 컬럼 이름 변경:
      - ALTER TABLE 테이블이름 RENAME 현재필드이름 to 새필드이름
  - 기존 컬럼 제거:
      - ALTER TABLE 테이블이름 DROP COLUMN 필드이름;
  - 테이블 이름 변경:
      - ALTER TABLE 현재테이블이름 RENAME to 새테이블이름;

3. DML : 데이터 조작 언어

1. 레코드 질의 언어 : SELECT
  - SELECT FROM: 테이블에서 레코드와 필드를 읽어오는데 사용
  - WHERE를 사용해서 레코드 선택 조건을 지정
  - GROUP BY를 통해 정보를 그룹 레벨에서 뽑는데 사용하기도 함
      - DAU, WAU, MAU 계산은 GROUP BY를 필요로 함
  - ORDER BY를 사용해서 레코드 순서를 결정하기도 함
  - 보통 다수의 테이블의 조인해서 사용하기도 함

2. 레코드 수정 언어
  - INSERT INTO: 테이블에 레코드를 추가하는데 사용
  - UDATE FROM: 테이블 레코드의 필드 값 수정
  - DELETE FROM: 테이블에서 레코드를 삭제
	  - vs. TRUNCATE

참고 사항

현업에서 깨끗한 데이터란 존재하지 않음

항상 데이터를 믿을 수 있는지 의심할 것

실제 레코드를 몇 개 살펴보는 것 만한 것이 없음 -> 노가다

데이터 일을 한다면 항상 데이터의 품질을 의심하고 체크하는 버릇이 필요

중복된 레코드들 체크하기

최근 데이터의 존재 여부 체크하기 (freshness)

Primary key uniqueness가 지켜지는지 체크하기

값이 비어있는 컬럼들이 있는지 체크하기

위의 체크는 코딩의 unit test 형태로 만들어 매번 쉽게 체크해볼 수 있음

어느 시점이 되면 너무나 많은 테이블들이 존재하게 됨

회사 성장과 밀접한 관련

중요 테이블들이 무엇이고 그것들의 메타 정보를 잘 관리하는 것이 중요해짐

그 시점부터는 Data Discovery 문제들이 생겨남

무슨 테이블에 내가 원하고 신뢰할 수 있는 정보가 들어있나?

테이블에 대해 질문을 하고 싶은데 누구에게 질문을 해야하나?

이 문제를 해결하기 위한 다양한 오픈소스와 서비스들이 출현

DataHub (LinkedIn), Amundsen (Lyft), ...

Select Star, DataFrame, ...

실습

1. SELECT
- 테이블(들)에서 레코드들(혹은 레코드수)을 읽어오는데 사용
- WHERE를 사용해 조건을 만족하는 레코드

  SELECT 필드이름1, 필드이름2, …
    FROM 테이블이름
   WHERE 선택조건
   GROUP BY 필드이름1, 필드이름2, ...
   ORDER BY 필드이름 [ASC|DESC] -- 필드 이름 대신에 숫자 사용 가능
   LIMIT N
   ;
   
  SELECT userId, sessionId, channel
    FROM raw_data.user_session_channel;

  SELECT *
    FROM raw_data.user_session_channel
   LIMIT 10;

  SELECT DISTINCT channel -- 유일한 채널 이름을 알고 싶은 경우
    FROM raw_data.user_session_channel;

  SELECT channel, COUNT(1) -- 채널별 카운트를 하고 싶은 경우. COUNT 함수
    FROM raw_data.user_session_channel
   GROUP BY 1;
  -- GROUP BY SELECT 일련번호를 부여했을 때 일련번호가 1인(=channel) 

  SELECT COUNT(1) -- 테이블의 모든 레코드 수 카운트. =COUNT(*). 하나의 레코드
    FROM raw_data.user_session_channel;

  SELECT COUNT(1)
    FROM raw_data.user_session_channel
   WHERE channel = 'Facebook';

2. CASE WHEN
- 필드 값의 변환을 위해 사용 가능
	- CASE WHEN 조건 THEN 참일때 값 ELSE 거짓일때 값 END 필드이름
- 여러 조건을 사용하여 변환하는 것도 가능

CASE WHEN 조건1 THEN 값1
     WHEN 조건2 THEN 값2
     ELSE 값3 END 필드이름;

SELECT CASE
  WHEN channel in ('Facebook', 'Instagram') THEN 'Social-Media'
  WHEN channel in ('Google', 'Naver') THEN 'Search-Engine'
  ELSE 'Something-Else'
   END channel_type
  FROM raw_data.user_session_channel;

3. NULL이란?
- 값이 존재하지 않음을 나타내는 상수. 0 혹은 ""과는 다름
- 필드 지정시 값이 없는 경우 NULL로 지정 가능
	- 테이블 정의시 디폴트 값으로도 지정 가능
- 어떤 필드의 값이 NULL인지 아닌지 비교는 특수한 문법을 필요로 함
	- field1 is NULL 혹은 field1 is not NULL
- NULL이 사칙연산에 사용되면 그 결과는?
	- SELECT 0 + NULL, 0 - NULL, 0 * NULL, 0/NULL

4. COUNT 함수 제대로 이해하기
SELECT COUNT(1) FROM count_test -> 7 (인자가 NULL이 아니므로 COUNT+=1)
SELECT COUNT(0) FROM count_test -> 7 
SELECT COUNT(NULL) FROM count_test -> 0 (인자가 NULL이어서 SKIP)
SELECT COUNT(value) FROM count_test -> 6
SELECT COUNT(DISTINCT value) FROM count_test -> 4

value (count_test 테이블)
NULL
1
1
0
0
4
3

4.WHERE
- IN
	- WHERE channel in (‘Google’, ‘Youtube’)
  		- WHERE channel = ‘Google’ OR channel = ‘Youtube’
	- NOT IN
- LIKE and ILIKE
	- LIKE is a case sensitive string match(대소문자 구분).
    ILIKE is a case-insensitive string match(대소문자 구분X)
	- WHERE channel LIKE ‘G%’ -> ‘G*’
	- WHERE channel LIKE ‘%o%’ -> ‘*o*’
	- NOT LIKE or NOT ILIKE
- BETWEEN
	- Used for date range matching
- 위의 오퍼레이터들은 CASE WHEN 사이에서도 사용가능

5. STRING Functions
- LEFT(str, N) 
- REPLACE(str, exp1, exp2)
- UPPER(str)
- LOWER(str)
- LEN(str)
- LPAD, RPAD (지정한 길이만큼 문자의 왼쪽(오른쪽) 에 문자를 채운다)
- SUBSTRING (LEFT와 비슷하지만, 시작점 지정 가능)

6. ORDER BY
- Default ordering is ascending
	- ORDER BY 1 ASC
- Descending requires “DESC”
	- ORDER BY 1 DESC
- Ordering by multiple columns:
	- ORDER BY 1 DESC, 2, 3
- NULL 값 순서는?
  - NULL 값들은 오름차순 일 경우 (ASC), 마지막에 위치함
  - NULL 값들은 내림차순 일 경우 (DESC) 처음에 위치함
  - 이를 바꾸고 싶다면 NULLS FIRST 혹은 NULLS LAST를 사용

7. 타입 변환
- DATE Conversion:
	- 타임존 관련 변환
    	- CONVERT_TIMEZONE('America/Los_Angeles', ts)
    	- select pg_timezone_names(); 	# 타임존 종류 확인
	- DATE, TRUNCATE 	# timestamp의 인자를 받아서 날짜만 리턴
	- DATE_TRUNC 	# 첫번째 인자가 어떤 값을 추출하는지 지정 (week, month, day, …)
	- EXTRACT or DATE_PART 	# 날짜시간에서 특정 부분의 값을 추출가능
    - DATEDIFF 	# 날짜 차이
	- DATEADD 	# 날짜 더하기
	- GETDATE 	# SELECT가 실행된 현재시각
- TO_CHAR 	# 숫자, 시각 > 문자열로 변환
- TO_TIMESTAMP 	# 문자열로 되어 있는 시간 > 날짜 타입으로 변환

8.Type Casting (계산시 사용)
- 1/2의 결과는?
	- 0이 됨. 정수간의 연산은 정수가 되어야하기 때문
		- 분자나 분모 중의 하나를 float로 캐스팅해야 0.5가 나옴
		- 이는 프로그래밍 언어에서도 일반적으로 동일하게 동작함
- :: 오퍼레이터를 사용
	- category::float
- cast 함수를 사용
	- cast(category as float)

May

이전 포스트

[데브코스 TIL] DAY22 데이터 웨어하우스와 SQL 기본(1)

다음 포스트

[데브코스 TIL] DAY23 데이터 웨어하우스와 SQL 기본(2)

데이터 엔지니어링 데브코스

오늘의 학습 주제

1. Redshift

2. 관계형 데이터베이스 예제

3. SQL

[데브코스 TIL] DAY22 데이터 웨어하우스와 SQL 기본(1)

[데브코스 TIL] DAY24 데이터 웨어하우스와 SQL 기본(3)

0개의 댓글