[데브코스 TIL] DAY24 데이터 웨어하우스와 SQL 기본(3)

May·2024년 4월 24일

데이터 엔지니어링 데브코스

목록 보기

18/22

오늘의 학습 주제

1. GROUP BY와 AGGREGATE 함수
2. CTAS와 CTE

1. GROUP BY와 AGGREGATE 함수

1. GROUP BY & Aggregate 함수

테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산
이는 두 단계로 이뤄짐
- 먼저 그룹핑을 할 필드를 결정 (하나 이상의 필드가 될 수 있음)
  - GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용)
- 다음 그룹별로 계산할 내용을 결정
  - 여기서 Aggregate함수를 사용
  - COUNT, SUM, AVG, MIN, MAX, LISTAGG, …
    - 보통 필드 이름을 지정하는 것이 일반적 (alias)

- 월별 세션수를 계산하는 SQL
	- raw_data.session_timestamp를 사용 (sessionId와 ts 필드)
# 

SELECT LEFT(ts, 7) AS mon,
	   COUNT(1) AS session_count
  FROM raw_data.session_timestamp
 GROUP BY 1 -- GROUP BY mon, GROUP BY LEFT(ts, 7)
 ORDER BY 1 ;

가장 많이 사용된 채널은 무엇인가?
- 가장 많이 사용되었다는 정의는?
  - 사용자 기반 아니면 세션 기반?
- 필요한 정보 - 채널 정보, 사용자 정보 혹은 세션 정보
- 먼저 어느 테이블을 사용해야하는지 생각!
  - user_session_channel?
  - session_timestamp?
  - 혹은 이 2개의 테이블을 조인해야하나?

SELECT channel,
	   COUNT(1) AS session_count,
	   COUNT(DISTINCT userId) AS user_count
  FROM raw_data.user_session_channel
 GROUP BY 1 -- GROUP BY channel
 ORDER BY 2 DESC; -- ORDER BY session_count DESC

가장 많은 세션을 만들어낸 사용자 ID는 무엇인가?
- 필요한 정보 - 세션 정보, 사용자 정보
- 먼저 어느 테이블을 사용해야하는지 생각!
  - user_session_channel?
  - session_timestamp?
  - 혹은 이 2개의 테이블을 조인해야하나?

SELECT userId,
	   COUNT(1) AS count
  FROM raw_data.user_session_channel
 GROUP BY 1 -- GROUP BY userId
 ORDER BY 2 DESC -- ORDER BY count DESC
 LIMIT 1;

월별 유니크한 사용자 수
- 이게 바로 MAU(Monthly Active User)에 해당
- 필요한 정보 - 시간 정보, 사용자 정보
- 먼저 어느 테이블을 사용해야하는지 생각!
  - user_session_channel (userId, sessionId, channel)?
  - session_timestamp (sessionId, ts)?
  - 혹은 이 2개의 테이블을 조인해야하나?

SELECT TO_CHAR(A.ts, 'YYYY-MM') AS month,
	   channel,
	   COUNT(DISTINCT B.userid) AS mau
  FROM raw_data.session_timestamp A
  JOIN raw_data.user_session_channel B ON A.sessionid = B.sessionid
 GROUP BY 1, 2
 ORDER BY 1 DESC, 2;
 
- TO_CHAR (A.ts, ‘YYYY-MM’)
- LEFT(A.ts, 7)
- DATE_TRUNC(‘month’, A.ts)
- SUBSTRING(A.ts, 1, 7)

필드/테이블 이름에 Alias 사용. AS는 필수가 아님.
- COUNT(DISTINCT B.userid) AS mau와
- COUNT(DISTINCT B.userid) mau는 동일

ORDER BY와 GROUP BY
- 포지션 번호 vs. 필드 이름
- GROUP BY 1 == GROUP BY month == GROUP BY TO_CHAR(A.ts, 'YYYY-MM')

월별 채널별 유니크한 사용자 수
- 필요한 정보 - 시간 정보, 사용자 정보, 채널 정보
- 먼저 어느 테이블을 사용해야하는지 생각!
  - user_session_channel (userId, sessionId, channel)?
  - session_timestamp (sessionId, ts)?
  - 혹은 이 2개의 테이블을 조인해야하나?

SELECT TO_CHAR(A.ts, 'YYYY-MM') AS month,
	   channel,
	   COUNT(DISTINCT B.userid) AS mau
  FROM raw_data.session_timestamp A
  JOIN raw_data.user_session_channel B ON A.sessionid = B.sessionid
 GROUP BY 1, 2
 ORDER BY 1 DESC, 2;

2. CTAS와 CTE

1. CTAS: SELECT를 가지고 테이블 생성

간단하게 새로운 테이블을 만드는 방법
자주 조인하는 테이블들이 있다면 이를 CTAS를 사용해서 조인해두면 편리해짐

2. 항상 시도해봐야하는 데이터 품질 확인 방법들

중복된 레코드들 체크하기
최근 데이터의 존재 여부 체크하기 (freshness)
Primary key uniqueness가 지켜지는지 체크하기
값이 비어있는 컬럼들이 있는지 체크하기

1. 중복된 레코드들 체크하기

- 다음 두 개의 카운트를 비교
SELECT COUNT(1)
  FROM table;

SELECT COUNT(1)
  FROM (
        SELECT DISTINCT userId, sessionId, ts, channel
          FROM table
		);

- CTE를 사용해서 중복 제거 후 카운트 해보기
With ds AS (
    SELECT DISTINCT userId, sessionId, ts, channel
    FROM table
    )

SELECT COUNT(1)
FROM ds;

2. 최근 데이터의 존재 여부 체크하기 (freshness)
SELECT MIN(ts), MAX(ts)
  FROM table;

3. Primary key uniqueness가 지켜지는지 체크하기
SELECT sessionId, COUNT(1)
  FROM table
 GROUP BY 1
 ORDER BY 2 DESC
 LIMIT 1;

4. 값이 비어있는 컬럼들이 있는지 체크하기
SELECT
 COUNT(CASE WHEN sessionId is NULL THEN 1 END) sessionid_null_count,
 COUNT(CASE WHEN userId is NULL THEN 1 END) userid_null_count,
 COUNT(CASE WHEN ts is NULL THEN 1 END) ts_null_count,
 COUNT(CASE WHEN channel is NULL THEN 1 END) channel_null_count
  FROM table;

May

이전 포스트

[데브코스 TIL] DAY23 데이터 웨어하우스와 SQL 기본(2)

다음 포스트

[데브코스 TIL] DAY24 데이터 웨어하우스와 SQL 기본(3)

데이터 엔지니어링 데브코스

오늘의 학습 주제

1. GROUP BY와 AGGREGATE 함수

2. CTAS와 CTE

[데브코스 TIL] DAY23 데이터 웨어하우스와 SQL 기본(2)

[데브코스 TIL] DAY25 데이터 웨어하우스와 SQL 기본(4)

0개의 댓글