서브쿼리

song4·2023년 8월 9일

SQLD - SQL 활용

목록 보기

4/8

서브쿼리(Subquery)란 하나의 SQL문안에 포함되어 있는 또 다른 SQL문을 말한다.
서브쿼리는 알려지지 않은 기준을 이용한 검색을 위해 사용한다.
서브쿼리는 메인쿼리가 서브쿼리를 포함하는 종속적인 관계이다.
메인쿼리와 서브쿼리

조인은 조인에 참여하는 모든 테이블이 대등한 관계에 있기 때문에 조인에 참여하는 모든 테이블의 칼럼을 어느 위치에서라도 자유롭게 사용할 수 있다. 그러나 서브쿼리는 메인쿼리의 칼럼을 모두 사용할 수 있지만 메인쿼리는 서브쿼리의 칼럼을 사용할 수 없다.

질의 결과에 서브쿼리 칼럼을 표시해야 한다면 조인 방식으로 변환하거나 함수, 스칼라 서브쿼리(Scalar Subquery) 등을 사용해야 한다.

조인은 집합간의 곱(Product)의 관계이다.
즉, 1:1 관계의 테이블이 조인하면 1(= 1 * 1) 레벨의 집합이 생성되고,
1:M 관계의 테이블을 조인하면 M(= 1 * M) 레벨의 집합이 생성된다.
그리고 M:N 관계의 테이블을 조인하면 MN(= M * N) 레벨의 집합이 결과로서 생성된다.
그러나 서브쿼리는 서브쿼리 레벨과는 상관없이 항상 메인쿼리 레벨로 결과 집합이 생성된다.

서브쿼리를 사용할 때 다음 사항에 주의사항

서브쿼리를 괄호로 감싸서 사용한다.
서브쿼리는 단일 행(Single Row) 또는 복수 행(Multiple Row) 비교 연산자와 함께 사용 가능하다. 단일 행 비교 연산자는 서브쿼리의 결과가 반드시 1건 이하이어야 하고 복수행 비교 연산자는 서브쿼리의 결과 건수와 상관 없다.
서브쿼리에서는 ORDER BY를 사용하지 못한다. ORDER BY절은 SELECT절에서 오직 한 개만 올 수 있기 때문에 ORDER BY절은 메인쿼리의 마지막 문장에 위치해야 한다.

서브쿼리가 SQL문에서 사용이 가능한 곳

SELECT 절
FROM 절
WHERE 절
HAVING 절
ORDER BY 절
INSERT문의 VALUES 절
UPDATE문의 SET 절

서브쿼리의 종류는 동작하는 방식이나 반환되는 데이터의 형태에 따라 분류할 수 있다.

동작하는 방식에 따라 서브쿼리를 분류하면 두 가지로 나눌 수 있다.

서브쿼리는 메인쿼리 안에 포함된 종속적인 관계이기 때문에 논리적인 실행순서는 항상 메인쿼리에서 읽혀진 데이터에 대해 서브쿼리에서 해당 조건이 만족하는지를 확인하는 방식으로 수행되어야 한다. 그러나 실제 서브쿼리의 실행순서는 상황에 따라 달라질 수 있다.

반환되는 데이터의 형태에 따라 서브쿼리는 세가지로 분류된다.

1. 단일 행 서브쿼리

서브쿼리가 단일 행 비교 연산자(=, <, <=, >, >=, <>)와 함께 사용할 때는 서브쿼리의 결과 건수가 반드시 1건 이하이어야 한다.
만약, 서브쿼리의 결과 건수가 2건 이상을 반환하면 SQL문은 실행시간(Run Time) 오류가 발생한다.
이런 종류의 오류는 컴파일 할 때(Compile Time)는 알 수 없는 오류이다. 단일 행 서브쿼리의 예로 '정남일' 선수가 소속된 팀의 선수들에 대한 정보를 표시하는 문제를 가지고 설명해 보면 다음과 같다.
단일 행 서브쿼리의 예제1

위 그림은 2개의 SQL문으로 구성되어 있다.

정남일 선수의 소속팀을 알아내는 SQL문(서브쿼리)
서브쿼리의 결과를 이용해서 해당 팀에 소속된 선수들의 정보를 출력하는 SQL문(메인쿼리)

정남일 선수의 소속팀을 알아내는 서브쿼리가 먼저 수행되어 정남일 선수의 소속팀 코드가 반환된다.
메인쿼리는 서브쿼리에서 반환된 결과를 이용해서 조건을 만족하는 선수들의 정보를 출력한다. 만약, 정남일 선수가 동명이인이었다면 2건 이상의 결과가 반환되어 SQL문은 오류가 발생될 것이다. 테이블 전체에 하나의 그룹함수를 적용할 때는 그 결과값이 1건이 생성되기 때문에 단일 행 서브쿼리로서 사용 가능하다.

선수들 중에서 키가 평균 이하인 선수들의 정보를 출력하는 문제를 가지고 그룹함수를 사용한 서브쿼리를 알아보자.
단일 행 서브쿼리의 예제2

위 그림은 2개의 SQL문으로 구성되어 있다.

선수들의 평균키를 알아내는 SQL문(서브쿼리)
서브쿼리의 결과를 이용해서 키가 평균 이하의 선수들의 정보를 출력하는 SQL문(메인쿼리)

2. 다중 행 서브쿼리

서브쿼리의 결과가 2건 이상 반환될 수 있다면 반드시 다중 행 비교 연산자(IN, ALL, ANY, SOME)와 함께 사용해야 한다.
그렇지 않으면 SQL문은 오류를 반환한다.

선수들 중에서 '정현수'라는 선수가 소속되어 있는 팀 정보를 출력하는 서브쿼리를 작성하면 다음과 같다.
'정현수'라는 이름을 가진 선수가 두 명이 존재한다고 가정

SELECT
	REGION_NAME 연고지명,
    TEAM_NAME 팀명,
    E_TEAM_NAME 영문팀명
FROM TEAM
WHERE TEAM_ID = (
	SELECT TEAM_ID
    FROM PLAYER
    WHERE PLAYER_NAME = '정현수')
ORDER BY TEAM_NAME;

위의 SQL문은 서브쿼리의 결과로 2개 이상의 행이 반환되어
단일 행 비교 연산자인 '='로는 처리가 불가능하기 때문에 에러가 반환된다.
따라서 다중 행 비교 연산자로 바꾸어서 SQL문을 작성하면 다음과 같다.

SELECT
	REGION_NAME 연고지명,
    TEAM_NAME 팀명,
    E_TEAM_NAME 영문팀명
FROM TEAM
WHERE TEAM_ID IN(
	SELECT TEAM_ID
    FROM PLAYER
    WHERE PLAYER_NAME = '정현수')
ORDER BY TEAM_NAME;

서브쿼리의 실행 결과가 2건 이상이 나오는 모든 경우에 다중 행 비교 연산자를 사용해야 한다.

3. 다중 칼럼 서브쿼리

다중 칼럼 서브쿼리는 서브쿼리의 결과로 여러 개의 칼럼이 반환되어 메인쿼리의 조건과 동시에 비교되는 것을 의미한다.

소속팀별 키가 가장 작은 사람들의 정보를 출력하는 문제를 가지고 다중 칼럼 서브쿼리를 알아보도록 한다.

SELECT
	TEAM_ID,
    PLAYER_NAME,
    POSITION,
    BACK_NO,
    HEIGHT
FROM PLAYER
WHERE (TEAM_ID, HEIGHT)
    IN (
        SELECT
            TEAM_ID,
            MIN(HEIGHT)
        FROM PLAYER
        GROUP BY TEAM_ID)
ORDER BY TEAM_ID, PLAYER_NAME;

서브쿼리의 결과값으로 소속팀코드(TEAM_ID)와 소속팀별 가장 작은 키를 의미하는 MIN(HEIGHT)라는 두 개의 칼럼을 반환했다.

메인 쿼리에서는 조건절에 TEAM_ID와 HEIGHT 칼럼을 괄호로 묶어서 서브쿼리 결과와 비교하여 원하는 결과를 얻었다.

키가 제일 작은 선수 한 명씩만 반환된 것이 아니라 같은 팀에서 여러 명이 반환될 수 있다. 이것은 동일 팀 내에서 조건(팀별 가장 작은 키)을 만족하는 선수가 여러 명이 존재하기 때문이다. 이 기능은 SQL Server에서는 지원되지 않는 기능이다.

4. 연관 서브쿼리

연관 서브쿼리(Correlated Subquery)는 서브쿼리 내에 메인쿼리 칼럼이 사용된 서브쿼리이다.

선수 자신이 속한 팀의 평균 키보다 작은 선수들의 정보를 출력하는 SQL문을 연관 서브쿼리를 이용해서 작성해 보면 다음과 같다.

SELECT
	T.TEAM_NAME,
    M.PLAYER_NAME,
    M.POSITION,
    M.BACK_NO,
    M.HEIGHT
FROM 
	PLAYER M,
    TEAM T
WHERE M.TEAM_ID = T.TEAM_ID
AND M.HEIGHT < (
	SELECT AVG(HEIGHT)
	FROM PLAYER S
    WHERE S.TEAM_ID = M.TEAM_ID
    AND S.HEIGHT IS NOT NULL
	GROUP BY S.TEAM_ID)
ORDER BY PLAYER_NAME;

EXISTS 서브쿼리는 항상 연관 서브쿼리로 사용된다.

EXISTS 서브쿼리의 특징
조건을 만족하는 건이 여러 건이더라도 조건을 만족하는 1건만 찾으면 추가적인 검색을 진행하지 않는다.

다음은 EXISTS 서브쿼리를 사용하여 '20120501' 부터 '20120502' 사이에 경기가 있는 경기장을 조회하는 SQL문이다.

SELECT
	STADIUM_ID,
    STADIUM_NAME
FROM STADIUM A
WHERE EXISTS (
	SELECT 1 
    FROM SCHEDULE X
    WHERE X.STADIUM_ID = A.STADIUM_ID
    AND X.SCHE_DATE BETWEEN '20120501' AND '20120502');

5. 그밖에 위치에서 사용하는 서브쿼리

가. SELECT 절에 서브쿼리 사용하기

SELECT 절에서 사용하는 서브쿼리인 스칼라 서브쿼리(Scalar Subquery)에 대해서 알아본다.

스칼라 서브쿼리는 한 행, 한 칼럼(1 Row 1 Column)만을 반환하는 서브쿼리를 말한다.
스칼라 서브쿼리는 칼럼을 쓸 수 있는 대부분의 곳에서 사용할 수 있다.

선수 정보와 해당 선수가 속한 팀의 평균 키를 함께 출력하는 예제로 스칼라 서브쿼리를 설명하면 다음과 같다.
스칼러 서브쿼리

위 그림은 2개의 SQL문으로 구성되어 있다.

선수들의 정보를 출력하는 SQL문(메인쿼리)
해당 선수의 소속팀별 평균키를 알아내는 SQL문(서브쿼리)

선수의 소속팀별 평균키를 알아내는 스칼라 서브쿼리는 메인쿼리의 결과 건수만큼 반복수행 된다.

스칼라 서브쿼리 또한 단일 행 서브쿼리이기 때문에 결과가 2건 이상 반환되면 SQL문은 오류를 반환한다.

나. FROM 절에서 서브쿼리 사용하기

FROM 절에서 사용되는 서브쿼리를 인라인 뷰(Inline View)라고 한다.

FROM 절에는 테이블 명이 오도록 되어있다. 그런데 서브쿼리가 FROM 절에 사용되면 어떻게 될까?

서브쿼리의 결과가 마치 실행 시에 동적으로 생성된 테이블인 것처럼 사용할 수 있다. 인라인 뷰는 SQL문이 실행될 때만 임시적으로 생성되는 동적인 뷰이기 때문에 데이터베이스에 해당 정보가 저장되지 않는다.

그래서 일반적인 뷰를 정적 뷰(Static View)라고 하고 인라인 뷰를 동적 뷰(Dynamic View)라고도 한다.

인라인 뷰는 테이블 명이 올 수 있는 곳에서 사용할 수 있다. 서브쿼리의 칼럼은 메인쿼리에서 사용할 수 없다고 했다.
그러나 인라인 뷰는 동적으로 생성된 테이블이다. 인라인 뷰를 사용하는 것은 조인 방식을 사용하는 것과 같다.
그렇기 때문에 인라인 뷰의 칼럼은 SQL문에서 자유롭게 참조할 수 있다.

K-리그 선수들 중에서 포지션이 미드필더(MF)인 선수들의 소속팀명 및 선수 정보를 출력하고자 한다. 인라인 뷰를 활용해서 SQL문을 만들어 보자.

SELECT
	T.TEAM_NAME,
    P.PLAYER_NAME,
    P.BACK_NO
FROM 
	(SELECT
    	TEAM_ID,
        PLAYER_NAME,
        BACK_NO
	FROM PLAYER
    WHERE POSITION = 'MF') P,
    TEAM T
WHERE P.TEAM_ID = T.TEAM_ID
ORDER BY P.PLAYER_NAME;

SQL문을 보면 선수들 중에서 포지션이 미드필더(MF) 선수들을 인라인 뷰를 통해서 추출하고 인라인 뷰의 결과와 TEAM 테이블과 조인해서 팀명(TEAM_NAME)을 출력하고 있다.

인라인 뷰에서는 ORDER BY절을 사용할 수 있다. 인라인 뷰에 먼저 정렬을 수행하고 정렬된 결과 중에서 일부 데이터를 추출하는 것을 TOP-N 쿼리라고 한다.
TOP-N 쿼리를 수행하기 위해서는 정렬 작업과 정렬 결과 중에서 일부 데이터만을 추출할 수 있는 방법이 필요하다.

Oracle에서는 ROWNUM이라는 연산자를 통해서 결과로 추출하고자 하는 데이터 건수를 제약할 수 있다.

SELECT
	PLAYER_NAME,
    POSITION,
    BACK_NO,
    HEIGHT
FROM 
	(SELECT
    	PLAYER_NAME,
        POSITION,
        BACK_NO,
        HEIGHT
    FROM PLAYER
    WHERE HEIGHT IS NOT NULL
    ORDER BY HEIGHT DESC)
WHERE ROWNUM <= 5;

SQL문의 인라인 뷰에서 선수의 키를 내림차순으로 정렬(가장 키가 큰 선수부터 출력)한 후 메인쿼리에서 ROWNUM을 사용해서 5명의 선수의 정보만을 추출하였다. 이것은 모든 선수들 중에서 가장 키가 큰 5명의 선수를 출력한 것이다. 만약, 다른 선수 중에서 키가 192인 선수가 더 존재하더라도 해당 SQL문에서는 데이터가 출력되지 않는다. 이런 데이터까지 추출하고자 한다면 분석함수의 RANK관련 함수를 사용해야 한다.

다. HAVING 절에서 서브쿼리 사용하기

HAVING 절은 그룹함수와 함께 사용될 때 그룹핑된 결과에 대해 부가적인 조건을 주기 위해서 사용한다.

평균키가 삼성 블루윙즈팀의 평균키보다 작은 팀의 이름과 해당 팀의 평균키를 구하는 SQL문을 장성하면 다음과 같다.

SELECT
	P.TEAM_ID,
    T.TEAM_NAME,
    AVG(P.HEIGHT)
FROM PLAYER P, TEAM T
WHERE P.TEAM_ID = T.TEAM_ID
GROUP BY P.TEAM_ID, T.TEAM_NAME
HAVING AVG(P.HEIGHT) < (
	SELECT AVG(HEIGHT)
    FROM PLAYER
    WHERE TEAM_ID = 'K02');

라. UPDATE문의 SET 절에서 사용하기

현재 TEAM 테이블에는 STADIUM_NAME 칼럼이 없다. TEAM 테이블에 STADIUM_NAME을 추가(ALTER TABLE ADD COLUMN)하였다고 가정하자.
TEAM 테이블에 추가된 STADIUM_NAME의 값을 STADIUM 테이블을 이용하여 변경하고자 할 때 다음과 같이 SQL문을 작성할 수 있다.

UPDATE TEAM A
SET A.STADIUM_NAME = (
	SELECT X.STADIUM_NAME
    FROM STADIUM X
    WHERE X.STADIUM_ID = A.STADIUM_ID);

서브쿼리를 사용한 변경 작업을 할 때 서브쿼리의 결과가 NULL을 반환할 경우 해당 칼럼의 결과가 NULL이 될 수 있기 때문에 주의해야 한다.

마. INSERT문의 VALUES절에서 사용하기

PLAYER 테이블에 '홍길동'이라는 선수를 삽입하고자 한다. 이 때 PLAYER_ID의 값을 현재 사용중인 PLAYER_ID에 1을 더한 값으로 넣고자 한다.

INSERT INTO PLAYER(
	PLAYER_ID,
    PLAYER_NAME,
    TEAM_ID)
VALUES (
	(SELECT TO_CHAR(MAX(TO_NUMBER(PLAYER_ID))+1)
    FROM PLAYER),
    '홍길동',
    'K06');

6. 뷰(View)

테이블은 실제로 데이터를 가지고 있는 반면, 뷰(View)는 실제 데이터를 가지고 있지 않다. 뷰는 단지 뷰 정의(View Definition)만을 가지고 있다. 질의에서 뷰가 사용되면 뷰 정의를 참조해서 DBMS 내부적으로 질의를 재작성(Rewrite)하여 질의를 수행한다.

뷰는 실제 데이터를 가지고 있지 않지만 테이블이 수행하는 역할을 수행하기 때문에 가상 테이블(Virutal Table)이라고도 한다.
뷰 사용의 장점