[SQL_Q] SELECT - 조건에 맞는 개발자 찾기

Hyunjun Kim·2025년 10월 25일
0

SQL

목록 보기
86/90

https://school.programmers.co.kr/learn/courses/30/lessons/276034

1. 문제 설명

SKILLCODES 테이블은 개발자들이 사용하는 프로그래밍 언어에 대한 정보를 담은 테이블입니다. SKILLCODES 테이블의 구조는 다음과 같으며, NAME, CATEGORY, CODE는 각각 스킬의 이름, 스킬의 범주, 스킬의 코드를 의미합니다. 스킬의 코드는 2진수로 표현했을 때 각 bit로 구분될 수 있도록 2의 제곱수로 구성되어 있습니다.

NAMETYPEUNIQUENULLABLE
NAMEVARCHAR(N)YN
CATEGORYVARCHAR(N)NN
CODEINTEGERYN

DEVELOPERS 테이블은 개발자들의 프로그래밍 스킬 정보를 담은 테이블입니다. DEVELOPERS 테이블의 구조는 다음과 같으며, ID, FIRST_NAME, LAST_NAME, EMAIL, SKILL_CODE는 각각 개발자의 ID, 이름, 성, 이메일, 스킬 코드를 의미합니다. SKILL_CODE 컬럼은 INTEGER 타입이고, 2진수로 표현했을 때 각 bit는 SKILLCODES 테이블의 코드를 의미합니다.

NAMETYPEUNIQUENULLABLE
IDVARCHAR(N)YN
FIRST_NAMEVARCHAR(N)NY
LAST_NAMEVARCHAR(N)NY
EMAILVARCHAR(N)YN
SKILL_CODEINTEGERNN

예를 들어 어떤 개발자의 SKILL_CODE가 400 (=b'110010000')이라면, 이는 SKILLCODES 테이블에서 CODE가 256 (=b'100000000'), 128 (=b'10000000'), 16 (=b'10000') 에 해당하는 스킬을 가졌다는 것을 의미합니다.

1.1 문제

DEVELOPERS 테이블에서 Python이나 C# 스킬을 가진 개발자의 정보를 조회하려 합니다. 조건에 맞는 개발자의 ID, 이메일, 이름, 성을 조회하는 SQL 문을 작성해 주세요.

결과는 ID를 기준으로 오름차순 정렬해 주세요.

예시
예를 들어 SKILLCODES 테이블이 다음과 같고,

NAMECATEGORYCODE
C++Back End4
JavaScriptFront End16
JavaBack End128
PythonBack End256
C#Back End1024
ReactFront End2048
VueFront End8192
Node.jsBack End16384

DEVELOPERS 테이블이 다음과 같다면

IDFIRST_NAMELAST_NAMEEMAILSKILL_CODE
D165JeramiEdwardsjerami_edwards@grepp.co400
D161CarsenGarzacarsen_garza@grepp.co2048
D164KellyGrantkelly_grant@grepp.co1024
D163LukaCoryluka_cory@grepp.co16384
D162CadeCunninghamcade_cunningham@grepp.co8452

다음과 같이 DEVELOPERS 테이블에 포함된 개발자 중 Python 스킬이나 C# 스킬을 가진 개발자의 정보가 결과에 나와야 합니다.

IDEMAILFIRST_NAMELAST_NAME
D162cade_cunningham@grepp.coCadeCunningham
D164kelly_grant@grepp.coKellyGrant
D165jerami_edwards@grepp.coJeramiEdwards

D162번 개발자의 경우 SKILL_CODE가 8452 = 8192 + 256 +4 로 Vue, Python, Cpp 스킬을 보유하고 있습니다.
D164번 개발자의 경우 SKILL_CODE가 1024 로 C# 스킬을 보유하고 있습니다.
D165번 개발자의 경우 SKILL_CODE가 400 = 256 + 128 + 16 으로 Python, Java, JavaScript 스킬을 보유하고 있습니다.

2. 풀이

내 풀이1

set @python_code = (select CODE from SKILLCODES where NAME='Python');
set @c_sharp_code = (select CODE from SKILLCODES where NAME='C#');
select *	
from DEVELOPERS
where (SKILL_CODE & @python_code) <> 0
or (SKILL_CODE & @c_sharp_code) <> 0

프로그래머스 환경에서 실행이 되지 않았다.
온라인 테스트나 환경에서 SET을 사용해서 그런 것 같은데
논리적으로는 맞는 것 같지만 실행이 되지 않아서 확인이 필요하다.

내 풀이2

with codes as (
    select CODE
    from SKILLCODES
    where NAME = "Python" or NAME = "C#"
)
select distinct id,EMAIL, FIRST_NAME, LAST_NAME
from codes c
JOIN DEVELOPERS d
on c.CODE & d.SKILL_CODE
order by 1

GROUPBY 를 활용해 풀었는데, DINSTINCT 를 빼고 실행했을 때, 틀렸다고 나왔었다.

예를 들어, 만약 개발자가 Python + C# 둘 다 가지고 있었다면

  • 예: SKILL_CODE = 1280 (Python 256 + C# 1024)
codes.CODEDEVELOPERS.IDSKILL_CODE매칭 여부
256 (Python)D1621280TRUE
1024 (C#)D1621280TRUE
  • JOIN 결과 → 2행
  • 따라서 DISTINCT 없으면 중복 출력 → 정답과 다르게 됨

다른 사람 쿼리

SELECT ID, EMAIL, FIRST_NAME, LAST_NAME
FROM DEVELOPERS
WHERE (SKILL_CODE & (SELECT CODE FROM SKILLCODES WHERE NAME = 'Python')) <> 0
   OR (SKILL_CODE & (SELECT CODE FROM SKILLCODES WHERE NAME = 'C#')) <> 0
ORDER BY ID;
  • 이건 distinct없어도 잘 돌아 간다.

3. 성능 비교

접근 방식Full Table Scan 가능성비트 연산 포함 여부JOIN/CTE 오버헤드인덱스 활용 가능 여부종합 평가
풀이1 (SET 변수 + 비트 연산)높음있음없음없음비트 연산 때문에 대규모 테이블에서는 느림
풀이2 (CTE + JOIN)높음있음있음 (JOIN + CTE)없음JOIN과 CTE로 오버헤드 추가, 대규모에서 느림
서브쿼리 직접 사용높음있음없음없음비트 연산 때문에 인덱스 활용 불가, 단순 구조로 약간 빠름

3.1 성능 개선 방안

1) 전제: 테이블 정규화

현재 구조:

  • DEVELOPERS : ID, EMAIL, FIRST_NAME, LAST_NAME, SKILL_CODE(비트 마스크)
  • SKILLCODES : NAME, CODE

→ 비트 연산은 인덱스 활용 불가
→ 따라서 개발자-스킬 관계를 별도 테이블로 분리

|DEVELOPER_SKILLS|
|----------------|
|DEV_ID          | -- 개발자 ID (FK)
|SKILL_CODE      | -- SKILL_CODE (FK)
  • 각 개발자 스킬별로 한 줄씩 저장
  • DEV_ID + SKILL_CODE에 복합 인덱스 생성 가능

2) 최적화 쿼리 (인덱스 활용 가능)

SELECT d.ID, d.EMAIL, d.FIRST_NAME, d.LAST_NAME
FROM DEVELOPERS d
JOIN DEVELOPER_SKILLS s 
  ON d.ID = s.DEV_ID
JOIN SKILLCODES c 
  ON s.SKILL_CODE = c.CODE
WHERE c.NAME IN ('Python', 'C#')
ORDER BY d.ID;
  • DEVELOPER_SKILLS.SKILL_CODE와 SKILLCODES.CODE에 인덱스 활용 가능
  • JOIN 조건과 IN 조건은 MySQL에서 인덱스를 잘 사용
  • 비트 연산 없이 단순 비교로 Python/C# 포함 여부 체크 가능

3) 성능 비교 (인덱스 고려)

접근 방식Full Table Scan 가능성인덱스 활용JOIN/CTE 오버헤드대규모 데이터 성능
기존 비트 연산 (SET 변수/서브쿼리)높음없음없음느림, 수십만~수백만 건에서 Full Scan 발생
CTE + JOIN + 비트 연산높음없음있음느림, JOIN + CTE 오버헤드 추가
정규화 + SKILL 테이블 + 인덱스낮음있음 (DEV_ID + SKILL_CODE)있음 (JOIN)매우 빠름, 인덱스 활용으로 대규모에서도 안정적
profile
Data Analytics Engineer 가 되

0개의 댓글