구조화된 데이터는 하나의 테이블로 표현할 수 있다. 사전에 정의된 테이블은 relation이라고도 부르기 때문에, 테이블을 사용하는 데이터베이스를 관계형 데이터베이스(Relational database)라고 한다.
데이터를 조회하는 SELECT문은 정해진 순서대로 동작한다.
데이터베이스 정규화는 데이터베이스의 설계와 연관되어 있다. 데이터베이스 설계가 결론적으로 데이터가 어떻게 저장될 지 구조를 정해주기 때문이다.
이를 위해서는 아래 부분들이 중요하다.
데이터 중복(Data redundancy)
데이터 중복은 실제 데이터의 동일한 복사본이나 부분적인 복사본을 뜻한다.
물론 이런 중복성으로 데이터를 복구할 때에 더 수월할 수도 있겠지만 데이터베이스 내에서는 몇 가지 문제점들이 있다.
- 일관된 자료 처리의 어려움
- 저장 공간 낭비
- 데이터 효율성 감소
데이터 무결성(Data integrity)
데이터 정규화는 데이터 무결성을 강화하기 위한 목적도 지닌다.
데이터 무결성은 데이터의 수명 주기 동안 정확성과 일관성을 유지하는 것을 뜻한다.
즉, 입력된 데이터가 오염되지 않고 입력된 그대로 데이터를 사용할 수 있다는 뜻이기도 하다.
데이터 이상 현상(Anomaly)
데이터 이상 현상은 데이터에서 기대한 것과 다른 이상 현상을 가리킨다.
- 갱신 이상(update anomaly) : 동일한 데이터가 여러 행(레코드)에 걸쳐 있을 때에 어느 데이터를 갱신해야 하는지에 대한 논리적 일관성이 없어 발생
- 삽입 이상(insertion anomaly) : 데이터 삽입을 못하는 경우를 가리킴
- 삭제 이상(deletion anomaly) : 데이터의 특정 부분을 지울 때에 의도치 않게 다른 부분들도 함께 지워지는 이상 현상
SQL에는 데이터를 조회하고 테이블을 만드는 등 다양한 문법이 있다. 그리고 쿼리문을 어떻게 작성하느냐에 따라, 그 기능이나 작업이 달라진다.
일반적으로 SQL 문법을 다음과 같이 분류한다.
DDL은 데이터를 정의할 때 사용하는 언어이다. 테이블을 만들 대 사용하는 CREATE나 테이블을 제거할 때 사용되는 DROP 등이 DDL에 해당한다. 데이터베이스의 테이블과 같은 오브젝트를 정의할 때 사용한다.
DML은 데이터베이스에 데이터를 저장할 때 사용하는 언어이다. INSERT처럼 새로운 레코드를 추가할 때사용되는 문법을 포함해 데이터를 삭제하는 DELETE나 변경하는 UPDATE가 DML에 포함된다.
DCL은 데이터베이스에 대한 접근 권한과 관련된 문법이다. 어느 유저가 데이터베이스에 접근할 수 있는지 권한을 설정한다. 권한을 주는 GRANT나 권한을 가져가는 REVOKE 등이 DCL에 포함된다.
DQL은 정해진 스키마 내에서 쿼리할 수 있는 언어이다. SELECT가 DQL에 해당하며, 언어를 분류했지만, DQL을 DML의 일부분으로 취급하기도 한다.
TCL은 DML을 거친 데이터의 변경사항을 수정할 수 있다. COMMIT처럼 DML이 작업한 내용을 데이터베이스에 커밋하거나 ROLLBACK처럼 커밋했던 내용을 다시 롤백하는 문법이 있다.
SQL에서도 프로그래밍 언어의 if 문과 같은 기능을 사용할 수 있다.
CASE를 사용하면, 특정 조건에 따라 다른 결과를 받을 수 있다.
SELECT CASE
WHEN CustomerId <= 25 THEN 'GROUP 1'
WHEN CustomerId <= 50 THEN 'GROUP 2'
ELSE 'GROUP 3'
END
FROM customers
쿼리문을 작성할 떄, 다른 쿼리문을 포함할 수 있따. 이 때, 포함되는 다른 쿼리문이 SUBQUERY(서브쿼리)이다.
서브쿼리는 실행되는 쿼리에 중첩으로 위치해 정보를 전달하며, 소괄호로 감싸야 한다.
서브쿼리의 결과는 개별 값이나 레코드 리스트이다. 그리고 서브쿼리의 결과를 하나의 컬럼으로 사용할 수 있다.
SELECT CustomerId, CustomerId = (SELECT CustomerId FROM customers WHERE CustomerId = 2)
FROM customers
WHERE CustomerId < 6
SELECT *
FROM customers
WHERE CustomerId IN (SELECT CustomerId FROM customers WHERE CustomerId < 10)
SELECT EmployeeId
FROM employees e
WHERE EXISTS (
SELECT 1
FROM customers c
WHERE c.SupportRepId = e.EmployeeId
)
ORDER BY EmployeeId
SELECT *
FROM (
SELECT CustomerId
FROM customers
WHERE CustomerId < 10
)