인덱스는 데이터베이스 테이블의 검색 속도를 향상시키는 위한 자료구조로 백과사전의 색인과 같다. 저장되는 컬럼의 값을 사용해 항상 정렬된 상태를 유지하는 것이 특징이다. 이러한 특징으로 인해 인덱스는 INSERT, UPDATE, DELETE의 성능이 희생된다는 것이 단점이다.
MySQL InnoDB기준으로 알아보자면, B+Tree와 같은 변형 B-Tree 자료구조를 이용해서 인덱스를 구현한다. 기본 토대는 B-Tree 인덱스이기 때문에 이를 기준으로 설명한다. B-Tree 인덱스는 컬럼의 값을 변형하지 않고 인덱스 구조체 내에서 항상 정렬된 상태로 유지한다.
B-Tree(Balanced-Tree)에서는 크게 3가지 노드가 존재한다. 최상위에 하나의 루트 노드가 존재하며, 가장 하위 노드인 리프 노드가 존재한다. 이 두 노드의 중간에 존재하는 브랜치 노드가 존재한다. 최하위 노드인 리프 노드에는 실제 데이터 레코드를 찾아가기 위한 주소값을 가지고 있다.
InnoDB 스토리지 엔진에서는 세컨더리 인덱스(프라이머리 인덱스를 제외한 모든 인덱스)의 리프 노드에는 레코드의 PK가 저장된다. 따라서 세컨더리 인덱스 검색에서는 레코드를 읽기 위해 PK를 가지고 있는 B-Tree를 다시 한번 검색해야한다.
MySQL에는 크게 인덱스 레인지 스캔, 인덱스 풀 스캔, 루스 인덱스 스캔 방식이 있다.
인덱스 레인지 스캔 은 검색할 인덱스 범위가 결정되었을 경우 사용하며 가장 빠르다.
레코드를 읽어오는 과정에서 랜덤 IO가 발생할 수 있다. 읽어야 할 데이터 레코드가 전체 20~25%의 경우에는 풀 테이블 스캔 (순차 IO를 이용) 이 더욱 좋을 수 있다.
인덱스 풀 스캔 은 인덱스를 사용하지만 인덱스를 처음부터 끝까지 모두 읽는 방식이다.
루스 인덱스 스캔 은 듬성듬성하게 인덱스를 읽는 것을 의미한다. (앞서 언급한 인덱스 레인지, 인덱스 풀 스캔은 타이트 인덱스 스캔 으로 분류됨)