TIL 220917

강지훈·2022년 9월 17일
0

[인덱스의 구조와 효율적인 이유]
인덱스란?
먼저 인덱스는 데이터를 빠르게 찾을 수 있는 하나의 장치입니다.
예를 들어 책의 마지막 장에 있는 찾아보기를 생각하면 됩니다.

책의 본문이 있고 그 본문 안에 내가 찾고자 하는 '항목'을 찾아보기를 통해 빠르게 찾을 수 있습니다. 이와 마찬가지로 인덱스를 설정하면 테이블 안에 내가 찾고자 하는 데이터를 빠르게 찾을 수 있습니다.

왜 효율적일까? 균형 잡힌 B-Tree기반으로 구축되어 있어서 탐색에 평균
O(logN)시간이 걸리며 트리 생성시 대수확장성이란 특징으로 인해 더 빠른
시간안에 대량의 데이터를 빠르게 찾을 수 있기 때문

인덱스와 B-트리
인덱스는 보통 B-트리라는 자료 구조로 이루어져 있습니다. 이는 루트 노드,
리프 노드, 브랜치 노드로 이루어져 있으며 이진 트리를 확장해 하나의 노드가 가질 수 있는 자식 노드의 최대 숫자가 2보다 큰 트리 구조를 가진 균형잡힌 트리를 말합니다.
먼저 루트 노드와 리프 노드를 기반으로 설명하면 다음과 같습니다.
예를 들어 E를 찾는다고 하면 전체 테이블을 탐색하는 것이 아니라 E가 있을 법한 리프 노드로 들어가서 E를 탐색하면 쉽게 찾을 수 있죠.
이 자료 구조 없이 E를 탐색하고자 하면 A,B,C,D,E 다섯번을 탐색해야 하지만, 이렇게 노드들로 나누면 두 번 만에 리프 노드에서 찾을 수 있습니다.

인덱스가 효율적인 이유와 대수확장성
인덱스가 효율적인 이유는 효율적인 단계를 거쳐 모든 요소에 접근할 수 있는 균형 잡힌 트리 구조와 트리 깊이의 대수확장성 때문입니다.
대수확장성이란 트리 깊이가 리프 노드 수에 비해 매우 느리게 성장하는 것을 의미합니다. 기본적으로 인덱스가 한 깊이씩 증가할 때마다 최대 인덱스 항목의 수는 4배씩 증가합니다

[인덱스 최적화 기법]
인덱스 최적화 기법은 데이터베이스마다 조금씩 다르지만 기본적인 골조는 똑같기 때문에 특정 데이터베이스를 기준으로 설명해도 무방합니다.
이 책에서는 MongoDB를 기반으로 인덱스 최적화 기법을 설명하며, 이를 기반으로 다른 데이터베이스에 웬만큼 적용할수 있습니다.

1.인덱스는 비용이다
먼저 인덱스는 두 번 탐색하도록 강요합니다.
인덱스 리스트, 그다음 컬렉션 순으로 탐색하기 때문이며,
관련 읽기 비용이 들게 됩니다.
또한 컬렉션이 수정되었을 때 인덱스도 수정되어야 합니다. 마치 책의 본문이 수정되었을 때 목차나 찾아보기도 수정해야 하듯이 말이죠.
이때 B-트리의 높이를 균형 있게 조절하는 비용도 들고, 데이터를 효율적으로 조회할 수 있도록 분산시키는 비용도 들게 됩니다.
그렇기 때문에 쿼리에 있는 필드에 인덱스를 무작정 다 설정하는 것은 답이 아닙니다. 또한, 컬렉션에서 가져와야 하는 양이 많을수록 인덱스를 사용하는 것은 비효율적입니다.

2.항상 테스팅하라
인ㄷ게스 최적화 기법은 서비스 특징에 따라 달라집니다. 서비스에서 사용하는 객체의 깊이, 테이블의 양 등이 다르기 때문이죠. 그렇기 때문에 항상 테스팅하는 것이 중요합니다. explain() 함수를 통해 인덱스를 만들고 쿼리를 보낸 이후에 테스팅을 하며 걸리는 시간을 최소화해야 합니다. 참고로 MySQL에서는 다음과 같은 코드로 테스팅을 수행합니다.

  1. 복합, 인덱스는 같음, 정렬, 다중 값, 카디널리티 순이다
    보통 여러 필드를 기반으로 조회를 할 때 복합 인덱스를 생성하는데, 이 인덱스를 생성할때는 순서가 있고 생성 순서에 따라 인덱스 성능이 달라집니다. 같음, 정렬, 다중 값, 카디널리티 순으로 생성해야 합니다.
  2. 어떠한 값과 같음을 비교하는 == 이나 equal이라는 쿼리가 있다면 제일 먼저 인덱스로 설정합니다.
  3. 정렬에 쓰는 필드라면 그 다음 인덱스로 설정합니다
  4. 다중 값을 출력해야 하는 필드, 즉 쿼리 자체가 > 이거나 < 등 많은 값을 출력해야 하는 쿼리에 쓰는 필드라면 나중에 인덱스를 설정합니다.
  5. 유니크한 값의 정도를 카디널리티라고 합니다. 이 카디널리티가 높은 순서를 기반으로 인덱스를 생성해야 합니다.
    예를 들어 age와 email이 있다고 해봅시다.어떤 것이 더 높죠?
    당연히 email입니다. 즉 email이라는 필드에 대한 인덱스를 먼저 생성해야 하는 것입니다.
profile
never stop

0개의 댓글