정렬(sorting) : 데이터를 특정한 기준에 따라 순서대로 나열하는 것.
👉 일반적으로 문제 상황에 따라서 적절한 정렬 알고리즘이 공식처럼 사용된다.


1. 선택 정렬

: 처리되지 않은 데이터 중에서 가장 작은 데이터를 선택해 맨 앞에 있는 데이터와 바꾸는 것을 반복 (현재 데이터에서 가장 작은 데이터를 가장 맨 앞으로)

array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

for i in range(len(array)):
    min_index = i 			#가장 작은 원소의 인덱스
    for j in range(i+1, len(array)):
        if array[min_index] > array[j]:
            min_index = j 		#안쪽 for문이 실행됐을때, min_index에 가장 작은 원소의 위치가 담긴다.
    array[i], array[min_index] = array[min_index], array[i] 	#가장 앞쪽 위치와 가장 작은 원소의 위치를 서로 바꿔준다.

print(array)

✅ 시간 복잡도

  • 전체 연산 횟수 : n + (n-1) + (n-2) + ... + 2
    -> (n^2 + n -2) / 2 이기 때문에 O(N^2)

2. 삽입 정렬

: 처리되지 않은 데이터를 하나씩 골라 적절한 위치에 삽입
(선택 정렬보다 구현 난이도가 높은 편이지만, 일반적으로 더 효율적으로 동작한다.)

array = [7, 5, 9, 0, 3, 1, 6, 2, 4, 8]

for i in range(1, len(array)): 			#두번째 원소부터 시작
    for j in range(i, 0, -1): 			# 인덱스 i부터 1까지 1씩 감소하며 반복하는 문법
         if array[j] < array[j-1]: 		# 한 칸씩 왼쪽으로 이동
                array[j], array[j-1] = array[j-1], array[j]
         else: 							#자기보다 작은 데이터를 만나면 그 위치에서 멈춤
            break  

print(array)

👉 매번 자신의 왼쪽 데이터와 비교를 하면서 위치를 옮겨간다.

✅ 시간 복잡도

  • 선택 정렬과 마찬가지로! O(N^2)
    👉 그러나, 삽입 정렬은 현재 리스트의 데이터가 거의 정렬되어 있는 상태라면, 매우 빠르게 동작한다.
    (최선의 경우, O(N)의 시간 복잡도를 가짐)

3. 퀵 정렬

: 기준 데이터를 설정(기본적으로 첫번째를 pivot data로 설정)하고, 그 기준보다 큰 데이터와 작은 데이터의 위치를 바꾸는 방법
(일반적으로, 데이터의 특성과 관련없이 표준적으로 사용할 수 있는 정렬 알고리즘)
👉 프로그래밍 언어의 정렬 라이브러리의 근간이 되는 알고리즘

array = [5, 7, 9, 0, 3, 1, 6, 2, 4, 8]

def quick_sort(array, start, end):
    if start >= end: # 원소가 1개인 경우 종료
        return
    pivot = start # 피벗을 첫 번째 원소
    left = start + 1
    right = end
    while(left <= right):
        #피벗보다 큰 데이터를 찾을 때까지 반복
        while(left <= end and array[left] < array[pivot]):
            left += 1
        #피벗보다 작은 데이터를 찾을 때까지 반복
        while(right > start and array[right] > array[pivot]):
            right -= 1
        if(left > right) : # 엇갈렸다면 작은 데이터와 피벗을 교체
            array[right], array[pivot] = array[pivot], array[right]
        else : # 엇갈리지 않았다면 작은 데이터와 큰 데이터를 교체
            array[left], array[right] = array[right], array[left]
    # 분할 이후 왼쪽 부분과 오른쪽 부분에서 각각 정렬 수행
    quick_sort(array, start, right-1)
    quick_sort(array, right+1, end)

quick_sort(array, 0, len(array) -1)
print(array)

# 파이썬의 장점을 살린 방식
array = [5, 7, 9, 0, 3, 1, 6, 2, 4, 8]

def quick_sort(array):
    # 리스트가 하나 이하의 원소만을 담고 있다면 종료
    if len(array) <= 1:
        return array
    pivot = array[0] # 피벗은 첫번째 원소
    tail = array[1:] # 피벗을 제외한 리스트
    
    left_side = [x for x in tail if x <= pivot] # 분할된 왼쪽 부분
    right_side = [x for x in tail if x > pivot] # 분할된 오른쪽 부분
    
    # 분할 이후 왼쪽 부분과 오른쪽 부분에서 각각 정렬 수행하고, 전체 리스트 반환
    return quick_sort(left_side) + [pivot] + quick_sort(right_side)

print(quick_sort(array))

✅ 시간 복잡도

  • O(NlogN)

    👉 그러나, 최악의 경우, O(N^2)의 시간 복잡도를 가짐
    (분할이 절반에 가깝게 이루어지지 않고, 한쪽 방향으로 편향된 분할이 발생할 수 있기 때문)
    📍 다양한 프로그래밍 언어에서 표준 정렬 라이브러리를 제공할 때, 퀵 정렬을 기반으로 라이브러리가 작성되어 있다면 최악의 경우에도 NlogN을 보장할 수 있는 형태로 구현한다.

4. 계수 정렬

: 특정한 조건이 부합할 때만 사용할 수 있지만 매우 빠르게 동작하는 정렬 알고리즘
(데이터의 크기 범위가 제한되어 정수 형태로 표현할 수 있을 때 사용 가능)

<실행 과정>

# 모든 원소의 값이 0보다 크거나 같다고 가정
array = [7, 5, 9, 0, 3, 1, 6, 2, 9, 1, 4, 8, 0, 5, 2]
# 모든 범위를 포함하는 리스트 선언(모든 값은 0으로 초기화)
count = [0] * (max(array) + 1)

for i in range(len(array)):
    count[array[i]] += 1 # 각 데이터에 해당하는 인덱스의 값 증가

for i in range(len(count)): # 리스트에 기록된 정렬 정보 확인
    for j in range(count[i]):
        print(i, end=' ') # 띄어쓰기를 구분으로 등장한 횟수만큼 인덱스 출력

✅ 시간 복잡도

  • 데이터의 개수가 n, 데이터(양수) 중 최댓값이 k일때 최악의 경우에도 수행시간 O(n+k)를 보장 (시간복잡도, 공간복잡도 둘 다)
    👉 동일한 값을 가지는 데이터가 여러 개 등장할 때 효과적으로 사용

5. 정렬 알고리즘 비교하기

  • 선택정렬과 기본 정렬 라이브러리 수행 시간 비교
from random import randint
import time

array = []
for _ in range(10000):
    array.append(randint(1, 100))

start_time = time.time()

# 선택 정렬
for i in range(len(array)):
    min_index = i #가장 작은 원소의 인덱스
    for j in range(i+1, len(array)):
        if array[min_index] > array[j]:
            min_index = j #안쪽 for문이 실행됐을때, min_index에 가장 작은 원소의 위치가 담긴다. 
    array[i], array[min_index] = array[min_index], array[i] #가장 앞쪽 위치와 가장 작은 원소의 위치를 서로 바꿔준다.


end_time = time.time()
print("선택 정렬 성능 측정:", end_time - start_time)

array = []
for _ in range(10000):
    array.append(randint(1, 100))
    
start_time = time.time()

array.sort()

end_time = time.time()
print("기본 정렬 라이브러리 성능 측정:", end_time - start_time)

---> 결과 : 
선택 정렬 성능 측정: 6.1016905307769775
기본 정렬 라이브러리 성능 측정: 0.0010035037994384766

정렬 라이브러리는 o(nlogn)의 시간 복잡도를 보장 

출처: 이코테 강의영상

0개의 댓글