Sequential Search
리스트 안에 있는 특정한 데이터를 찾기 위해 앞에서부터 데이터를 하나씩 차례로 확인하는 방법
보통 정렬되지 않은 리스트에서 데이터를 찾아야 할 때 사용한다.
가장 앞에 있는 원소부터 하나씩 확인하기 때문에, 데이터의 개수가 N개일 때 최대 N번의 비교 연산이 필요하므로 순차 탐색의 최악의 경우 시간 복잡도는 O(N)이다.
Binary Search
배열 내부의 데이터가 정렬되어 있어야만 사용할 수 있다.
탐색 범위를 절반씩 좁혀가며 데이터를 탐색한다.
위치를 나타내는 변수 3개 이용 -> 탐색하고자 하는 범위의 시작점, 끝점, 그리고 중간점
찾으려는 데이터와 중간점 위치에 있는 데이터를 반복적으로 비교해서 원하는 데이터를 찾아낸다.
한 번 확인할 때마다 확인하는 원소의 개수가 반씩 줄어들기 때문에 시간 복잡도가 O(logN)이다.
> 단계마다 2로 나누는 것과 동일하므로 연산횟수는 log2(N)에 비례하므로 .. O(logN)
이진 탐색을 구현하는 방법에는 2가지가 있다.
1. 재귀 함수
2. 반복문
def binary_search(array, target, start, end): # start, end, mid는 모두 인덱스 값을의미
if start > end:
return None
mid = (start + end) // 2 # 중간점이 실수일 경우 소수점 이하를 버릴 수 있도록 // 연산
# 찾은 경우 중간점(인덱스) 반환
if array[mid] == target:
return mid
# 중간점의 값보다 찾고자 하는 값이 작은 경우 왼쪽 확인
elif array[mid] > target:
return binary_search(array, target, start, mid-1)
# 중간점의 값보다 찾고자 하는 값이 큰 경우 오른쪽 확인
else:
return binary_search(array, target, mid+1, end)
# n(원소의 개수), target(찾고자 하는 문자열) 입력받기
n, target = list(map(int, input().split()))
# 전체 원소 입력받기
array = list(map(int, input().split()))
# 이진 탐색 수행 결과 출력
result = binary_search(array, target, 0, n-1)
if result == None:
print("원소가 존재하지 않습니다.")
else:
print(result + 1) # 인덱스는 0부터이므로 1 더하기
def binary_search(array, target, start, end): # start, end, mid는 모두 인덱스 값을의미
while start <= end:
mid = (start + end) // 2
# 찾은 경우 중간점(인덱스) 반환
if array[mid] == target:
return mid
# 중간점의 값보다 찾고자 하는 값이 작은 경우 왼쪽 확인
elif array[mid] > target:
end = mid -1
# 중간점의 값보다 찾고자 하는 값이 큰 경우 오른쪽 확인
else:
start = mid + 1
return None
# n(원소의 개수), target(찾고자 하는 문자열) 입력받기
n, target = list(map(int, input().split()))
# 전체 원소 입력받기
array = list(map(int, input().split()))
# 이진 탐색 수행 결과 출력
result = binary_search(array, target, 0, n-1)
if result == None:
print("원소가 존재하지 않습니다.")
else:
print(result + 1) # 인덱스는 0부터이므로 1 더하기
코딩 테스트에서 이진 탐색 문제는 탐색 범위가 큰 상황에서의 탐색을 가정하는 경우가 많다.
따라서 탐색 범위가 2,000만을 넘어가면 이진 탐색으로 문제에 접해보길 권한다.
처리해야 할 데이터의 개수나 값이 1,000만 단위 이상으로 넘어가면 이진 탐색과 같이 O(logN)의 속도를 내야 하는 알고리즘을 떠올려야 문제를 풀 수 있는 경우가 많다!
이진 탐색 문제는 입력 데이터가 많거나, 탐색 범위가 매우 넓은 편이다.
따라서 input() 함수를 사용하면 동작 속도가 느려 시간 초과로 오답 판정을 받을 수 있다. 따라서 입력 데이터가 많은 문제는 sys 라이브러리에서 readline() 함수를 이용하면 시간 초과를 피할 수 있다.
import sys
input_data = sys.stdin.readline().rstrip()
rstrip() 함수를 호출해야 realine()으로 입력되었을 때 포함된 줄바꿈 기호(공백문자)를 제거할 수 있다.
이진 탐색의 전제조건은 "데이터 정렬"이다.
정리하면, 큰 데이터를 처리하는 소프트웨어는 대부분 데이터를 트리 자료구조로 저장해서 이진탐색과 같은 탐색 기법을 이용해 빠르게 탐색이 가능하다.
트리 자료구조 중 가장 간단한 형태
이진 탐색이 동작할 수 있도록 고안된 자료구조
다음과 같은 특징을 가진다.
위 특징(조건)이 성립되어야 이진 탐색트리라 할 수 있다.