[알고리즘] 이진탐색

Bini by Bini·2023년 2월 5일
0

알고리즘

목록 보기
3/4

들어가기 전에 ..

순차 탐색

Sequential Search
리스트 안에 있는 특정한 데이터를 찾기 위해 앞에서부터 데이터를 하나씩 차례로 확인하는 방법
보통 정렬되지 않은 리스트에서 데이터를 찾아야 할 때 사용한다.

가장 앞에 있는 원소부터 하나씩 확인하기 때문에, 데이터의 개수가 N개일 때 최대 N번의 비교 연산이 필요하므로 순차 탐색의 최악의 경우 시간 복잡도는 O(N)이다.


이진 탐색

Binary Search
배열 내부의 데이터가 정렬되어 있어야만 사용할 수 있다.
탐색 범위를 절반씩 좁혀가며 데이터를 탐색한다.
위치를 나타내는 변수 3개 이용 -> 탐색하고자 하는 범위의 시작점, 끝점, 그리고 중간점

찾으려는 데이터와 중간점 위치에 있는 데이터를 반복적으로 비교해서 원하는 데이터를 찾아낸다.

한 번 확인할 때마다 확인하는 원소의 개수가 반씩 줄어들기 때문에 시간 복잡도가 O(logN)이다.

	> 단계마다 2로 나누는 것과 동일하므로 연산횟수는 log2(N)에 비례하므로 .. O(logN) 
    

이진 탐색을 구현하는 방법에는 2가지가 있다.
1. 재귀 함수
2. 반복문

소스코드

  1. 재귀함수
def binary_search(array, target, start, end): # start, end, mid는 모두 인덱스 값을의미
	if start > end:
    	return None
    mid = (start + end) // 2 # 중간점이 실수일 경우 소수점 이하를 버릴 수 있도록 // 연산
    # 찾은 경우 중간점(인덱스) 반환
    if array[mid] == target:
    	return mid
    # 중간점의 값보다 찾고자 하는 값이 작은 경우 왼쪽 확인
    elif array[mid] > target:
    	return binary_search(array, target, start, mid-1)
    # 중간점의 값보다 찾고자 하는 값이 큰 경우 오른쪽 확인
   	else:
   		return binary_search(array, target, mid+1, end)

# n(원소의 개수), target(찾고자 하는 문자열) 입력받기
n, target = list(map(int, input().split()))
# 전체 원소 입력받기
array = list(map(int, input().split()))

# 이진 탐색 수행 결과 출력
result = binary_search(array, target, 0, n-1)
if result == None:
	print("원소가 존재하지 않습니다.")
else:
	print(result + 1) # 인덱스는 0부터이므로 1 더하기
  1. 반복문
def binary_search(array, target, start, end): # start, end, mid는 모두 인덱스 값을의미
	while start <= end:
    	mid = (start + end) // 2
    	
    	# 찾은 경우 중간점(인덱스) 반환
    	if array[mid] == target:
    		return mid
    	# 중간점의 값보다 찾고자 하는 값이 작은 경우 왼쪽 확인
    	elif array[mid] > target:
    		end = mid -1
    	# 중간점의 값보다 찾고자 하는 값이 큰 경우 오른쪽 확인
   		else:
   			start = mid + 1
	return None

# n(원소의 개수), target(찾고자 하는 문자열) 입력받기
n, target = list(map(int, input().split()))
# 전체 원소 입력받기
array = list(map(int, input().split()))

# 이진 탐색 수행 결과 출력
result = binary_search(array, target, 0, n-1)
if result == None:
	print("원소가 존재하지 않습니다.")
else:
	print(result + 1) # 인덱스는 0부터이므로 1 더하기

덧붙여

코딩 테스트에서 이진 탐색 문제는 탐색 범위가 큰 상황에서의 탐색을 가정하는 경우가 많다.
따라서 탐색 범위가 2,000만을 넘어가면 이진 탐색으로 문제에 접해보길 권한다.
처리해야 할 데이터의 개수나 값이 1,000만 단위 이상으로 넘어가면 이진 탐색과 같이 O(logN)의 속도를 내야 하는 알고리즘을 떠올려야 문제를 풀 수 있는 경우가 많다!

이진 탐색 문제는 입력 데이터가 많거나, 탐색 범위가 매우 넓은 편이다.
따라서 input() 함수를 사용하면 동작 속도가 느려 시간 초과로 오답 판정을 받을 수 있다. 따라서 입력 데이터가 많은 문제는 sys 라이브러리에서 readline() 함수를 이용하면 시간 초과를 피할 수 있다.

import sys
input_data = sys.stdin.readline().rstrip()

rstrip() 함수를 호출해야 realine()으로 입력되었을 때 포함된 줄바꿈 기호(공백문자)를 제거할 수 있다.


트리 자료구조

이진 탐색의 전제조건은 "데이터 정렬"이다.

  • 트리는 부모 노드와 자식 노드의 관계로 표현된다.
  • 트리의 최상단 노드를 루트 노드라고 한다.
  • 트리의 최하단 노드를 단말 노드라고 한다.
  • 트리에서 일부를 떼어내도 트리 구조이며 이를 서브 트리라 한다.
  • 트리는 파일 시스템과 같이 계층적이고 정렬된 데이터를 다루기에 적합하다.

정리하면, 큰 데이터를 처리하는 소프트웨어는 대부분 데이터를 트리 자료구조로 저장해서 이진탐색과 같은 탐색 기법을 이용해 빠르게 탐색이 가능하다.

이진 탐색 트리

트리 자료구조 중 가장 간단한 형태
이진 탐색이 동작할 수 있도록 고안된 자료구조

다음과 같은 특징을 가진다.

  • 부모 노드보다 왼쪽 자식 노드가 작다.
  • 부모 노드보다 오른쪽 자식 노드가 크다.
    -> 왼쪽 자식 노드 < 부모 노드 < 오른쪽 자식 노드

위 특징(조건)이 성립되어야 이진 탐색트리라 할 수 있다.

profile
My Precious Records

0개의 댓글