[코딩테스트] 이진탐색

JY·2022년 7월 1일
0

: 탐색 범위를 반으로 좁혀가며 빠르게 탐색하는 알고리즘

: 리스트 안에 있는 특정한 데이터를 찾기 위해 앞에서부터 데이터를 하나씩 차례대로 확인하는 방법

  • 보통 정렬되지 않은 리스트에서 데이터 찾아야할 때 사용
  • 리스트 내에 데이터가 아무리 많아도 시간만 충분하다면 항상 원하는 원소를 찾을 수 있음
  • 리스트의 데이터에 하나씩 방문하며 특정한 문자열과 같은지 검사 => 구현 간단
  • 순차 탐색이 사용되는 예
    -> 리스트에 특정 값의 원소가 있는지 확인할 때
    -> 리스트 자료형에서 특정한 값을 가지는 원소의 개수를 세는 count() 메서드 이용할 때
  • 데이터의 개수가 N개일 때 최대 N번의 비교 연산이 필요하므로 순차탐색의 최악의 경우 시간 복잡도는 O(N)O(N)
#순차 탐색 코드 구현
def sequential_search(n, target, array):
    for i in range(n): #각 원소를 하나씩 확인
        if array[i] == target:  #현재의 원소가 찾고자 하는 원소와 동일할 경우
            return i + 1  #현재의 위치 반환

print("생성할 원소 개수를 입력한 다음 한 칸 띄고 찾을 문자열을 입력하세요.")
input_data = input().split()
n = int(input_data[0])  #원소의 개수
target = input_data[1]  #찾고자 하는 문자열

print("앞서 적은 원소의 개수만큼 문자열을 입력하세요. 구분은 띄어쓰기 한 칸으로 합니다.")
array = input().split()

print(sequential_search(n, target, array))
<결과>
생성할 원소 개수를 입력한 다음 한 칸 띄고 찾을 문자열을 입력하세요.
5 dongbin
앞서 적은 원소의 개수만큼 문자열을 입력하세요. 구분은 띄어쓰기 한 칸으로 합니다.
hanul joggu dongbin taeil sangwook
3

이진탐색: 반으로 쪼개며 탐색

  • 배열 내부의 데이터가 정렬되어 있어야만 사용 가능한 알고리즘
  • 탐색 범위를 절반씩 좁혀가며 데이터를 탐색
  • 위치를 나타내는 변수 3개 사용: 시작점, 끝점, 중간점
    -> 찾으려는 데이터와 중간점 위치에 있는 데이터를 반복적으로 비교
  • 한 번 확인할 때마다 확인하는 원소의 개수가 절반으로 줄어듦
    -> 시간 복잡도: O(logN)O(logN)

재귀함수 이용 코드

# 이진탐색 코드 (재귀함수)
def binary_search(array, target, start, end):
    if start > end:  #정렬 안되어있는 경우
        return None
    mid = (start + end) // 2
    if array[mid] == target:  #찾은 경우
        return mid  #중간점 인덱스 반환
    elif array[mid] > target: #중간점의 값보다 target이 작은 경우
        return binary_search(array, target, start, mid-1)  #왼쪽 확인
    else: #중간점의 값보다 target이 큰 경우
        return binary_search(array, target, mid+1, end) #오른쪽 확인

n, target = list(map(int, input().split())) #n:원소 개수, target: 찾고자 하는 문자열
array = list(map(int, input().split()))  #전체 원소 입력받기

result = binary_search(array, target, 0, n-1)  #이진탐색 수행 결과 출력
if result == None:
    print("원소가 존재하지 않습니다.")
else:
    print(result+1)

반복문 이용 코드

# 이진탐색 코드 (반복문)
def binary_search(array, target, start, end):
    while start <= end:
        mid = (start + end) // 2
        if array[mid] == target:  #찾은 경우
            return mid  #중간점 인덱스 반환
        elif array[mid] > target: #중간점의 값보다 target이 작은 경우
            end = mid-1  #왼쪽 확인
        else: #중간점의 값보다 target이 큰 경우
            start = mid+1 #오른쪽 확인
    return None

n, target = list(map(int, input().split())) #n:원소 개수, target: 찾고자 하는 문자열
array = list(map(int, input().split()))  #전체 원소 입력받기

result = binary_search(array, target, 0, n-1)  #이진탐색 수행 결과 출력
if result == None:
    print("원소가 존재하지 않습니다.")
else:
    print(result+1)
<결과>
10 7
1 3 5 7 9 11 13 15 17 19
4

<결과>
10 7
1 3 5 6 9 11 13 15 17 19
원소가 존재하지 않습니다.

트리 자료구조

  • 노드와 노드의 연결로 표현 (노드란 정보의 단위)
  • 트리는 부모 노드와 자식 노드의 관계로 표현
  • 트리의 최상단 노드를 루트 노드
  • 트리의 최하단 노드를 단말 노드
  • 트리에서 일부를 떼어내도 트리 구조이며 이를 서브트리라 함
  • 트리는 파일 시스템과 같이 계층적이고 정렬된 데이터 다루기 적합

이진탐색 트리

  • 이진 탐색이 동작할 수 있도록 고안된, 효율적인 탐색이 가능한 자료구조
  • 부모 노드보다 왼쪽 자식 노드가 작다.
  • 부모 노드보다 오른쪽 자식 노드가 크다.
    => 왼쪽 자식 노드 < 부모 노드 < 오른쪽 자식 노드

빠르게 입력 받기

이진탐색 문제는 입력 데이터가 많거나, 탐색 범위가 매우 넓은 편
-> 입력 데이터 개수가 많은 문제에 input() 함수를 사용하면 동작 속도가 느려 시간 초과로 오답 판정 받을 수 있음.
=> 입력 데이터가 많은 문제는 sys 라이브러리의 readline() 함수 이용

#한 줄 입력받아 출력하는 코드
import sys
input_data = sys.stdin.readline().rstrip(). #하나의 문자열 데이터 입력받기

print(input_data) #입력받은 문자열 그대로 출력
sys 라이브러리 사용할 때, 한 줄 입력받고 나서 rstrip() 함수를 꼭 호출해야함.
readline()을 입력하면 입력 후 엔터가 줄 바꿈 기호로 입력되는데, 
이 공백 문자를 제거하기 위해 rstrip() 함수 사용해야함.

실전문제

Ex1) 부품 찾기

동빈이네 전자 매장에는 부품이 N개 있다. 각 부품은 정수 형태의 고유한 번호가 있다. 어느 날 손님이 M개 종류의 부품을 대량으로 구매하겠다며 당일 날 견적서를 요청했다. 동빈이는 때를 놓치지 않고 손님이 문의한 부품 M개 종류를 모두 확인해서 견적서를 작성해야 한다. 이 때 가게 안에 부품이 모두 있는지 확인하는 프로그램을 작성해보자.
손님이 요청한 부품 번호의 순서대로 부품을 확인해 부품이 있으면 yes를, 없으면 no를 출력한다. 구분은 공백으로 한다.

입력조건
- 첫째 줄에 정수 N이 주어진다. (1 \leq N \leq 1,000,000)
- 둘째 줄에는 공백으로 구분하여 N개의 정수가 주어진다. 이 때 정수는 1보다 크고 1,000,000 이하이다.
- 셋째 줄에는 정수 M이 주어진다.(1 \leq M \leq 100,000)
- 넷째 줄에는 공백으로 구분하여 M개의 정수가 주어진다. 이 때, 정수는 1보다 크고 1,000,000 이하이다.

출력조건
- 첫째 줄에 공백으로 구분하여 각 부품이 존재하면 yes를, 없으면 no를 출력한다.

sol 1) 다량의 데이터 검색은 이진 탐색 알고리즘 이용
-> N개의 부품을 번호 기준으로 정렬, 그 후 M개의 찾고자 하는 부품이 각각 매장에 존재하는지 검사 => 이 때, 매장의 부품들은 정렬이 되어있기 때문에 이진 탐색 가능

-> 이 때, 최악의 경우 시간 복잡도 O((M+N)logN)O((M+N) * logN)

이진 탐색 이용 코드

# 이진 탐색 코드 구현 (반복문)
def binary_search(array, target, start, end):
    while start <= end:
        mid = (start + end) // 2
        if array[mid] == target:  # 찾은 경우
            return mid  # 중간점 인덱스 반환
        elif array[mid] > target:  # 중간점의 값보다 target이 작은 경우
            end = mid - 1  # 왼쪽 확인
        else:  # 중간점의 값보다 target이 큰 경우
            start = mid + 1  # 오른쪽 확인
        return None
    
    n = int(input())  #N(가게의 부품 개수) 입력
    array = list(map(int, input().split())) #가게에 있는 전체 부품 번호를 공백으로 구분하여 입력
    array.sort()  #이진 탐색 수행 위해 사전에 정렬 수행
    m = int(input())  # M(손님이 확인 요청한 부품 개수) 입력
    x = list(map(int, input().split()))  #손님이 확인 요청한 전체 부품 번호를 공백으로 구분하여 입력
    
    for i in x: #손님이 확인 요청한 부품 번호를 하나씩 확인
        result = binary_search(array, i, 0, n-1)
        # 해당 부품이 존재하는지 확인
        if result != None:
            print("yes", end=' ')
        else:
            print("no", end=' ')

sol 2) 계수 정렬 이용
-> 모든 원소의 버호를 포함할 수 있는 크기의 리스트를 만든 후 리스트의 인덱스에 접근하여 특정한 번호의 부품이 매장에 존재하는지 확인

계수 정렬 이용 코드

n = int(input())  #N(가게의 부품 개수) 입력
array = [0] * 1000001

#가게에 있는 전체 부품 번호를 입력받아서 기록
for i in input().split():
    array[int(i)] = 1
    
m = int(input())  # M(손님이 확인 요청한 부품 개수) 입력
x = list(map(int, input().split()))  #손님이 확인 요청한 전체 부품 번호를 공백으로 구분하여 입력

for i in x:  # 손님이 확인 요청한 부품 번호를 하나씩 확인
    # 해당 부품이 존재하는지 확인
    if array[i == 1:
        print("yes", end=' ')
    else:
        print("no", end=' ')

sol 3) 단순히 특정한 수가 한 번이라도 등장했는지 검사 => 집합 자료형 이용
집합 자료형은 단순히 특정한 데이터가 존재하는지 검사할 때 매우 효과적

(set() 함수는 집합 자료형을 초기화 할 때 사용)

집합 자료형 이용 코드

n = int(input())  #N(가게의 부품 개수) 입력
array = set(map(int, input().split())) #가게에 있는 전체 부품 번호를 공백으로 구분하여 입력

m = int(input())  # M(손님이 확인 요청한 부품 개수) 입력
x = list(map(int, input().split()))  #손님이 확인 요청한 전체 부품 번호를 공백으로 구분하여 입력

for i in x:  # 손님이 확인 요청한 부품 번호를 하나씩 확인
    if i in array:
        print("yes", end=' ')
    else:
        print("no", end=' ')

Ex2) 떡볶이 떡 만들기

오늘 동빈이는 여행 가신 부모님을 대신해서 떡집 일을 하기로 했다. 오늘은 떡볶이 떡을 만드는 날이다. 동빈이네 떡볶이 떡은 재밌게도 떡볶이 떡의 길이가 일정하지 않다. 대신에 한 봉지 안에 들어가는 떡의 총 길이는 절단기로 잘라서 맞춰준다.
절단기에 높이(H)를 지정하면 줄지어진 떡을 한 번에 절단한다. 높이가 H보다 긴 떡은 H 위의 부분이 잘릴 것이고, 낮은 떡은 잘리지 않는다.
예를 들어, 높이가 19, 14, 10, 17cm인 떡이 나란히 있고 절단기 높이를 15cm로 지정하면 자른 뒤 떡의 높이는 15, 14, 10, 15cm가 될 것이다. 잘린 떡의 길이는 차례대로 4, 0, 0, 2cm익다. 손님은 6cm만큼의 길이를 가져간다.
손님이 왔을 때 요청한 총 길이가 M일 때 적어도 M만큼의 떡을 얻기 위해 절단기에 설정할 수 있는 높이의 최댓값을 구하는 프로그램을 작성하시오.

입력조건
- 첫째 줄에 떡의 개수 N과 요청한 떡의 길이 M이 주어진다. (1 \leq N \leq 1,000,000, 1 \leq M \leq 2,000,000)
- 둘째 줄에는 떡의 개별 높이가 주어진다. 떡 높이의 총합은 항상 M 이상이므로, 손님은 필요한 양만큼 떡을 사갈 수 있다. 높이는 10억보다 작거나 같은 양의 정수 또는 0이다.

출력조건
- 적어도 M만큼의 떡을 집에 가져가기 위해 절단기에 설정할 수 있는 높이의 최댓값을 출력한다.

sol) 이진탐색 문제, 파라메트릭 서치(Parametric Search) 유형의 문제
적절한 높이를 찾을 때까지 절단기 높이 H를 반복해서 조정
-> '현재 이 높이로 자르면 조건을 만족할 수 있는가?'를 확인한 후 조건의 만족 여부에 따라 탐색 범위를 좁혀서 해결 (범위를 좁힐 때는 이진 탐색의 원리를 이용하여 절반씩)

=> 시작점을 0, 끝점을 가장 긴 떡의 길이로 설정한후 중간점을 초기의 H로 설정
이 때, 필요한 떡 길이보다 크면 시작점을 증가시킨다. 이를 반복
만약, 필요한 떡의 길이보다 작다면 끝점을 감소시킨다.
=> 중간값은 시간이 지날수록 '최적한 값'을 찾는다.

파라메트릭 서치: 최적화 문제를 결정 문제로 바꾸어 해결
=> '원하는 조건을 만족하는 가장 알맞은 값을 찾는 문제'에서 주로 사용

#떡의 개수(N)와 요청한 떡의 길이(M)을 입력받기
n, m = list(map(int, input().split(' ')))
array = list(map(int, input().split()))  #각 떡의 개별 높이 정보 입력받기

#이진 탐색을 위한 시작점, 끝점 설정
start = 0
end = max(array)

#반복문 이용하여 이진탐색 수행
result = 0
while(start <= end):
    total = 0
    mid = (start + end) // 2
    for x in array:
        if x > mid:  #잘랐을 때의 떡의 양 계산
            total += x - mid
    if total < m: #떡의 양이 부족한 경우
        end = mid - 1 #더 많이 자르기(왼쪽 부분 탐색)
    else: #떡의 양이 충분한 경우
        result = mid #최대한 덜 잘랐을 때가 답이므로 여기에서 result에 기록
        start = mid + 1  #덜 자르기(오른쪽 부분 탐색)
        
print(result)

기출문제

Q28 고정점 찾기

고정점이란, 수열의 원소 중에서 그 값이 인덱스와 동일한 원소를 의미합니다. 예를 들어 수열 a = {-15, -4, 2, 8, 13}이 있을 때 a[2] = 2이므로, 고정점은 2가 됩니다.
하나의 수열이 N개의 서로 다른 원소를 포함하고 있으며, 모든 원소가 오름차순으로 정렬되어 있습니다. 이때 이 수열에서 고정점이 있다면, 고정점을 출력하는 프로그램을 작성하세요. 고정점은 최대 한 개만 존재합니다. 만약 고정점이 없다면 -1을 출력합니다.
단, 이 문제는 시간 복잡도 O(logN)O(logN)으로 알고리즘을 설계하지 않으면 '시간 초과' 판정을 받습니다.

입력조건
- 첫째 줄에 N이 입력됩니다.. (1 \leq N \leq 1,000,000)
- 둘째 줄에 N개의 원소가 정수 형태로 공백으로 구분되어 입력됩니다.
(109-10^9 \leq 각 원소의 값 \leq 10910^9)

출력조건
- 고정점을 출력한다. 고정점이 없다면 -1을 출력한다.

sol) 시간 복잡도 O(logN)O(logN)를 만족시키기 위해 이진 탐색 사용. (이미 정렬 완료)
'찾고자 하는 값'이 '중간점'과 동일하다 가정하고 탐색 수행
=> 중간점이 가르키는 위치보다 중간점이 작을 때 왼쪽 탐색, 중간점이 클 때 오른쪽 탐색

#이진 탐색 코드 구현 (재귀 함수)

def binary_search(array, start, end):
    if start > end:
        return None
    mid = (start + end) // 2
    if array[mid] == mid: #고정점 찾은 경우
        return mid  #인덱스 반환
    elif array[mid] > mid:  #중간점이 가르키는 위치의 값보다 중간값이 작은 경우
        return binary_search(array, start, mid-1)  #왼쪽 탐색
    else:  #중간점이 가르키는 위치의 값보다 중간값이 큰 경우
        return binary_search(array, mid+1, end)  #오른쪽 탐색

n = int(input())
array = list(map(int, input().split()))

index = binary_search(array, 0, n-1)

if index == None: #고정점이 없는 경우
    print(-1)
else:  #고정점이 있는 경우
    print(index)  #해당 인덱스 출력

입력                                                          출력

5 								    3
-15 -6 1 3 7

입력                                                          출력

7								    -1
-15 -4 3 8 9 12 15

출처: 나동빈, 『이것이 취업을 위한 코딩 테스트다 with 파이썬』, 한빛미디어(2020)

0개의 댓글