03. DFS/BFS

ji-vvon·2021년 7월 12일

알고리즘(파이썬)

목록 보기

13/41

'이것이 코딩 테스트다 with 파이썬(나동빈)' 책과 이코테 유튜브 강의 영상을 기반으로 작성한 글입니다.

👩‍🏫 자료구조 기초

- 탐색(Search)

많은 양의 데이터 중에서 원하는 데이터를 찾는 과정을 의미한다. 대표적인 탐색 알고리즘으로는 DFS와 BFS를 꼽을 수가 있다. DFS, BFS를 제대로 이해하려면 기본 자료구조인 스택과 큐에 대한 이해가 전제되어야 한다.

- 자료구조(Data Structure)

'데이터를 표현하고 관리하고 처리하기 위한 구조'를 의미한다.

삽입(Push) : 데이터를 삽입한다.
삭제(Pop) : 데이터를 삭제한다.

실제로 스택과 큐를 사용할 때에는 삽입과 삭제 외에도 오버플로와 언더플로를 고민해야 한다. 오버플로는 특정한 자료구조가 수용할 수 있는 데이터의 크기를 이미 가득 찬 상태에서 삽입 연산을 수행할 때 발생한다. 즉, 저장공간을 벗어나 데이터가 넘쳐흐를 때 발생한다. 반면 특정한 자료구조에 데이터가 전혀 들어있지 않은 상태에서 삭제 연산을 수행하면 데이터가 전혀 없는 상태이므로 언더플로가 발생한다.

1. 스택(Stack)

선입후출(First In Last Out)구조
박스 쌓기에 비유할 수 있으며, 입구와 출구가 동일한 형태로 시각화할 수 있다.

stack = []

stack.append(5)
stack.append(2)
stack.append(3)
stack.append(7)
stack.pop()
stack.append(1)
stack.append(4)
stack.pop()

print(stack)  # 최하단 원소부터 출력
print(stack[::-1])  # 최상단 원소부터 출력

#결과
#[5, 2, 3, 1]
#[1, 3, 2, 5]

파이썬에서 스택을 이용할 때는 별도의 라이브러리를 사용할 필요가 없다. 기본 리스트에서 append()와 pop() 메서드를 이용하면 스택 자료구조와 동일하게 동작한다. append() 메서드는 리스트의 가장 뒤쪽에 데이터를 삽입하고, pop() 메서드는 리스트의 가장 뒤쪽에서 데이터를 꺼내기 때문이다. append()와 pop()의 시간복잡도는 O(1)로 매우 간단하다.

2. 큐(Queue)

선입선출(First In First Out) 구조
대기 줄에 비유할 수 있으며, 입구와 출구가 모두 뚫려 있는 터널과 같은 형태로 시각화할 수 있다. 새치기 없는 공정한 자료구조라고 비유된다.

from collections import deque

#큐 구현을 위해 deque 라이브러리 사용
queue = deque()

queue.append(5)
queue.append(2)
queue.append(3)
queue.append(7)
queue.popleft()
queue.append(1)
queue.append(4)
queue.popleft()

print(queue)  # 먼저 들어온 순서대로 출력
queue.reverse()  # 다음 출력을 위해 역순으로 바꾸기
print(queue) # 나중에 들어온 원소부터 출력

# 출력
# deque([3, 7, 1, 4])
# deque([4, 1, 7, 3])

파이썬으로 큐를 구현할 때는 collections 모듈에서 제공하는 deque 자료구조를 활용한다. deque는 스택과 큐의 장점을 모두 채택한 것인데 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며 queue 라이브러리를 이용하는 것보다 더 간단하다.
append()와 popleft()메서드를 이용하며, 이들의 시간복잡도는 O(1)로 매우 간단하다.

3. 재귀함수

자기 자신을 다시 호출하는 함수

def recursive_function():
	print("재귀 함수를 호출합니다.")
    	recursive_function()
       
recursive_function()

이 코드를 실행하면 해당 문자열을 무한히 출력한다. 여기서 정의한 recursive_function()이 자기 자신을 계속해서 추가로 불러오기 때문이다. 파이썬 인터프리터는 호출횟수 제한이 있기 때문에 이 한계를 벗어나는 경우 오류 메시지를 출력하고 멈출 것이다. 따라서 무한대로 재귀 호출을 진행할 수는 없다.

재귀함수는 종료조건을 꼭 명시해 무한 호출되는 것을 방지해야 한다.

def recursive_function(i):
    # 100번째 출력했을 때 종료되도록 조건 명시
    if i == 100:
        return
    print(i, '번째 재귀함수에서', i+1, '번째 재귀함수를 호출합니다.')
    recursive_function(i+1)
    print(i, '번째 재귀 함수를 종료합니다.')

recursive_function(1)

컴퓨터 내부에서 재귀 함수의 수행은 스택 자료구조를 이용한다. 함수를 계속 호출했을 때 가장 마지막에 호출한 함수가 먼저 수행을 끝내야 그 앞의 함수 호출이 종료되기 때문이다.

팩토리얼(Factorial)

느낌표(!)를 사용하며 n! 1 x 2 x 3 x ... x (n-1) x n을 의미한다. 수학적으로 0!와 1!의 값은 1로 같다는 성질을 이용하여 팩토리얼 함수는 n이 1 이하가 되었을 때 함수를 종료하는 재귀 함수의 형태로 구현할 수 있다.

반복적으로 구현한 방식과 재귀적으로 구현한 두 방식을 비교해보자.

# 반복적으로 구현한 n!
def factorial_iterative(n):
    result = 1
    # 1부터 n까지의 수를 차례대로 곱하기
    for i in range(1, n+1):
        result *= i
    return result

# 재귀적으로 구현한 n!
def factorial_recursive(n):
    if n <= 1: # n이 1 이하인 경우 1을 반환
        return 1
    return n * factorial_recursive(n-1)

#각각의 방식으로 구현한 n! 출력
print('반복적으로 구현:', factorial_iterative(5))
print('재귀적으로 구현:', factorial_recursive(5))

# 출력
# 반복적으로 구현: 120
# 재귀적으로 구현: 120

반복문 대신 재귀함수를 사용했을 때 더 간결해진 것을 알 수 있다. 그 이유는 재귀함수가 수학의 점화식(재귀식)을 그대로 소스코드로 옮겼기 때문이다.

팩토리얼을 수학적 점화식으로 표현해보면 다음과 같다.

n이 0 혹은 1일 때 : factorial(n) = 1
n이 1보다 클 때 : factorial(n) = n x factorial(n-1)

여기서 종료조건은 'n이 0 혹은 1일 때' 이다. 팩토리얼은 n이 양의 정수일 때에만 유효하기 때문에 n이 1 이하인 경우 1을 반환할 수 있도록 재귀 함수를 작성해야 한다. 그렇지 않으면 무한히 반복되어 결과를 출력하지 못할 것이다.

유클리드 호제법 (최대공약수 계산)

두 개의 자연수에 대한 최대공약수를 구하는 대표적인 알고리즘

두 자연수 A, B에 대하여 (A > B) A를 B로 나눈 나머지를 R이라고 하자. 이때 A와 B의 최대 공약수는 B와 R의 최대공약수와 같다.

유클리드 호제법의 아이디어를 그대로 재귀 함수로 작성할 수 있다.

예시 : GCD(192, 162)

def gcd(a, b):
    if a % b == 0:
        return b
    else:
        return gcd(b, a % b)

print(gcd(192, 162))

# 출력 - 6

👩‍🏫 탐색 알고리즘 DFS/BFS

0. 그래프 탐색 기초

그래프 탐색이란 하나의 노드를 시작으로 다수의 노드를 방문하는 것을 말한다. 또한 두 노드가 간선으로 연결되어 있다면 '두 노드는 인접하다'고 표현한다.

프로그래밍에서 그래프는 크게 두 가지 방식으로 표현할 수 있는데, 코딩 테스트에서는 이 두 방식 모두 필요하다고 한다.

인접 행렬(Adjacency Matrix) : 2차원 배열로 그래프의 연결 관계를 표현하는 방식
인접 리스트(Adjaceny List) : 리스트로 그래프의 연결 관계를 표현하는 방식

인접 행렬 방식은 2차원 배열에 각 노드가 연결된 형태를 기록하는 방식이다. 위와 같이 연결된 그래프를 인접 행렬로 표현할 때 파이썬에서는 2차원 리스트로 구현할 수 있다. 연결이 되어 있지 않은 노드끼리는 무한의 비용이라고 작성한다. 실제 코드에서는 논리적으로 정답이 될 수 없는 큰 값 중에서 999999999, 987654321 등의 값으로 초기화하는 경우가 많다. 이렇게 그래프를 인접 행렬 방식으로 처리할 대는 다음과 같이 데이터를 초기화한다.

INF = 999999999 # 무한의 비용 선언

# 2차원 리스트를 이용해 인접 행렬 표현
graph = [
    [0, 7, 5],
    [7, 0, INF],
    [5, INF, 0]
]

print(graph)

인접 리스트 방식에서는 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장한다. 파이썬에서는 단순히 2차원 리스트를 이용하면 된다. 다른 프로그래밍 언어에서는 별도로 연결 리스트 기능을 위한 표준 라이브러리를 제공하지만, 파이선은 기본 자료형인 리스트 자료형이 append()와 메소드를 제공하기 때문이다.

# 행(row)이 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]

# 노드 0에 연결된 노드 정보 저장(노드, 거리)
graph[0].append((1, 7))
graph[0].append((2, 5))

# 노드 1에 연결된 노드 정보 저장(노드, 거리)
graph[1].append((0, 7))

# 노드 2에 연결된 노드 정보 저장(노드, 거리)
graph[2].append((0, 5))

print(graph)

비교
인접 행렬 방식은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비된다. 반면 인접 리스트 방식은 연결된 정보만을 저장하므로 메모리를 효율적으로 사용한다. 하지만 이와 같은 속성 때문에 인접 리스트 방식은 인저 행렬 방식에 비해 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느리다. 연결된 데이터를 하나하나 확인해야 하기 때문이다.

1. DFS

깊이 우선 탐색(Depth-First Search)이라고도 부르며, 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘이다.

깊이 우선 탐색 알고리즘은 특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 알고리즘이다.

DFS는 스택 자료구조를 이용하며 구체적인 동작 과정은 다음과 같다.

탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다.

스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다. 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.

2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

*방문 처리 : 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미. 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있음.

다음과 같은 그래프를 보자. 노드 1을 시작 노드로 설정하여 DFS를 이용해 탐색을 진행하며 어떻게 될까? 직관적으로 생각하면, 깊이 우선 탐색이라는 이름에서부터 알 수 있듯이 단순하게 가장 깊숙이 위치하는 노드에 닿을 때까지 확인(탐색)하면 된다.

*방문 기준 : 일반적으로 인접한 노드 중에서 방문하지 않은 노드가 여러개 있으면 번호가 낮은 순부터 처리한다.

과정

시작 노드인 '1'을 스택에 삽입하고 방문 처리를 한다.
스택의 최상단 노드인 '1'에 방문하지 않은 인접노드 '2', '3', '8' 이 있다. 이 중에서 가장 작은 노드인 '2'를 스택에 넣고 방문 처리를 한다.
스택의 최상단 노드인 '2'에 방문하지 않은 인접 노드 '7'이 있다. 따라서 '7'번 노드를 스택에 넣고 방문 처리를 한다.
스택의 최상단 노드인 '7'에 방문하지 않은 인접 노드 '6'과 '8'이 있다. 이 중에서 가장 작은 노드인 '6'을 스택에 넣고 방문 처리를 한다.
스택의 최상단 노드인 '6'에 방문하지 않은 인접 노드가 없다. 따라서 스택에서 '6'번 노드를 꺼낸다.
스택의 최상단 노드인 '7'에 방문하지 않은 인접 노드 '8'이 있다. 따라서 '8'번 노드를 스택에 넣고 방문 처리를 한다.
스택의 최상단 노드인 '8'에 방문하지 않은 인접 노드가 없다. 따라서 스택에서 '8'번 노드를 꺼낸다.
스택의 최상단 노드인 '7'에 방문하지 않은 인접 노드가 없다. 따라서 스택에서 '7'번 노드를 꺼낸다.
스택의 최상단 노드인 '2'에 방문하지 않은 인접 노드가 없다. 따라서 스택에서 '2'번 노드를 꺼낸다.
스택의 최상단 노드인 '1'에 방문하지 않은 인접 노드 '3'을 스택에 넣고 방문 처리한다.
스택의 최상단 노드인 '3'에 방문하지 않은 인접 노드 '4'과 '5'가 있다. 이 중에서 가장 작은 노드인 '4'을 스택에 넣고 방문 처리를 한다.
스택의 최상단 노드인 '4'에 방문하지 않은 인접 노드 '5'가 있다. 따라서 '5'번 노드를 스택에 넣고 방문 처리를 한다.
남아 있는 노드에 방문하지 않은 인접 노드가 없다. 따라서 모든 노드를 차례대로 꺼내면 다음과 같다.

결과적으로 노드의 탐색 순서(스택에 들어간 순서)는 다음과 같다.
1 -> 2 -> 7 -> 6 -> 8 -> 3 -> 4 -> 5

깊이 우선 탐색 알고리즘인 DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단하다. 실제로는 스택을 쓰지 않아도 되며 탐색을 수행함에 있어 데이터의 개수가 N개인 경우 O(N)의 시간이 소요된다는 특징이 있다. 또한 스택을 이용하는 알고리즘이기 때문에 재귀 함수를 이용했을 때 매우 간결하게 구현할 수 있다.

# DFS 메서드 정의
def dfs(graph, v, visited):
    # 현재 노드를 방문 처리
    visited[v] = True
    print(v, end=" ")
    # 현재 노드와 연결된 다른 노드를 재귀적으로 방문
    for i in graph[v]:
        if not visited[i]:
            dfs(graph, i, visited)

# 각 노드가 연결된 정보를 리스트 자료형으로 표현(2차원 리스트)
graph = [
    [], # 인덱스 0은 비워둠. 노드가 1번부터 시작하기 때문.
    [2, 3, 8], # 1번 노드와 인접한 노드들
    [1, 7], # 2번 노드와 인접한 노드들 ...
    [1, 4, 5],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

# 각 노드가 방문한 정보를 리스트 자료형으로 표현(1차원 리스트)
visited = [False] * 9 # 인덱스 0 을 포함해 9개 초기화

# 정의된 DFS 함수 호츌
dfs(graph, 1, visited)

# 출력 : 1 2 7 6 8 3 4 5

2. BFS

너비 우선 탐색 알고리즘((Breadth First Search))으로, 가까운 노드부터 탐색하는 알고리즘이다. 최대한 멀리 있는 노드를 우선으로 탐색하는 DFS와 반대이다. 최단거리 문제에서 자주 사용된다.

BFS 구현에서는 선입선출 방식인 큐 자료구조를 이용하는 것이 정석이다. 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 자연스럽게 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진행하게 된다.

동작 방식은 다음과 같다.

탐색 시작 노드를 큐에 삽입하고 방문 처리를 한다.

큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 한다.

2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

과정

시작 노드인 '1'을 큐에 삽입하고 방문 처리를 한다.
큐에서 노드 '1'을 꺼내고 방문하지 않은 인접 노드 '2', '3', '8' 을 모두 큐에 삽입하고 방문 처리를 한다.
큐에서 노드 '2'를 꺼내고 방문하지 않은 인접 노드 '7'을 큐에 삽입하고 방문 처리를 한다.
큐에서 노드 '3'을 꺼내고 방문하지 않은 인접 노드 '4'와 '5'를 모두 큐에 삽입하고 방문 처리를 한다.
큐에서 노드 '8'을 꺼내고 방문하지 않은 인접 노드가 없으므로 무시한다.
큐에서 노드 '7'을 꺼내고 방문하지 않은 인접 노드 '6'을 큐에 삽입하고 방문 처리를 한다.
남아 있는 노드에 방문하지 않은 인접 노드가 없다. 따라서 모든 노드를 차례대로 꺼내면 최종적으로 다음과 같다

결과적으로 노드의 탐색 순서(큐에 들어간 순서)는 다음과 같다.
1 -> 2 -> 3 -> 8 -> 7 -> 4 -> 5 -> 6

너비 우선 탐색 알고리즘인 BFS는 큐 자료구조에 기초한다는 점에서 구현이 간단하다. 실제로 구현함에 있어 앞서 언급한 대로 deque 라이브러리를 사용하는 것이 좋으며 탐색을 수행함에 있어 O(N)의 시간이 소요된다. 일반적인 경우 실제 수행 시간은 DFS보다 좋은 편이라는 점까지만 추가로 기억하면 된다.

from collections import deque

# BFS 메서드 정의
def bfs(graph, start, visited):
    # 큐 구현을 위해 deque 라이브러리 사용
    queue = deque([start])
    # 현재 노드를 방문 처리
    visited[start] = True
    # 큐가 빌 때까지 반복
    while queue:
        # 큐에서 하나의 원소를 뽑아 출력
        v = queue.popleft()
        print(v, end=" ")
        # 해당 원소와 연결된, 아직 방문하지 않은 원소들을 큐에 삽입
        for i in graph[v]:
            if not visited[i]:
                queue.append(i)
                visited[i] = True

graph = [
    [],
    [2,3,8],
    [1,7],
    [1,4,5],
    [3,5],
    [3,4],
    [7],
    [2,6,8],
    [1,7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현(1차원 리스트)
visited = [False] * 9

# 정의된 BFS 함수 호출
bfs(graph, 1, visited)

# 출력 : 1 2 3 8 7 4 5 6