이것이 취업을 위한 코딩 테스트다 with 파이썬을 공부하면서 정리한 내용입니다.
그래프
- 그래프는 노드(Node)와 간선(Edge)으로 표현되며 이때 노드를 정점(Vertex)이라고도 함
- 그래프 탐색은 하나의 노드를 시작으로 다수의 노드를 방문하는 것
- 프로그래밍에서 그래프는 크게 2가지 방식으로 표현
- 인접 행렬: 2차원 배열로 그래프의 연결 관계를 표현하는 방식
- 인접 리스트: 리스트로 그래프의 연결 관계를 표현하는 방식

인접 행렬
- 인접 행렬은 2차원 배열에 각 노드가 연결된 형태를 기록하는 방식
- 그래프를 인접 행렬로 표현할 때 파이썬에서는 2차원 리스트로 구현
- 연결이 되어 있지 않은 노드끼리는 무한의 비용이라고 작성
- 실제 코드에서는 논리적으로 정답이 될 수 없는 큰 값 중에서 999999999, 987654321 등의 값으로 초기화하는 경우가 많음

| 0 | 1 | 2 |
---|
0 | 0 | 7 | 5 |
1 | 7 | 0 | ∞ |
2 | 5 | ∞ | 0 |
INF = 999999999
graph = [
[0, 7, 5],
[7, 0, INF],
[5, INF, 0]
]
print(graph)
[[0, 7, 5], [7, 0, 999999999], [5, 999999999, 0]]
인접 리스트
- 인접 리스트 방식에서는 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장
- 인접 리스트는 연결 리스트라는 자료구조를 이용해 구현
- 파이썬은 기본 자료형인 리스트 자료형이
append()
와 메서드를 제공하므로 전통적인 프로그래밍 언어의 배열과 연결 리스트의 기능을 모두 기본으로 제공
- 파이썬으로 인접 리스트를 이용해 그래프를 표현할 때도 2차원 리스트를 이용

graph = [[] for _ in range(3)]
graph[0].append((1, 7))
graph[0].append((2, 5))
graph[1].append((0, 7))
graph[2].append((0, 5))
print(graph)
[[(1, 7), (2, 5)], [(0, 7)], [(0, 5)]]
인접 행렬 vs 인접 리스트
- 메모리 측면에서 보면 인접 행렬 방식은 모든 관계를 저장하므로 노드의 개수가 많을수록 메모리가 불필요하게 낭비됨
- 반면에 인접 리스트 방식은 연결된 정보만 저장하기 때문에 메모리를 효율적으로 사용
- 그러나 인접 리스트 방식은 인접 행렬 방식에 비해 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느림
- 인접 리스트 방식에서는 연결된 데이터를 하나씩 확인해야 하기 때문
- 특정한 노드와 연결된 모든 인접 노드를 순회해야 하는 경우, 인접 리스트 방식이 인접 행렬 방식에 비해 메모리 공간의 낭비가 적음
DFS
- DFS는 Depth-First Search, 깊이 우선 탐색이라고 부르며 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘
- 특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색
- DFS는 스택 자료구조를 이용하며 구체적인 동작 과정은 다음과 같음
- 탐색 시작 노드를 스택에 삽입하고 방문 처리
- 스택의 최상단 노드에 방문하지 않은 인접 노드가 있다면 그 인접 노드를 스택에 넣고 방문 처리, 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼냄
- 2번의 과정을 더 이상 수행할 수 없을 때까지 반복
- 방문 처리는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미, 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있음
- 인접한 노드 중에서 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순서부터 처리
- DFS의 기능을 생각하면 순서와 상관없이 처리해도 되지만, 관행적으로 번호가 낮은 순서부터 처리하도록 구현
- DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단
- 실제로는 스택을 쓰지 않아도 되며 탐색을 수행함에 있어서 데이터의 개수가 N개인 경우 O(N)의 시간이 소요됨
- DFS는 스택을 이용하는 알고리즘이기 때문에 실제 구현은 재귀 함수를 이용했을 때 매우 간결하게 구현할 수 있음
- 재귀 함수로 DFS를 구현하면 컴퓨터 시스템의 동작 특성상 실제 프로그램의 수행 시간은 느려질 수 있음
def dfs(graph, v, visited):
visited[v] = True
print(v, end=' ')
for i in graph[v]:
if not visited[i]:
dfs(graph, i, visited)
graph = [
[],
[2, 3, 8],
[1, 7],
[1, 4, 5],
[3, 5],
[3, 4],
[7],
[2, 6, 8],
[1, 7]
]
visited = [False] * 9
dfs(graph, 1, visited)
1 2 7 6 8 3 4 5
BFS
- BFS는 Breadth-First Search, 너비 우선 탐색이라는 의미로 가까운 노드부터 탐색하는 알고리즘
- DFS는 최대한 멀리 있는 노드를 우선으로 탐색하는 방식으로 동작하는데, BFS는 그 반대
- BFS 구현에서는 선입선출 방식인 큐 자료구조를 이용하는 것이 정석
- 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진행하게 됨
- 알고리즘의 동작 방식은 다음과 같음
- 탐색 시작 노드를 큐에 삽입하고 방문 처리
- 큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리
- 2번의 과정을 더 이상 수행할 수 없을 때까지 반복
- BFS는 큐 자료구조에 기초한다는 점에서 구현이 간단
- 실제로 구현할 때
deque
라이브러리를 사용하는 것이 좋으며 탐색을 수행함에 있어 O(N)
의 시간이 소요됨
- 일반적인 경우 실제 수행 시간은 DFS보다 더 좋은 편
from collections import deque
def bfs(graph, start, visited):
queue = deque([start])
visited[start] = True
while queue:
v = queue.popleft()
print(v, end=' ')
for i in graph[v]:
if not visited[i]:
queue.append(i)
visited[i] = True
graph = [
[],
[2, 3, 8],
[1, 7],
[1, 4, 5],
[3, 5],
[3, 4],
[7],
[2, 6, 8],
[1, 7]
]
visited = [False] * 9
bfs(graph, 1, visited)
1 2 3 8 7 4 5 6
DFS vs BFS
| DFS | BFS |
---|
동작 원리 | 스택 | 큐 |
구현 방법 | 재귀 함수 이용 | 큐 자료구조 이용 |
- 1차원 배열이나 2차원 배열도 그래프 형태로 생각하여 풀 수 있음
- 예를 들어, 상하좌우로만 움직일 수 있는 게임 맵이 3×3 형태의 2차원 배열이고 각 데이터를 좌표로 생각할 수 있음
- 코딩 테스트 중 2차원 배열에서의 탐색 문제를 그래프 형태로 바꿔서 생각하면 풀이 방법을 조금 더 쉽게 떠올릴 수 있음