Tree & Graph

준성·2023년 8월 1일
0

Tree

트리의 정의

자료구조 트리는 나무의 형태를 가지고 있다. 그래프의 여러 구조 중 단방향 그래프의 한 구조로, 하나의 뿌리로부터 가지가 사방으로 뻗은 형태가 나무와 닮았기에 트리 구조라 부른다.

트리 구조는 계층적 자료구조이다. 데이터가 바로 아래에 있는 하나 이상의 데이터에 한 개의 경로와 하나의 방향으로만 연결된다.

데이터를 순차적으로 나열한 선형 구조가 아니라, 하나의 데이터 아래에 여러 개의 데이터가 존재할 수 있는 비선형 구조이다.

트리 구조는 계층적으로 표현이 되며, 아래로만 뻗어나나기에 사이클(Cycle)이 없다. 사이클이란 시작 노드에서 출발해 다른 노드를 거쳐 시작 노드로 돌아올 수 있다면

사이클이 존재한다고 표현한다. 따라서 트리는 사이클이 없는 하나의 연결 그래프라고 할 수 있다.

트리의 구조와 특징

트리 구조는 루트(Root)라는 하나의 꼭짓점 데이터를 시작, 여러 개의 데이터를 간선 으로 연결한다. 각 데이터를 노드(Node) 라고 하며, 두 개의 노드가 상하 계층으로

연결되면 부모/자식 관계를 맺는다. Leaf Node 는 자식이 없는 노드를 얘기한다.

트리 자료구조는 깊이, 높이 ,레벨 등을 측정할 수 있다.

1. 깊이 (Depth)

트리 구조에서 루트로부터 하위 계층의 특정 노드까지의 깊이를 표현할 수 있다. 루트 노드는 지면에 있는 것처럼 깊이가 0 이다. 선으로 구분한 곳마다 깊이가 하나씩 증가한다

2. 레벨 (Level)

트리 구조에서 같은 깊이를 가지고 있는 노드를 묶어서 레벨 로 표현할 수 있다. 같은 레벨에 나란히 있는 노드를 형제 노드(Sibling Node)라고 한다.

3. 높이 (Height)

트리 구조에서 리프 노드를 기준으로 루트까지의 높이를 표현할 수 있다. 리프노드들은 높이 값이 0 이며, 부모를 올라갈 때마다 +1이 증가한다.

4. 서브 트리(Sub tree)

트리 구조의 루트에서 뻗어 나오는 큰 트리의 내부에, 트리 구조를 갖춘 작은 트리를 서브 트리라고 부른다.

용어정리

  • 노드(Node) : 트리 구조를 이루는 모든 개별 데이터
  • 루트(Root) : 트리 구조의 시작점이 되는 노드
  • 부모 노드(Parent node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 가까운 노드
  • 자식 노드(Child node) : 두 노드가 상하관계로 연결되어 있을 때 상대적으로 루트에서 먼 노드
  • 리프(Leaf) : 트리 구조의 끝 지점이고, 자식 노드가 없는 노드

Tree의 실사용 예제

가장 대표적인 예제는 컴퓨터의 디렉토리 구조이다. 모든 폴더는 하나의 폴더 즉 루트폴더(/)에서 시작되어, 가지를 뻗어나가는 모양새를 띈다.

또 다른 예시

  • 월드컵 토너먼트 대진표, 가계도, 조직도

Binary Tree

트리 구조에서 효율적인 탐색을 위해 발전시켜 나온 것이 이진트리이다.

이진트리(Binary Tree)

이진트리는 자식 노드가 최대 두 개인 노드로 구성되었다. 두 개의 자식 노드는 Left, Right 로 나뉠 수 있다.

이진트리는 자료의 삽입 , 삭제 방법 으로 정 이진트리(Full binary tree), 완전 이진트리(Complete binary tree), 포화 이진트리(Perfect binary tree) 로 나뉜다.

이진트리 특징

1. 정 이진트리 : 각 노드가 0개 혹은 2개의 자식 노드를 갖는다

2. 포화 이진트리 : 정 이진트리이면서 완전 이진트리인 경우이다. 모든 리프 노드의 레벨이 동일, 모든 레벨이 채워져 있는 트리이다.

3. 완전 이진트리 : 마지막 레벨을 제외한 모든 노드가 가득 차 있어야 하고, 마지막 레벨의 노드는 전부 차 있지 않아도 되지만 왼쪽이 채워져야 한다.

이진 탐색 트리(Binary Search Tree)

이진 탐색 트리란 이진 탐색의 속성이 이진트리에 적용된 특별한 형태의 이진트리이다.

이진 탐색

이진 탐색 알고리즘이란 정렬된 데이터 중 특정한 값을 찾기 위한 탐색 알고리즘 중 하나이다.

이진 탐색 알고리즘은 오름차순으로 정렬된 정수의 배열을 같은 크기의 두 부분 배열로 나눈 후, 두 부분 중 탐색이 필요한 부분에서 탐색하도록 탐색 범위를 제한하여 원하는 값을 찾는

알고리즘이다.

  1. 배열의 중간에 내가 찾고자 하는 값이 있는지 확인한다.
  2. 중간값이 내가 찾고자 하는 값이 아닐 경우, 오름차순으로 정렬된 배열에서 중간값보다 큰 값인지 작은 값인지 판단한다.
  3. 찾고자 하는 값이 중간값보다 작은 값일 경우, 배열의 맨 앞부터 중간값 전까지의 범위를 탐색 범위를 잡고 탐색 반복 수행한다.
  4. 찾고자 하는 값이 중간값보다 큰 값일 경우, 배열의 중간값의 다음 값부터 맨 마지막까지를 탐색 범위로 잡고 탐색 반복을 수행한다.

이진탐색트리는 다음과 같은 특징을 가지고 있다.

  1. 각 노드에 중복되지 않는 키가 있다.
  2. 루트노드의 왼쪽 서브 트리는 해당 노드의 키보다 작은 키를 갖는 노드들로 이루어져 있다.
  3. 루트노드의 오른쪽 서브 트리는 해당 노드의 키보다 큰 키를 갖는 노드들로 이루어져 있다.
  4. 좌우 서브 트리도 모두 이진 탐색 트리여야 한다.

이진 탐색 트리는 모든 왼쪽 자식의 값이 루트나 부모보다 작고, 모든 오른쪽 자식의 값이 루트나 부모보다 큰 값을 가지는 특징이 있다.

Tree Traversal

특정 목적을 위해 트리의 모든 노드를 한 번씩 방문하는 것을 트리 순회라고 한다.

트리 구조는 계층적 구조라는 특별한 특징을 가지기에 모든 노드를 순회하는 방법엔 크게 세 가지가 있다.

전위 순회 (Preorder traverse)

루트에서 시작해 왼쪽의 노드들은 순차적으로 둘러본 뒤, 왼쪽의 노드 탐색이 끝나면 오른쪽 노드를 탐색한다. 즉 부모 노드가 제일 먼저 방문하는 순회 방식이다. 주로 트리를 복사 할때 사용한다

중위 순회 (Inorder traverse)

루트를 가운데에 두고 순회한다. 제일 왼쪽 끝에 있는 노드부터 순회하며 루트를 기준으로 왼쪽에 있는 노드 순회가 끝나면 오른쪽 노드를 마저 탐색한다. 부모 노드는 서브트리 중간에 방문 된다

중위 순회는 이진 탐색 트리의 오름차순으로 값을 가져올 때 쓰인다.

후위 순위 (Postorder traverse)

루트를 가장 마지막에 순회한다. 제일 왼쪽 끝에 있는 노드부터 순회하고 루트를 거치지 않고 오른쪽으로 이동해 순회한 뒤 제일 마지막에 루트를 방문한다.

후위 순위는 트리를 삭제할 때 사용한다. 자식 노드가 먼저 삭제되어야 상위 노드를 삭제할 수 있기 때문이다.

레벨 순회

루트를 방문하는 기준으로 순회를 하는 것이 아닌 트리의 레벨 기준으로 노드들을 방문한다. 루트 노드를 시작 아래로 뻗어나가며 노드들을 방문하며 내려갈수록 레벨은 증가한다

동일한 레벨에 여러 노드가 존재할 경우 왼쪽에서 오른쪽 순서로 방문한다.

Graph

그래프는 여러 개의 점이 서로 복잡하게 연결된 관계를 표현한 자료구조이다.

Graph의 구조

  • 직접적인 관계가 있는 경우 두 점 사이를 이어주는 선이 있다.
  • 간접적인 관계라면 몇 개의 점과 선에 걸쳐 이어진다.
  • 하나의 점을 그래프에서 정점(vertex)이라고 표현하고, 하나의 선은 간선(edge)라고 한다

Graph의 표현 방식

인접 행렬

두 정점을 바로 이어주는 간선이 있다면 이 두 정점은 인접하다 라고 얘기한다. 인접 행렬은 서로 다른 정점들이 인접한 상태인지를 표시한 행렬로 2차원 배열의 형태로 나타낸다.

만약 A라는 정점과 B라는 정점이 이어져 있다면 1(true), 이어져 있지 않다면 0(false)으로 표시한 일종의 표이다.

#문제

태이블의 0번째 row부터 순서대로 A, B, C, E라고 했을 때,

A(0)는 C와 E를 향하고 있으므로 테이블의 첫 번째 row는 0, 0, 1, 1

B(1)는 A를 향하고 있으므로 테이블의 두 번째 row는 1, 0, 0, 0

C(2)는 B를 향하고 있으므로 테이블의 세 번째 row는 0, 1, 0, 0

E(3)는 B를 향하고 있으므로 테이블의 네 번째 row는 0, 1, 0, 0으로

결과는

row a b c e
	a	0 0 1 1
	b	1 0 0 0
	c	0 1 0 0
	e	0 1 0 0

인접 리스트

각 정점이 어떤 정점과 인접하는지를 리스트의 형태로 표현한다. 각 정점마다 하나의 리스트를 가지고 있으며, 리스트는 자신과 인접한 다른 정점을 담고 있다.

#문제

0번 노드는 1, 2, 3과 모두 이어져 있으므로

[0, *] -> [1, *] -> [2, *] -> [3, null]

1번 노드는 0과 2에 이어져 있으므로

[1, *] -> [0, *] -> [2, null]

2번 노드는 0과 1과 3에 이어져 있으므로

[2, *] -> [0, *] -> [1, *] -> [3, null]

3번 노드는 0과 2에 이어져 있으므로

[3, *] -> [0, *] -> [2, null]
//결과
[0, *] -> [1, *] -> [2, *] -> [3, null]
[1, *] -> [0, *] -> [2, null]
[2, *] -> [0, *] -> [1, *] -> [3, null]
[3, *] -> [0, *] -> [2, null]

인접 행렬과 인접 리스트는 언제 사용할까?

#인접 행렬

  1. 한 개의 큰 표와 같은 모습을 한 인접 행렬은 두 정점 사이에 관계가 있는지, 없는지 확인하기에 용이하다.
    • 예를 들어 A에서 B로 진출하는 간선이 있는지 파악하기 위해 0번째 줄의 1번째 열에 어떤 값이 저장되어있는지 바로 확인할 수 있다.
  2. 가장 빠른 경로를 찾고자 할 때 주로 사용된다.
    • 최단 경로를 구하는 과정(BFS)에서는 그래프 탐색이 빈번하게 발생하는데 이때 인접행렬이 인접리스트에 비해 조회 성능이 우수하다.

#인접 리스트

  1. 메모리를 효율적으로 사용하고 싶을 때 인접 리스트를 사용한다.
    • 인접 행렬은 연결 가능한 모든 경우의 수를 저장하기 때문에 상대적으로 메모리를 많이 차지한다.

BFS & DFS

그래프의 탐색은 하나의 정점에서 시작하여 모든 정점을 한 번씩 탐색하는 것이 목적이다. 그래프의 데이터는 배열처럼 정렬이 되어 있지 않아 원하는 자료를 찾으려면 모두 방문하여 찾아야 한다.

이 탐색하는 방법중 대표적인 두가지 BFS & DFS 가 있다. 둘은 데이터를 탐색하는 순서만 다를 뿐, 모든 자료를 하나씩 확인해 본다는 점은 같다.

// 출력값

[1, 6, 2, 3, 4, 5]

너비 우선 탐색 이라고 하며, 그래프의 탐색을 너비(수평) 방향으로 진행하는 방법이다. 시작 노드에서부터 인접한 노드들을 모두 방문한 다음 그 인접한 노드들을 방문한 식으로 탐색을 진행한다.

이러한 방식은 그래프를 층별로 탐색하며, 더 이상 방문할 노드가 없을 때까지 진행한다. 실사용에서 최단 경로를 찾을 때 많이 사용된다.

// 출력값

[1, 2, 3, 5, 4, 6]

깊이 우선 탐색 이라고 하며, 그래프의 탐색을 깊이(수직) 방향으로 진행하는 방법이다. 시작 노드에서부터 한 방향으로 최대한 깊게 진행하다가 더 이상 진행할 수 없을때, 이전 단계로 돌아가

다른 방향으로 탐색을 진행한다. 이 방식은 그래프를 탐색하며 더 이상 방문할 노드가 없을 때까지 진행된다. 한 정점에서 다음 경로로 넘어가는게 시간이 조금 오래걸려 BFS 방법 보다

조금 오래 걸릴 수도 있다.

profile
코드를 그리다.

0개의 댓글