[ML] 결정 트리란(Decision Tree)? 결정 트리의 장점과 단점은?

gyurili·2025년 1월 26일
0

AI

목록 보기
8/23

결정 트리의 장점과 단점은 무엇인가요?


결정 트리란(Decision Tree)란?

결정트리는 규칙을 바탕으로 데이터를 분류하는 경로를 만들고, 그 결과로 예측을 수행하는 머신러닝 모델이다.
결과 모델이 Tree 구조를 가지고 있기 때문에 Decision Tree라는 이름을 가진다.

위 사진처럼 특정 분류 기준(질문)에 따라 데이터를 구분하는 모델을 결정 트리 모델이라고 한다. 어떤 질문을 던지고, 그 질문에 맞는지 틀리는지에 따라 가지를 뻗쳐가며 대상을 좁혀간다.


구조로 보자면, 루트 노드(root node)에서 시작하여 각 분기(branch)를 따라가며 최종적으로 리프 노드(leaf node)에서 결과를 출력하는 것이다.

루트 노드 (Root Node): 트리의 시작점이며, 가장 중요한 조건이 위치한다.
내부 노드 (Internal Node): 데이터를 더 세분화하는 분기점이다.
리프 노드 (Leaf Node): 최종적인 예측 결과 또는 분류가 이루어지는 노드이다.
깊이 (Depth): 루트 노드에서 리프 노드까지의 경로 길이를 의미한다.


또한, 결정 트리는 분류와 회귀 문제에 모두 사용할 수 있다.
분류에는 DecisionTreeClassifier 모델, 회귀에는 DecisionTreeRegressor 모델을 사용하면 된다.



결정 트리의 장점은?

1. 직관적이고 해석이 쉽다
결정 트리는 데이터를 처리하면서 어떤 기준으로 분류를 수행했는지를 명확히 보여준다. 따라서 각 분기점에서 "어떤 조건"에 따라 데이터가 나뉘는지 알 수 있어 결과를 설명하기 쉽다.


2. 특징 선택 불필요
결정 트리는 데이터를 분할할 때 정보 이득(Information Gain)이나 지니 지수(Gini Index) 등의 기준으로 가장 중요한 변수부터 분할한다. 이 과정에서 덜 중요한 변수는 자연스럽게 제외되므로, 수작업으로 특징을 선택할 필요가 없다.
또한, 숫자형 데이터와 범주형 데이터를 모두 처리할 수 있어 데이터 전처리가 간단한 편이다.


3. 비선형 관계 처리 가능
결정 트리는 데이터를 선형적으로 나누지 않고, 필요에 따라 데이터를 다양한 기준으로 나눌 수 있다.
즉, 선형 회귀나 로지스틱 회귀 같은 모델이 처리하지 못하는 복잡한 비선형 데이터를 다룰 수 있다는 것이다.



결정 트리의 단점은?

결정 트리 모델은 어떤 기준으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가로 알고리즘의 성능을 좌우한다.

그러나, 결정 트리는 데이터에 지나치게 맞춰서 학습하는 경향이 있다. (예를 들어, 학습 데이터에 있는 모든 노이즈(잡음)까지 학습해버리는 경우)

특히 트리의 깊이가 너무 깊거나, 리프 노드의 수가 적은 데이터는 과적합이 발생하기 쉽다. 과적합된 모델은 학습 데이터에 대해서는 높은 정확도를 보이지만, 새로운 데이터(테스트 데이터)에 대해서는 성능이 크게 저하된다.

트리의 깊이(depth)가 깊어질 수록 예측 성능이 저하될 가능성이 높기 때문에 적절한 값을 찾아야 한다.

profile
개발 공부ᕦ(ò_óˇ)ᕤ

0개의 댓글