의사결정트리 (2)
sklearn 내장 데이터 (유방암 데이터)
개요
과거에 수집된 데이터를 분석해 이들 사이에 존재하는 패턴(범주별 특성)을 속성의 조합으로 나타내는 분류 모형
- 새로운 데이터에 대한 분류
- 해당 범주의 값을 예측
- 데이터로부터 트리구조의 일반화된 지식을 추출
의사결정트리 유형
- 범주형 : 분류트리
- 연속형 : 회귀트리
의사결정트리 구성
대표적으로 노드(Node), 가지(Branch), 깊이(Depth)로 수겅

- Root Node : 시작점
- Child Node : 하나 이상의 노드로부터 분리되어 나간 2개 이상의 노드들
- Parent Node : 특정 노드의 상위 노드
- Terminal Node : 더 이상 자식을 갖지 않는 노드
- Internal Node : 부모와 자식을 모두 갖는 노드(중간 노드)
의사결정트리 특징
장점
- 이해하기 쉬운 규칙이 생성(if-else)
- 분류 예측에 유용하지만 회귀 예측도 가능(범주형, 연속형 모두 가능)
- 어느 변수가 상대적으로 더 중요한지 확인 가능
- 비교적 빠른 의사결정 가능
단점
- 연속형 변수 값을 예측(회귀)할 때 예측력이 떨어짐(부적합)
- 트리가 복잡할 수록 예측력 저하, 해석이 어려움, 상황에 따라 계산량이 많아서 처리속도가 느림
- 안정성이 떨어짐(데이터에 약간의 변형이 있는 경우 결과가 나빠질 수 있음)
의사결정트리 진행 절차
의사결정트리 분류
- 훈련용 데이터를 이용하여 독립변수의 차원 공간을 반복적으로 분할
- 평가용 데이터를 이용하여 가지치기를 수행(분할)
- 분할 기준: 부모 마디마다 자식 마디의 순수도가 증가하도록 뷴류를 형성
- 순수도 : 특정 범주의 개체들이 포함되어 있는 정도
- 순수한 데이터 비율이 높을수록 좋은 트리가됨
의사결정트리 (2)
sklearn 내장 데이터 (유방암 데이터)
개요
과거에 수집된 데이터를 분석해 이들 사이에 존재하는 패턴(범주별 특성)을 속성의 조합으로 나타내는 분류 모형
- 새로운 데이터에 대한 분류
- 해당 범주의 값을 예측
- 데이터로부터 트리구조의 일반화된 지식을 추출
의사결정트리 유형
- 범주형 : 분류트리
- 연속형 : 회귀트리
의사결정트리 구성
대표적으로 노드(Node), 가지(Branch), 깊이(Depth)로 수겅

- Root Node : 시작점
- Child Node : 하나 이상의 노드로부터 분리되어 나간 2개 이상의 노드들
- Parent Node : 특정 노드의 상위 노드
- Terminal Node : 더 이상 자식을 갖지 않는 노드
- Internal Node : 부모와 자식을 모두 갖는 노드(중간 노드)
의사결정트리 특징
장점
- 이해하기 쉬운 규칙이 생성(if-else)
- 분류 예측에 유용하지만 회귀 예측도 가능(범주형, 연속형 모두 가능)
- 어느 변수가 상대적으로 더 중요한지 확인 가능
- 비교적 빠른 의사결정 가능
단점
- 연속형 변수 값을 예측(회귀)할 때 예측력이 떨어짐(부적합)
- 트리가 복잡할 수록 예측력 저하, 해석이 어려움, 상황에 따라 계산량이 많아서 처리속도가 느림
- 안정성이 떨어짐(데이터에 약간의 변형이 있는 경우 결과가 나빠질 수 있음)
의사결정트리 진행 절차
의사결정트리 분류
- 훈련용 데이터를 이용하여 독립변수의 차원 공간을 반복적으로 분할
- 평가용 데이터를 이용하여 가지치기를 수행(분할)
- 분할 기준: 부모 마디마다 자식 마디의 순수도가 증가하도록 뷴류를 형성
- 순수도 : 특정 범주의 개체들이 포함되어 있는 정도
- 순수한 데이터 비율이 높을수록 좋은 트리가됨

반복적 분리 과정
- 위의 과정을 최종 노드에 포함된 변수가 모두 동일한 집단에 속하도록 하는 것
반복적 분리 과정
- 위의 과정을 최종 노드에 포함된 변수가 모두 동일한 집단에 속하도록 하는 것