[MLstudy] 의사결정나무 - Q&A

juyeon lee·2023년 3월 5일

MLstudy

목록 보기
3/8
post-thumbnail

주 2회 ML & DL Study & Q&A 피드백 진행
해당 자료📗 의사결정나무
스터디원🙎‍♀️ @dbswls6685

2023-02-28 3회차

❓ 질문 1

Q. 지니지수와 엔트로피지수의 수식 이외의 차이점
A. 지니지수는 '불확실성'으로, 집합에 얼마나 많은 것들이 섞여있는가?
엔트로피지수는 집합 안에 같은 것들로 구성되어있는가?

❓ 질문 2

Q. 의사결정나무의 장단점 중, 새로운 데이터를 모형에 적용하기 쉽다는 장점이 있다. but 새로운 데이터에 대한 예측이 정확하지 않다는 단점도 있다.
A. 만든 최종 트리에 새로운 데이터를 적용시켜도 분리 조건에 따라 잘 분류하지만, 예측력이 좋다고는 할 수 없다는 의미
= 말 그대로 이해하자..

❓ 질문 3

Q. 사전 가지치기와 사후 가지치기란? 둘의 차이점은?
A.
사전 : 트리의 최대 깊이나 노드의 최소 개수를 미리 지정해서 더 이상 분할이 일어나지 않게 하는 방법
사후 : 트리를 만든 후 밑에서부터 데이터가 적은 노드를 삭제 또는 병합
이 때 검증 데이터(validation data)를 사용하거나 일반화 오차(generalization error)를 예측한다. 만약 일반화 오차가 가지를 친 후에 더 좋아진다면 서브트리를 잎노드로 대체한다.

❓ 질문 4

Q. 분리의 경계점 부근(결정경계)에서 예측 오류가 크다고 하는데 이유가 무엇인가?
A. 분리 시, 연속형 변수를 비연속적인 값으로 구간화 처리하기 때문이다.
분류를 위해 0,1 혹은 가까운 값으로 분류하면 오류가 클 수 밖에 없다. = 비연속성

  • 결정경계가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높다.

❓ 질문 5

Q. 엔트로피 지수와 지니지수의 최댓값이 다른 이유
A.
엔트로피 지수의 최댓값은 1, 지니지수의 최댓값은 0.5이다.
위의 그림에서 빨간 구슬의 비율이 0일 때와 1일 때는 집합 내에 같은 종류로 이루어져 있기 때문에 지니지수가 0이다. 지니지수는 얼마나 잘 섞여있냐가 핵심이므로, 0.5(5:5) 비율일 때 잘 섞여져있다고 할 수 있다. 따라서 지니지수의 최댓값은 0.5이다.

❓ 질문 6

Q. 영역을 어떻게 나누느냐에 따라서 엔트로피 지수가 달라지는데 그 영역은 어떻게 나누어지는가?
A. 분할은 하이퍼파라미터로 정할 수는 있지만, 사람이 개입하는것보단 모형 학습 자체로 분할되는 것

❓ 질문 7

Q. 의사결정나무는 노이즈가 발생해도 중단되거나 엉뚱한 결과를 보여주지 않는다고 설명했는데, 이상치 판단에서는 어떠한가?
A. 의사결정나무는 비정상 잡음 데이터에 민감함 없이 분류하기 때문에 이상치에도 민감하지 않다.

❓ 질문 8

Q. 코드 최종 결과 설명 부탁, 트리 모형에서 색깔의 의미가 있는가

A. 색깔 = 클래스 ex) 보라색은 버지니카
색깔 진하기 = 지니지수, 정확도
진할수록 지니계수가 더 작다. 즉, 순수도가 높다

❓ 질문 9

Q. 재귀적 분할 알고리즘이란?
A. 모든 데이터 두 집합으로 나눈 후, 서로 다른 질문이 들어가고 반복해서 동질성 평가를 진행하는 알고리즘이다. 나뉘어진 하위 영역에서 계속해서 분할을 진행하다가 더 이상 하위 영역에서 동질성이 개선되지 않는다면 알고리즘을 종료한다.
쉽게 말해 같은 작업을 반복해 분리를 계속해나가는 학습 과정이라고 생각하자.

❓ 질문 10

Q. 학습 데이터에 의존하여 새로운 데이터에 대한 예측이 정확하지 않다는 말은 무슨 뜻인가?
A. 데이터 수가 적을 경우에 학습 데이터에 대해 과하게 학습하면 과적합이 발생해 실제 데이터에 대한 오차가 증가하여 예측력이 떨어진다. 이를 해결하려면 검증 데이터로 교차 타당성 평가를 진행해야 한다.

📌 교차 검증 (Cross validation)

데이터를 분할하여 일부는 분석 모형 학습에 사용하고, 나머지는 모델의 검증에 사용하는 검증 방법을 여러 차례 반복 수행하는 방식이다. 분석 모형이 새로운 데이터에 대해 일반화된 성능을 보일 수 있는지 확인한다. 종류에는 k-fold 교차 검증, 홀드아웃, 리브-p-아웃 교차 검증이 있다.

0개의 댓글