Intro to Machine Learning - 01. How Models Work

d2n0s4ur·2023년 1월 29일
0

📖 Tutorial


Introduction

우리는 기계학습 모델이 어떻게 동작하고 사용되는지에 대한 개요로 시작할 것입니다. 이전에 통계 모델링이나 기계 학습을 해본 적이 있다면 기본적으로 느껴질 수 있습니다. 걱정하지 마세요. 우리는 이제 곧 강력한 모델을 만들 것입니다.

이번 코스에서 여러분은 다음 시나리오를 따라 모델을 만들어야 합니다.

당신의 사촌은 부동산 투기로 수백만 달러를 벌었습니다. 그는 여러분이 데이터 과학에 관심이 있기 때문에, 당신과 사업 파트너를 제안했습니다. 그가 돈을 제공할 것이고 여러분은 다양한 집의 가치를 예측하는 모델을 공급하면 됩니다.

당신의 사촌에게 이전에 부동산 가치를 어떻게 예측했냐고 물었을 때, 그는 단지 직관이라고 말합니다. 그러나 더 많은 질문을 해봤을 때 과거의 집들에서 패턴을 찾았고, 그 패턴을 이용하여 그가 새로운 집들의 가치를 예측한다는 사실을 알았습니다.

기계 학습도 같은 방식으로 동작합니다. 우선 Decision Tree라고 하는 모델로 시작해보겠습니다. 더 정확한 예측을 제공하는 멋진 모형들이 있습니다. 그러나 Decision Tree는 이해하기 쉽고 데이터 과학에서 최고의 모델 중 일부를 위한 기본 구성 요소입니다.

단순함을 위하여, 가장 간단한 Decision Tree 부터 시작하겠습니다.

이는 집들을 단순히 두 개의 카테고리로 나눕니다. 고려 중인 모든 주책의 예상 가치는 동일한 카테고리의 과거 평균 가치에 의해 결정됩니다.

집들을 두 개의 그룹으로 분할하고, 각 그룹의 예상 가치를 정하기 위해서 데이터를 사용합니다. 이와 같이 데이터에서 패턴을 캡처하는 이 단계를 모델 fitting 또는 training 이라고 합니다. 모델 피팅을 위하여 사용되는 데이터를 training data 라고 합니다.

모델을 피팅하는 방법(예: 데이터 분할)에 대한 자세한 내용은 굉장히 복잡합니다. 모델이 피팅된 후 이를 새 데이터에 작용하면 추가적인 집(데이터)의 가치를 예측할 수 있습니다.


Improving the Decision Tree

아래 두 가지의 Decision Tree 중, 실제 부동산 학습 데이터를 적합시켰을 때 나올 결과로 가능성이 높은 것은 어떤 Tree 인가요?

왼쪽에 있는 의사결정 트리(Tree 1)는 침실이 더 많은 집이 더 적은 집보다 높은 가격에 팔리는 경향이 있는 현실을 반영하기 때문에 더 의미가 있을 것입니다. 이 모델의 가장 큰 단점은 욕실 개수, 대지 면적, 위치 등과 같은 주택 가격에 영향을 미치는 대부분의 요소를 적용시키지 못한다는 것입니다.

더 많은 "분할"을 통해서 더 많은 요인을 적용시킬 수 있습니다. 이는 "더 깊은" Tree 라고 불립니다. 각 주택의 대지 면적도 고려하는 Decision Tree는 다음과 같을 수 있습니다:

의사결정 트리에서 각 주택의 특성에 맞는 경로를 통해 해당 주택의 예상 가치를 예측할 수 있습니다. 각 주택의 예상 가치는 Tree의 아래에 존재합니다. 이렇게, Tree 최하단의 예측값을 leaf라고 합니다.

leaf 들을 나누는 기준과 값은 데이터에 의해 결정됩니다. 이제 작업할 데이터를 확인해봅시다.


💻 Data

kaggle kernels output dansbeker/how-models-work -p /path/to/dest

0개의 댓글