AI/ML/DL (23) - Ensemble learning

xsldihsl·2024년 5월 29일
0

AI/ML/DL

목록 보기
23/25

Contents

  1. Structured vs Semi-structured data
  2. Ensemble learning

1. Structured vs Semi-structured data

Structured data represents data in a flat table with rows and columns. In contrast, semi-structured data can contain hierarchies of nested information.

우리는 데이터를 정형화 여부에 따라 structured 와 semi-structured 로 나눌 수 있다. 전자는 DB, csv, 또는 Excel 과 같이 행과 열이 잘 구분되어 선형 회귀, 로지스틱 회귀, 결정트리 등에 사용되며 feature engineering (data preprocessing) 이 용이하다. 반면 후자는 텍스트, 오디오, 이미지, 그리고 영상 파일 등 특징을 찾는 표현학습을 수행한다.


2. Ensemble learning

특히 이번 글에서 소개하는 앙상블 학습은 structured data 에 대해 가장 뛰어난 성능을 내는 ML algorithms 중 하나이다. 앙상블이라는 뜻 그대로 여러 개의 모델을 합쳐 하나의 결과를 produce 하는데, 로지스틱 회귀 등 여러가지 모델을 앙상블 할 수 있으나 그 중 트리의 앙상블이 가장 효과적이다.

트리는 모든 노드가 pure 가 될 때까지 놔두면 굉장히 과대적합되므로 기본적으로 성능이 좋기 때문에 성능은 유지하되 과대적합을 줄일 수 있다면 테스트 세트에 대해서도 일반화가 뛰어난 모델을 생성할 수 있기 때문이다.

특히 sci-kit learn 의 sklearn.ensemble module 은 다양한 앙상블 알고리즘을 제공하는데, 다음 시간에 RandomForest, ExtraTree, GradientBoosting, 그리고 HistGradientBoosting 에 대해 좀 더 자세히 알아보자.


0개의 댓글