LightGBM(Light Gradient Boosting Machine)

Ryu Jihoon·2024년 9월 23일
post-thumbnail

LightGBM(Light Gradient Boosting Machine) 특징

1. Level-wise 성장 대신 Leaf-wise Tree Growth 사용

  • LightGBM은 Leaf-wise 성장 방식을 사용합니다.
  • 즉, 트리에서 손실이 가장 큰 리프 노드를 먼저 확장하여 트리 성능을 극대화하려 합니다.
  • 이는 모델의 정확도를 높이는 데 기여하지만, 과적합 위험이 있기 때문에 학습률을 조정하거나 트리 깊이를 제한하는 것이 필요합니다.

2. 더 빠른 학습 속도

  • LightGBM은 Histogram 기반 학습을 사용하여 학습 속도를 크게 향상시킵니다. 이는 연속형 데이터를 특정 구간으로 분할하여 각 구간에 히스토그램을 적용함으로써 연산을 단순화하는 방식입니다.
  • 또한, GPU 가속을 지원하여 대규모 데이터셋에서 학습 속도를 더욱 높일 수 있습니다.

3. 저메모리 사용

  • LightGBM은 대용량 데이터에 대해 메모리 효율적입니다.
  • 특히, Gradient-based One-Side Sampling (GOSS)와 같은 기법을 통해 중요한 데이터 포인트만 샘플링하여 전체 데이터 크기를 줄입니다.

4. 대규모 데이터셋에 적합

  • LightGBM은 수십만, 수백만 개의 데이터셋에서 매우 빠르고 효율적으로 작동합니다. GOSS와 EFB(Exclusive Feature Bundling) 등의 기술을 통해 대규모 데이터셋을 처리할 수 있도록 최적화되었습니다.

5. Categorical Feature Handling

  • LightGBM은 카테고리형 변수를 직접 처리할 수 있습니다. 이는 원-핫 인코딩과 같은 전처리를 필요로 하지 않으며, 모델 내에서 카테고리 데이터를 효율적으로 처리합니다.

6. 과적합 방지 기법

  • Leaf-wise 성장 방식으로 인해 과적합 위험이 있으므로, LightGBM은 학습률(learning rate), L2 정규화, 트리 깊이 제한(max_depth) 등 다양한 과적합 방지 기법을 제공합니다.

7. 병렬 학습 지원

  • LightGBM은 병렬 학습을 지원하여 대규모 데이터셋에서 더 빠른 학습을 가능하게 합니다.

8. 장점 요약

  • 빠른 학습 속도: 트리 기반 알고리즘 중에서도 속도가 매우 빠름.
  • 효율적인 메모리 사용: 대규모 데이터셋에서도 메모리를 적게 사용함.
  • 높은 정확도: 복잡한 데이터에서도 성능이 뛰어남.
  • 대규모 데이터셋에 적합: 데이터셋 크기가 커도 잘 처리함.

9. 단점

  • 과적합 위험: Leaf-wise 성장 방식은 과적합의 위험이 있기 때문에 학습률이나 정규화, 가지치기 등의 과적합 방지 기법이 필수.
  • 모델 해석성: Gradient Boosting 모델의 일반적인 단점인 해석이 어려움. 각 변수의 중요도를 이해하는 것이 어렵습니다.

LightGBM 사용 시 유용한 파라미터

  • learning_rate: 학습률을 조정하여 과적합을 방지하고 학습 성능을 최적화.
  • num_leaves: 트리의 리프 노드 수를 조정하여 모델의 복잡도를 제어.
  • max_depth: 트리의 깊이를 제한하여 과적합을 방지.
  • min_data_in_leaf: 각 리프에 필요한 최소한의 데이터 포인트 수를 설정하여 모델의 일반화 성능을 높임.
  • feature_fraction: 각 트리에서 사용하는 피처의 비율을 설정하여 과적합을 방지하고 학습 시간을 단축.
profile
CSE Junior

0개의 댓글