LightGBM(Light Gradient Boosting Machine)

Ryu Jihoon·2024년 9월 23일

부스트캠프 AI Tech RecSys

목록 보기

14/27

LightGBM(Light Gradient Boosting Machine) 특징

1. Level-wise 성장 대신 Leaf-wise Tree Growth 사용

LightGBM은 Leaf-wise 성장 방식을 사용합니다.
즉, 트리에서 손실이 가장 큰 리프 노드를 먼저 확장하여 트리 성능을 극대화하려 합니다.
이는 모델의 정확도를 높이는 데 기여하지만, 과적합 위험이 있기 때문에 학습률을 조정하거나 트리 깊이를 제한하는 것이 필요합니다.

2. 더 빠른 학습 속도

LightGBM은 Histogram 기반 학습을 사용하여 학습 속도를 크게 향상시킵니다. 이는 연속형 데이터를 특정 구간으로 분할하여 각 구간에 히스토그램을 적용함으로써 연산을 단순화하는 방식입니다.
또한, GPU 가속을 지원하여 대규모 데이터셋에서 학습 속도를 더욱 높일 수 있습니다.

3. 저메모리 사용

LightGBM은 대용량 데이터에 대해 메모리 효율적입니다.
특히, Gradient-based One-Side Sampling (GOSS)와 같은 기법을 통해 중요한 데이터 포인트만 샘플링하여 전체 데이터 크기를 줄입니다.

4. 대규모 데이터셋에 적합

LightGBM은 수십만, 수백만 개의 데이터셋에서 매우 빠르고 효율적으로 작동합니다. GOSS와 EFB(Exclusive Feature Bundling) 등의 기술을 통해 대규모 데이터셋을 처리할 수 있도록 최적화되었습니다.

5. Categorical Feature Handling

LightGBM은 카테고리형 변수를 직접 처리할 수 있습니다. 이는 원-핫 인코딩과 같은 전처리를 필요로 하지 않으며, 모델 내에서 카테고리 데이터를 효율적으로 처리합니다.

6. 과적합 방지 기법

Leaf-wise 성장 방식으로 인해 과적합 위험이 있으므로, LightGBM은 학습률(learning rate), L2 정규화, 트리 깊이 제한(max_depth) 등 다양한 과적합 방지 기법을 제공합니다.

7. 병렬 학습 지원

LightGBM은 병렬 학습을 지원하여 대규모 데이터셋에서 더 빠른 학습을 가능하게 합니다.

8. 장점 요약

빠른 학습 속도: 트리 기반 알고리즘 중에서도 속도가 매우 빠름.
효율적인 메모리 사용: 대규모 데이터셋에서도 메모리를 적게 사용함.
높은 정확도: 복잡한 데이터에서도 성능이 뛰어남.
대규모 데이터셋에 적합: 데이터셋 크기가 커도 잘 처리함.

9. 단점

과적합 위험: Leaf-wise 성장 방식은 과적합의 위험이 있기 때문에 학습률이나 정규화, 가지치기 등의 과적합 방지 기법이 필수.
모델 해석성: Gradient Boosting 모델의 일반적인 단점인 해석이 어려움. 각 변수의 중요도를 이해하는 것이 어렵습니다.

LightGBM 사용 시 유용한 파라미터

learning_rate: 학습률을 조정하여 과적합을 방지하고 학습 성능을 최적화.
num_leaves: 트리의 리프 노드 수를 조정하여 모델의 복잡도를 제어.
max_depth: 트리의 깊이를 제한하여 과적합을 방지.
min_data_in_leaf: 각 리프에 필요한 최소한의 데이터 포인트 수를 설정하여 모델의 일반화 성능을 높임.
feature_fraction: 각 트리에서 사용하는 피처의 비율을 설정하여 과적합을 방지하고 학습 시간을 단축.

CSE Junior

이전 포스트

Level-wise Tree Growth VS Leaf-wise Tree Growth

다음 포스트

선형 회귀 정규화(Lasso, Ridge)

0개의 댓글