Data Attribution 방법론
1. InfluenceFunction: Leave-one-out 기반 방법론
2. DataShapley: Shapley 이론에 근거한 방법론
3. DVRL: 강화학습 기반의 방법론
4. Data-OOB: Out-of-bag 기반 방법론
1. Influence Function: Leave-one-out 기반 방법론
Influence Function은 Leave-one-out (LOO)의 확장된 개념으로, 데이터 포인트 하나를 제거했을 때 모델 파라미터에 미치는 영향을 Hessian 행렬을 사용하여 근사적으로 계산하는 방법입니다. 이는 일일이 모든 데이터 포인트를 제외하고 재학습하지 않아도, 효율적으로 특정 데이터 포인트가 모델에 미치는 영향을 추정할 수 있습니다.
-
Leave-one-out (LOO):
- Leave-one-out은 특정 데이터 포인트 ( i )를 모델에서 제거하고 모델 성능이 어떻게 변화하는지 평가하는 방법입니다. 이는 데이터 포인트가 모델 성능에 미치는 영향을 직접적으로 측정합니다.
- 수식:
ϕi=V(D)−V(D−{i}) 여기서 ( V(D) )는 전체 데이터로 학습한 모델의 성능, ( V(D - {i}) )는 데이터 포인트 ( i )를 제외하고 학습한 모델의 성능입니다.
-
Influence Function:
- Influence Function은 LOO와 유사한 방식으로, 특정 데이터 포인트가 모델 파라미터에 미치는 영향을 근사적으로 계산합니다. 그러나 모든 데이터 포인트를 일일이 제거하고 재학습하는 대신, Hessian 행렬을 사용해 데이터 포인트가 모델 파라미터에 미치는 영향을 추정합니다.
- Influence Function의 수식:
I(zi)≈−∇θL(zi,θ^)TH−1∇θL(z,θ^) 여기서 (∇θL(zi,θ^))는 데이터 포인트 (zi)에 대한 손실 함수의 그라디언트, ( H^{-1} )는 Hessian 행렬의 역행렬, 그리고 ( I(z_i) )는 특정 데이터 포인트가 모델 성능에 미치는 영향을 의미합니다.
-
특징:
- LOO는 하나의 데이터 포인트가 모델 성능에 미치는 영향을 직접적으로 측정하는 방법이고, Influence Function은 그라디언트와 Hessian 정보를 사용하여 재학습 없이 더 효율적으로 영향을 평가합니다.
-
장점:
- Influence Function은 재학습 과정 없이 데이터 포인트가 모델에 미치는 영향을 빠르고 효율적으로 평가할 수 있어, 큰 데이터셋에서도 사용하기 적합합니다.
-
단점:
- Hessian 행렬을 계산하는 것이 복잡할 수 있으며, 모델의 복잡성과 고차원 데이터에서는 계산 비용이 높아질 수 있습니다.
2. DataShapley: Shapley 이론에 근거한 방법론
DataShapley는 게임 이론의 Shapley 값을 기반으로 데이터 포인트의 기여도를 계산하는 방법입니다. Shapley 값은 협력 게임에서 각 참여자가 전체 이익에 얼마나 기여했는지를 공정하게 분배하는 방법을 제공하며, 이를 데이터 기여도 평가에 적용한 것입니다.
- Shapley 값: 모델 성능에 대한 데이터 포인트의 기여도를 계산하기 위해, 각 데이터 포인트를 다양한 순서로 추가하여 그 변화를 평균한 값입니다.
- 특징: 계산 비용이 크기 때문에 이를 효율적으로 계산하기 위한 근사 방법들이 많이 제안되고 있습니다.
- 장점: 공정한 기여도 분배를 보장하며, 이론적으로 강력한 방법입니다.
- 단점: 모든 데이터 조합을 고려하기 때문에 계산 복잡도가 매우 큽니다.
3. DVRL: 강화학습 기반의 방법론
DVRL (Data Valuation using Reinforcement Learning)은 강화학습을 이용하여 데이터 포인트의 가치를 평가하는 방법론입니다. DVRL은 정책 학습을 통해 훈련 데이터 중 중요한 데이터를 선택하고, 모델 성능을 개선할 수 있도록 데이터를 평가합니다.
- 강화학습: 에이전트가 환경과 상호작용하여 최적의 행동을 학습하는 과정에서, 데이터 포인트의 가치를 학습하는 데 적용됩니다.
- 특징: 모델 학습 과정에서 중요한 데이터 포인트를 선택하여 훈련 시간을 단축하거나 데이터 품질을 높일 수 있습니다.
- 장점: 강화학습을 통해 동적으로 데이터 가치를 학습할 수 있어, 복잡한 데이터셋에도 적용 가능합니다.
- 단점: 강화학습 알고리즘을 학습시키는 데 시간과 자원이 많이 소요될 수 있습니다.
4. Data-OOB: Out-of-bag 기반 방법론
Data-OOB (Out-of-Bag) 방법론은 랜덤 포레스트나 부스팅과 같은 앙상블 학습에서 Out-of-Bag(OOB) 데이터를 사용하여 데이터 포인트의 기여도를 측정하는 방법입니다. OOB 데이터는 훈련 중 일부 데이터가 배깅 과정에서 샘플링되지 않았을 때, 이를 평가에 사용하는 방식입니다.
- Out-of-Bag(OOB): 앙상블 학습 중 각 결정 트리에서 훈련에 사용되지 않은 데이터를 말하며, 이를 사용해 성능을 평가합니다.
- 특징: OOB 데이터는 별도의 검증 세트 없이도 모델의 성능을 평가할 수 있기 때문에 효율적입니다.
- 장점: 앙상블 학습 과정에서 추가적인 계산 없이 데이터 기여도 평가가 가능합니다.
- 단점: OOB 방식은 앙상블 모델에 특화되어 있어, 다른 모델에서는 적용하기 어렵습니다.