REP: Resource-Efficient Prompting for On-device Continual Learning
https://arxiv.org/pdf/2406.04772
Sungho Jeon[1], Xinyue Ma[1], Kwang In Kim[2], Myeongjae Jeon[1],
[1]UNIST [2]POSTECH

디바이스 환경에서의 지속 학습은 개인정보 보호와 로컬 학습의 필요성으로 인해 중요성이 점점 증가하고 있다. 하지만 기존의 지속 학습 방법들은 자원이 제한된 모바일 및 엣지 디바이스에서 효과적으로 작동하기 어렵다고 한다. 이는 높은 계산 비용, 과도한 메모리 요구량, 그리고 망각(catastrophic forgetting)의 문제로 인해 발생한다고 한다.
본 논문에서는 이러한 문제를 해결하기 위해 Resource-Efficient-Prompting (REP)이라는 새로운 방법론을 제안한다.
REP는 사전 학습된 모델 파라미터를 고정하고, 소량의 작업별 프롬프트만 학습함으로써, 리허설 없이도 지속 학습을 수행한다. 특히, 논문의 저자들은 효율성을 향상시키기 위해 두 가지 알고리즘을 사용한다.
- 적응형 토큰 병합(AToM): 데이터 차원에서 불필요한 계산을 줄이는 방법.
- 적응형 레이어 드랍(ALD): 모델 레이어 차원에서 계산을 선택적으로 건너뛰는 방법.
이를 통해 REP는 계산 비용과 메모리 요구를 크게 줄이면서 작업별 특징을 효과적으로 유지한다고 한다.
본 논문의 저자들은 다양한 크기의 비전 트랜스포머인(ViT), (ViT-Ti)을 활용하여 세 가지 주요 이미지 분류 데이터셋에서 광범위한 실험을 수행했다.
그 결과, REP는 기존 지속 학습 방법론보다 높은 효율성과 성능을 달성했음을 입증했다.
Introduce
-
문제:
- On-device Continual Learning(CL)은 개인정보 보호와 네트워크 독립성을 위해 중요하지만, 망각, 높은 계산량, 메모리 소모 등의 문제로 자원 제한적인 디바이스 환경에서 적용하기 어렵다고 한다.
-
기존 방법의 한계:
- 리허설 기반: 방법은 데이터 저장 공간과 프라이버시 문제를 유발.
- 모델 확장: 방식은 학습 시 모델 크기가 증가해 디바이스 자원 요구량이 커짐.
-
제안 방법: REP
- 프롬프트(Prompt)학습을 통해 모델 파라미터를 고정하고 자원 사용량을 줄이면서도 지속 학습을 지원.
- 적응형 토큰 방법(AToM)와 적응형 레이어 드랍(ALD)을 활용해 계산 효율성을 극대화.
-
결과
- REP는 이미지 분류 실험에서 높은 성능과 자원 효율성을 보여주었다.
- 자원 제약이 큰 모바일/엣지 환경에서도 효과적인 CL을 가능하게 하는 새로운 접근법을 제시한다.
1. Continual Learning(CL) 방법론
-
(1) Rehearsal-based 방법
- 이전 데이터를 저장하고 반복적으로 학습하여 망각(catastrophic forgetting)문제를 완화.
- 기법:
- Replay Buffers: 이전 데이터를 샘플링하여 재학습.
- Generative Replay: 생성 모델을 사용해 이전 데이터를 생성하여 학습.
- 한계:
- 데이터 저장 및 반복 학습으로 인해 메모리 및 계산 비용이 크다.
- 개인정보 보호 문제
-
(2) 파라미터 기반 방법
-
(3) 프롬프트 기반 접근법
- 비교적 새로운 접근으로, 모델 파라미터는 고정하고, 입력 데이터에 대한 작업별 Prompt만 학습
- 장점:
- 자원 소모가 적고 확장성이 뛰어남.
- 이전 데이터의 정보를 유지하면서 새로운 작업에 적응 가능.
On-device Learning 및 자원 제한 문제
- 모바일 디바이스 및 엣지 환경에서는 자원제한 문제가 지속 학습의 주요 장애물.
- 기존 연구들은 자원 제한 환경에서 효율적으로 동작하도록 경량화 모델 설계에 집중
- Tiny Machine Learning(Tiny ML): 초경량화 모델로 온디바이스 학습을 지원.
- Edge AI: 엣지 디바이스에서의 모델 추론 및 학습 최적화.
ViT의 지속 학습
- 최근 트랜스포머 기반 모델이 CL에 적용되며 성능이 향상.
- ViT는 자원 효율적 설계와 높은 성능으로 On-device 학습에서 유망한 후보.
- 토큰 기반 입력 처리 방식이 프롬프트 학습과 잘 맞아떨어진다.
차별성
- 기존 CL 기법들과 달리, 리허설 없는(Rehearsal-free)방식으로 자원을 절약.
- REP는:
- 프롬프트 기반 접근법을 활용하여 On-device 환경에 적합.
- 새로운 알고리즘(AToM, ALD)을 도입해 계산 및 메모리 사용을 최소화.
- ViT 모델을 최적화하여 지속 학습 환경에서의 성능과 효율성을 모두 보장.
Results and Findings
실험설정
-
데이터셋:
- CIFAR-100
- ImageNet-Subset
- Stream51
-
Model:
- ImaeNet pre-trained models as backbones: ViT-L, ViT-B, ViT-Ti
- 모델 크기와 데이터 분포에 따른 REP 성능을 평가
-
평가지표:
- Average Accuracy
- Forgetting Measure
- 자원 소모: FLOPs 및 메모리 사용량.
주요 결과
(1) 정확도 측면
-
REP는 기존 지속 학습 방법론(리허설 기반, 파라미터 기반)과 비교하여 높은 평균 정확도를 달성.
-
자원 제한 환경에서도 기존 방법론 대비 비슷하거나 더 나은 성능을 보임.
(2) 망각 문제 완화
-
REP는 리허설 없이도 망각 문제를 효과적으로 완화.
-
이전 작업의 정보 손실이 기존 방법론에 비해 크게 감소.
(3) 자원 효율성
- 계산량과 메모리 사용량에서 REP가 기존 방법론보다 상당히 효율적.
- AToM과 ALD 기법이 자원 소모를 줄이는데 기여.
- ViT 구조와 REP 프롬프트 기반 접근법이 효율성을 강화.
주요 발견
(1) 리허설 없는 지속 학습의 가능성:
- REP는 기존 리허설 기반 접근법 없이도 지속 학습에서 높은 성능을 유지.
(2) 자원 제약 환경에서의 적합성:
- REP는 계산량과 메모리 사용량을 대폭 줄여 모바일 및 엣지 환경에서도 지속 학습이 가능하도록 함.
(3) 프롬프트 기반 접근법의 효과:
- 프롬프트 학습을 통해 기존 모델 파라미터를 고정하면서 새로운 데이터에 적응 가능.
- 이는 기존 CL 방법론과 차별화되는 핵심 기여.
REP: Resource-Efficient Prompting
1. REP의 주요 개념
(1) 프롬프트 학습
- 모델의 기존 파라미터를 고정한 상태에서 작업별로 Prompt만 학습.
- Prompt는 각 작업(task)의 정보를 저장하고, 새로운 작업에 적응하도록 지원.
- 장점:
- 모델 파라미터를 변경하지 않으므로, 이전 작업의 정보를 유지(cross-task interference 방지)
- 메모리와 계산 자원을 절약.
(2) 리허설 없는 접근:
- 이전 데이터를 저장하거나 생성하지 않고 학습.
- 기존의 리허설 기반 접근법에서 발생하는 데이터 프라이버시 문제와 메모리 부담을 해소
REP의 구성요소
(1) 적응형 토큰 병합(AToM)
- 입력 데이터(이미지)의 중요도가 낮은 토큰을 병합하여 토큰 수를 줄임.
- 이를 통해 계산량과 메모리 사용을 줄이면서도 중요한 정보를 유지.
- 효과:
- 토큰처리 비용 감소.
- 작업별 특징을 효율적으로 학습.
(2) 적응형 레이어 드랍핑(ALD)
- 모델의 특정 레이어를 선택적으로 스킵하여 계산 비용을 줄임.
- 각 작업의 특성에 따라 필요 없는 레이어를 비활성화.
- 효과:
- 불필요한 계산을 제거.
- 모델의 유연성과 자원 효율성을 동시에 개선.
REP의 작동 원리
(1) 초기화:
- 사전 학습된 ViT 모델 사용.
- 모델의 주요 파라미터는 고정, 작업별 Prompt만 학습.
(2) Prompt 학습:
- 각 작업에 대해 별도의 Prompt를 생성하고 학습.
- Prompt는 입력 데이터의 특성과 작업 요구 사항을 반영.
(3) Prompt 적용:
- 새로운 데이터가 들어오면, 해당 작업에 맞는 Prompt를 활성화하여 학습 및 추론 수행.
(4) 효율성 강화:
- AToM을 통해 불필요한 토큰 병합.
- ALD를 통해 비필수 레이어 제거로 계산량 절감.
REP의 효과
- 성능: 다양한 이미지 분류 데이터셋에서 높은 정확도와 낮은 망각률을 보임.
- 자원 절약: 계산량과 메모리 사용에서 기존 방법보다 효율적.
- 적응성: AToM과 ALD를 통해 작업별 최적화를 실현.