[AI 논문 요약/정리]Efficient Methods for Natural Language Processing: A Survey(효율적인 자연어 처리 방법: 조사 연구)

ChoHyerin·2025년 11월 14일

AI NLP 논문요약

AI 논문요약

목록 보기

1/1

1.개요(Instroduction)

배경 및 동기

최근 NLP 연구는 모델 파라미터와 훈련 데이터의 규모 확장(Scaling)을 통해 뛰어난 성능을 달성

→ 데이터, 시간, 저장 공간, 에너지 등의 자원 소비↑

이러한 한계를 극복하고 리소스가 제한된 환경에서도 연구 성과에 접근 가능하도록 하기 위해, 더 적은 자원으로 유사한 결과를 얻는 효율적인 방법(efficient methods)에 대한 연구가 활발해지고 있습니다.

효율성의 정의

: 효율성은 시스템에 투입되는 자원과 그 출력 간의 관계로 특징지어지고 더 효율적인 시스템은 더 적은 자원으로 동일한 출력을 생성합니다.

논문의 범위

효율적인 NLP 방법을 체계적으로 정리
리소스가 제한된 환경에서 NLP를 수행하는 연구자 와 효율적인 방법의 발전에 관심 있는 연구자 에게 지침을 제공하는 것을 목표

순서: 데이터 효율성 (2) → 모델 설계 (3) → 사전 학습 (4) → 미세 조정 (5) → 추론 및 압축 (6) → 하드웨어 활용 (7) → 효율성 평가 (8) → 모델 선택 (9)

2. 데이터 (Data)

데이터 효율성: 더 적은 훈련 인스턴스를 사용||사용 가능한 인스턴스를 더 잘 활용함 → 향상

2.1 필터링 (Filtering)

: 데이터 품질을 향상시켜 사전 학습 및 미세 조정 중 훈련 비용 감소

중복 제거 (De-duplication)

: 사전 학습 데이터에서 중복을 제거하면 훈련 효율성이 증가 → 컴퓨팅 비용↓
(예: OPT에서 MinhashLSH 사용)

적대적 필터링 (Adversarial filtering)

: 미세 조정에서도 작은 데이터셋으로 전체 데이터셋과 비슷한 성능 얻을 수 있음. (예: SNLI 데이터의 $\sim 2%$ 만 사용).

2.2 능동 학습 (Active Learning)

: 데이터 수집 단계에서 가장 유용한 인스턴스만 주석을 달아 훈련 인스턴스의 수를 줄이는 것을 목표로 함.

유용성 평가 기준

: 모델 불확실성 (가장 불확실한 인스턴스에 레이블링) , 인스턴스 대표성 (다양성 극대화) , 이 둘 포함한 평가

도전 과제

: 모델 기반 샘플링이 다른 아키텍처 모델 성능에 미치는 영향 불분명 , '어려운' 인스턴스 선택 시 주석 비용 증가 , 선택 편향 및 이상치 선호 위험.

2.3 커리큘럼 학습 (Curriculum Learning)

: 목표 성능 달성에 필요한 훈련 단계 수를 줄이는 데이터 순서를 찾는 것을 목표로 함.

방법: 인스턴스를 난이도 순서로 정렬 (예: 문장 길이 사용).

적응형 전략

: 현재 모델 상태에 기반하여 속도를 조절하는 자기 주도 학습(self-paced learning) (예: MT에서 모델 및 데이터 불확실성 사용)

도전 과제

: 난이도 진행 속도를 신중하게 선택해야 함 , 자기 주도 학습은 높은 훈련 비용 발생.

3. 모델 설계 (Model Design)

효율적인 모델 설계는 아키텍처 변경과 훈련 가속화를 위한 새로운 모듈 추가를 포함.

3.1 트랜스포머의 어텐션 개선 (Improving Attention in Transformers)

: 트랜스포머의 자기-어텐션 메커니즘은 시퀀스 길이에 대해 2차(Quadratic) 의존성을 가지므로, 이를 줄이는 방법을 연구함.

*2차 의존성 - 한 변수의 변화가 다른 변수에 제곱에 비례하여 영향을 미치는 관계

장거리 시퀀스 처리

: 순환(recurrence)을 통한 세그먼트 연결 (Transformer-XL) , 압축된 장기 메모리 학습 (Compressive Transformers) , 고정된 어텐션 패턴 (Longformer, Big Bird) , 저랭크 근사(low-rank approximations)를 통한 선형 시간 어텐션 (Performer)

대안 아키텍처

: S4 및 Mega와 같은 상태 공간 표현(state space representations) 기반 모델은 셀프-어텐션의 2차 병목 현상을 완화하고 긴 시퀀스에서 트랜스포머 기반 방법을 능가합니다.

자기-어텐션 - 자기 자신을 취한다
어텐션 메커니즘 - 딥 러닝 모델이 입력 데이터에서 가장 관련성이 높은 부분에 우선순위를 부여(또는 주의)하도록 지시하는 머신 러닝 기법

3.2 희소 모델링 (Sparse Modeling)

: 계산을 전체 모델 대신 작은 서브네트워크로 라우팅하는 전문가 혼합(Mixture-of-Experts, MoE) 개념을 활용합니다.

예: Switch Transformer.

장점: 여러 NLP 태스크에서 강력한 성능을 달성하면서 전체 자원 소비를 줄입니다 (예: GLaM은 GPT-3 에너지 소비의 ∼ 1/3 , DeepSpeed-MoE는 훈련 비용 5배 감소).

도전 과제: 훈련 불안정성, 아키텍처별 구현 필요.

3.3 파라미터 효율성 (Parameter Efficiency)

: 파라미터 수를 줄여 계산 비용과 메모리 사용량을 감소함

가중치 공유

: 모델 레이어 간에 가중치를 공유함 (ALBERT, Universal Transformers)

잠재 벡터 매핑

: Perceiver는 입력을 작은 잠재 벡터로 매핑하여 자기-어텐션의 계산 비용을 최소화함

3.4 검색 증강 모델 (Retrieval-Augmented Models)

: 파라미터 모델을 검색 메커니즘과 결합하여 텍스트를 생성하는 준파라미터 모델

작동 방식

: 모델 크기를 데이터베이스 항목 수와 교환하며 , 추론 시 데이터베이스에서 토큰/구문/문장을 검색하여 모델이 활용함

예: RETRO는 25배 큰 모델과 비슷한 성능을 달성하며 , 도메인별 미세 조정의 필요성을 줄임

도전 과제

: 검색 시간이 데이터 저장소 규모에 따라 증가할 수 있음.

4. 사전 학습 (Pre-training)

사전 학습 절차를 개선하면 하이퍼파라미터 튜닝 비용을 크게 줄이고 미세 조정의 데이터 효율성을 높일 수 있습니다.

4.1 최적화 목표 (Optimization Objective)

Causal Language Modeling (CLM)1
: GPT, PaLM 등 (다음 토큰 예측)
Masked Language Model (MLM)
: BERT 등 (랜덤 마스킹된 토큰 채우기)
Replaced Token Detection (RTD)
: ELECTRA 등 (작은 생성 모델이 대체한 토큰 감지)
Denoising Sequence-to-Sequence
: T5, BART 등 (마스킹된 위치에 대한 토큰 스팬 예측, 인코더-디코더 모델 사전 학습). 훈련 시퀀스 길이를 줄여 훈련 비용 절감에 도움.

4.2 사전 학습 고려 사항

모델 크기와 데이터의 균형

: Chinchilla의 연구에 따르면, 사용 가능한 데이터의 양을 고려하여 모델 크기를 줄이는 것이 성능 향상 및 계산 비용 감소

효율적인 모델링 방법

: 트랜스포머 대신 상태 공간 표현 및 MoE가 사전 학습의 일부 과제를 극복할 잠재력 있음.

5. 미세 조정 (Fine-tuning)

미세 조정은 사전 학습된 모델을 새로운 다운스트림 작업에 맞게 조정하는 과정

5.1 파라미터 효율적인 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT)

: 전체 모델 미세 조정보다 훨씬 적은 수의 파라미터만 업데이트하거나 추가

어댑터 (Adapters)

: 사전 학습된 모델에 새로운 학습 가능한 밀집 레이어를 삽입하고, 기존 파라미터는 고정.
단점 - 파라미터 증가로 인해 추론 시간이 늘어날 수 있음.

활성화 수정

: 학습된 벡터를 연결(Prefix-tuning, Prompt-tuning)하거나 곱하거나 더하여 활성화를 직접 수정

희소/저랭크 업데이트

: 새로운 파라미터를 추가하지 않고 희소 업데이트 (Diff Pruning) 또는 저랭크 업데이트 (LoRA)를 수행

5.2 다중 작업 및 제로샷 학습 (Multi-Task and Zero-Shot Learning)

다중 작업 학습

: 단일 모델을 여러 다운스트림 작업 데이터로 미세 조정하여 다양한 작업을 수행할 수 있도록 함.

제로샷 일반화

: 모델이 미세 조정 없이 새로운 작업에서 작동하는 것을 의미하며, 모델 크기에 따라 경쟁력이 생김.

5.3 프롬프팅 (Prompting)

: 작업을 언어 모델에 대한 텍스트 지침으로 구성하는 것을 말하며, 미세 조정의 필요성을 없앨 수 있음.

5.4 미세 조정 고려 사항

: PEFT 방법을 결합하거나, 작업별 어댑터를 사용하여 프롬프트 생성을 피하는 등의 접근 방식이 효율적인 새로운 지식 도입을 위한 유망한 방향.

6. 추론 및 압축 (Inference and Compression)

추론 효율성은 시간 효율성(지연 시간)을 위해 프로세스를 가속화하거나 메모리 요구 사항을 줄이기 위해 모델을 압축함으로써 향상될 수 있습니다.

6.1 가지치기 (Pruning)

: 계산을 줄이고 메모리 용량 요구 사항을 낮추기 위해 신경망에서 불필요한 가중치를 제거합니다.

종류

개별 가중치 수준의 비구조적 가지치기(unstructured pruning)
더 큰 구성 요소(예: 어텐션 헤드, 레이어)를 제거하는 구조적 가지치기(structured pruning).
→ 구조적 가지치기는 추론 속도 개선에 더 큰 향상을 가져옵니다.

6.2 지식 증류 (Knowledge Distillation)

: 대규모(교사) 모델의 지도 신호를 사용하여 더 작은(학생) 모델을 훈련시키는 과정입니다.

예: TinyBERT, MobileBERT.

6.3 양자화 (Quantization)

: 고정밀 데이터 유형을 저정밀 데이터 유형으로 매핑하여 메모리 소비와 훈련/추론 비용을 줄입니다.

→ 8bit, 3진법,2진 표현까지 연구

혼합 정밀도 양자화 (Mixed-precision quantization)

: 구성 요소별로 다른 정밀도 민감도를 고려하여 적용합니다.

6.4 추론 고려 사항

동적 계산 (Dynamic computation)

: 입력에 필요한 부분에만 선택적으로 계산을 수행하여 효율성을 개선합니다. (예: early-exit, MoE)

최적화의 맥락 의존성

: 추론 최적화는 사용 사례에 따라 요구 사항이 다르므로, 단일 최적화 솔루션은 없습니다.

7. 하드웨어 활용 (Hardware Utilization)

주로 GPU 메모리 소비를 줄이는 데 중점을 둡니다.

7.1 옵티마이저 메모리 감소

DeepSpeed 라이브러리는 그래디언트 기록을 GPU에서 CPU RAM으로 오프로드합니다.
bitsandbytes는 블록별 양자화를 사용하여 메모리 압력을 줄입니다.

7.2 특수 하드웨어 (Specialized Hardware)

: ASIC 또는 FPGA를 사용하여 양자화 및 가지치기와 같은 효율적인 작업을 위한 전용 유닛을 구축합니다.

7.3 공동 설계 (Co-design)

: 하드웨어, 소프트웨어, 알고리즘을 함께 최적화하여 효율성 향상을 실현합니다. (예: 컴파일러 개선, 하드웨어 인식 MoE)

7.4 엣지 디바이스 (Edge Devices)

: 엄격한 컴퓨팅 및 메모리 제약이 있는 엣지 디바이스를 위한 솔루션입니다. (예: SqueezeBERT, GhostBERT, ProFormer)

8. 효율성 평가 (Evaluating Efficiency)

효율성을 평가하려면 최소화하려는 계산 측면을 설정해야 합니다.

8.1 평가 측정 기준

파레토 최적성 (Pareto Optimality)

: 작업 성능과 자원 소비 간의 절충점을 특성화하는 데 사용되며, 주어진 문제와 측정 공간에서 파레토 최적 곡선에 기여하는 모델은 가치가 있습니다.

FLOP/s (Floating Point Operations per second)

: 하드웨어가 수행하는 작업 측면에서 잘 정의된 것처럼 보이지만, 하드웨어별 변동성, 비-부동 소수점 작업 미고려, 낮은 하드웨어 활용률 등으로 불확실성이 있습니다.

전력 소비 (Power Consumption)

: 전기 계량기 또는 MLCO2와 같은 소프트웨어 도구를 사용하여 측정할 수 있으며, 냉각 및 네트워킹과 같은 외부 에너지 비용은 포함하지 않습니다.

탄소 배출량 (Carbon Emissions)

: 전력 소비와 한계 에너지 생성의 탄소 집약도를 사용하여 계산됩니다.

8.2 효율성 측정의 도전 과제

단계 분리

: 사전 학습 및 미세 조정 단계의 효율성을 분리하여 특성화하는 것이 중요합니다.

비용 요인 간의 불일치

: MoE는 파라미터 수를 늘리지만 FLOPs는 줄이는 등, 비용 지표들이 서로 상충될 수 있습니다.

다른 요구 사항과의 절충

: 효율성 개선은 공정성(fairness)과 견고성(robustness)과 같은 다른 요구 사항과 상충될 수 있습니다. (예: 압축 기술이 기존 편향을 증폭시킬 수 있음)

9. 모델 선택 (Model Selection)

성능이 좋은 모델 변형을 효율적으로 선택하는 연구를 다룹니다.

9.1 하이퍼파라미터 검색 (Hyperparameter Search)

모델 기반 기술
: 베이지안 최적화(BO)
병렬 기술
: 연속적 절반 감소(SHA) 및 비동기 SHA(ASHA)는 여러 설정을 테스트하고 성능이 나쁜 설정을 제거합니다.

9.2 하이퍼파라미터 전이 (Hyperparameter Transfer)

: 최적의 하이퍼파라미터 설정을 찾기 위한 시도 횟수를 최소화하기 위해 다른 데이터셋이나 작업의 지식을 전이합니다.

10. 결론 (Conclusion)

주요 성과

: 대부분의 발전은 특정 계산 예산 및 하드웨어 패러다임을 목표로 하는 모델 설계에서 이루어졌습니다.

남은 도전 과제

: 엔드-투-엔드 작업 성능과 자원 소비 간의 절충점을 더 잘 이해하고 모델링하는 것, 그리고 하드웨어 선택과 소프트웨어 구현 간의 의존성을 해결하는 것이 포함됩니다.

효율성의 다면성

: NLP의 효율성은 여러 정의를 가지며 단일 메트릭으로 측정될 수 없습니다.

향후 방향

: 사용 가능한 데이터의 더 나은 활용, 대규모 모델의 사전 학습 및 미세 조정 비용 절감, 알고리즘-소프트웨어-하드웨어 간 상호 작용의 중요성 우선순위 지정 등이 유망한 연구 방향으로 제시됩니다.

ChoHyerin

[AI 논문 요약/정리]Efficient Methods for Natural Language Processing: A Survey(효율적인 자연어 처리 방법: 조사 연구)

AI 논문요약

1.개요(Instroduction)

배경 및 동기

효율성의 정의

논문의 범위

2. 데이터 (Data)

2.1 필터링 (Filtering)

중복 제거 (De-duplication)

적대적 필터링 (Adversarial filtering)

2.2 능동 학습 (Active Learning)

유용성 평가 기준

도전 과제

2.3 커리큘럼 학습 (Curriculum Learning)

적응형 전략

도전 과제

3. 모델 설계 (Model Design)

3.1 트랜스포머의 어텐션 개선 (Improving Attention in Transformers)

장거리 시퀀스 처리

대안 아키텍처

3.2 희소 모델링 (Sparse Modeling)

3.3 파라미터 효율성 (Parameter Efficiency)

가중치 공유

잠재 벡터 매핑

3.4 검색 증강 모델 (Retrieval-Augmented Models)

작동 방식

도전 과제

4. 사전 학습 (Pre-training)

4.1 최적화 목표 (Optimization Objective)

4.2 사전 학습 고려 사항

모델 크기와 데이터의 균형

효율적인 모델링 방법

5. 미세 조정 (Fine-tuning)

5.1 파라미터 효율적인 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT)

어댑터 (Adapters)

활성화 수정

희소/저랭크 업데이트

5.2 다중 작업 및 제로샷 학습 (Multi-Task and Zero-Shot Learning)

다중 작업 학습

제로샷 일반화

5.3 프롬프팅 (Prompting)

5.4 미세 조정 고려 사항

6. 추론 및 압축 (Inference and Compression)

6.1 가지치기 (Pruning)

종류

6.2 지식 증류 (Knowledge Distillation)

6.3 양자화 (Quantization)

혼합 정밀도 양자화 (Mixed-precision quantization)

6.4 추론 고려 사항

동적 계산 (Dynamic computation)

최적화의 맥락 의존성

7. 하드웨어 활용 (Hardware Utilization)

7.1 옵티마이저 메모리 감소

7.2 특수 하드웨어 (Specialized Hardware)

7.3 공동 설계 (Co-design)

7.4 엣지 디바이스 (Edge Devices)

8. 효율성 평가 (Evaluating Efficiency)

8.1 평가 측정 기준

파레토 최적성 (Pareto Optimality)

FLOP/s (Floating Point Operations per second)

전력 소비 (Power Consumption)

탄소 배출량 (Carbon Emissions)

8.2 효율성 측정의 도전 과제

단계 분리

비용 요인 간의 불일치

다른 요구 사항과의 절충

9. 모델 선택 (Model Selection)

9.1 하이퍼파라미터 검색 (Hyperparameter Search)

9.2 하이퍼파라미터 전이 (Hyperparameter Transfer)

10. 결론 (Conclusion)

주요 성과

남은 도전 과제

효율성의 다면성

향후 방향

0개의 댓글