[NLP] CS224N 21강 정리 [Hugging Face Tutorial🤗]

김성윤(Jack)·2025년 9월 5일

NLP

목록 보기

23/35

강의 속 예제 코드 $\Rarr$ https://colab.research.google.com/drive/13r94i6Fh4oYf-eJRSi7S_y_cen5NYkBm#scrollTo=OTsW-Wwi-X81

1. Hugging Face 라이브러리 소개 및 기본 설정

라이브러리 소개

Hugging Face는 트랜스포머(Transformer) 기반의 최신 NLP 모델들을 아주 쉽고 효율적으로 사용할 수 있게 도와주는 라이브러리입니다.
특히 PyTorch와 완벽하게 호환되어, 모델의 학습 및 활용 과정을 매우 편리하게 만들어줍니다.
Hugging Face Hub에는 BERT, GPT 등 수많은 사전 훈련된(pre-trained) 모델들이 공유되고 있어, 원하는 작업을 위한 모델을 손쉽게 찾을 수 있습니다.

설치

Hugging Face 라이브러리를 사용하기 위해 필수적인 두 가지 패키지를 설치해야 합니다.
- transformers: 사전 훈련된 모델(BERT, GPT-2 등)과 토크나이저(Tokenizer)를 제공합니다.
- datasets: 모델 학습 및 평가에 필요한 다양한 데이터셋을 쉽게 불러올 수 있게 해줍니다.

!pip install transformers datasets

2. Hugging Face 모델 사용의 3단계

Hugging Face 라이브러리를 사용하여 특정 작업을 수행하는 과정은 크게 세 단계로 나눌 수 있습니다.

1단계: 원하는 모델 찾기

Hugging Face Hub는 다양한 모델들이 모여있는 거대한 저장소입니다.
Zero-shot Classification, Text Generation 등 특정 NLP 작업(Task)에 특화된 모델을 검색하여 찾을 수 있습니다.
강의에서는 예시로 distilbert-base-uncased-finetuned-sst-2-english 모델을 사용합니다.

2단계: 토크나이저 및 모델 로드

**토크나이저(Tokenizer)**는 우리가 입력하는 문장(raw text)을 모델이 이해할 수 있는 숫자 형태의 토큰(token)으로 변환하는 역할을 합니다.
**AutoTokenizer**를 사용하면, 특정 모델 이름(from_pretrained)만 지정해주면 해당 모델에 맞는 토크나이저를 자동으로 불러와 매우 편리합니다.
모델 역시 AutoModelForSequenceClassification 과 같은 클래스를 사용하여, 지정된 이름의 사전 훈련된 모델을 간단하게 로드할 수 있습니다.

from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

3단계: 입력 처리 및 예측 수행

로드된 토크나이저를 사용해 입력 문장을 토큰화하고, 이를 모델에 전달합니다.
모델은 입력된 토큰을 바탕으로 예측을 수행하고, 결과로 **로짓(logits)**을 출력합니다.
이 로짓값에 소프트맥스(Softmax) 함수를 적용하면 각 클래스(label)에 대한 확률을 얻을 수 있고, **argmax**를 통해 최종 예측 결과를 확인할 수 있습니다.

import torch

raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]

# 토크나이저로 문장 토큰화
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")

# 모델에 입력 전달하여 예측 수행
outputs = model(**inputs)
logits = outputs.logits

# 결과를 확률로 변환
predictions = torch.nn.functional.softmax(logits, dim=-1)
print(predictions)

# 가장 높은 확률을 가진 클래스(label) 확인
predicted_labels = torch.argmax(predictions, dim=1)
print(predicted_labels)

# label id를 실제 이름으로 변환
print([model.config.id2label[label_id] for label_id in predicted_labels.tolist()])

3. 토크나이저(Tokenizer) 심층 탐구

토크나이저는 모델의 입력을 전처리하는 핵심적인 요소입니다.

토크나이저의 역할

목적: 자연어 텍스트(문자열)를 모델이 처리할 수 있는 숫자 ID의 시퀀스로 변환합니다.
주요 기능:
- 문장을 단어 또는 서브워드(subword) 단위의 **토큰(token)**으로 분할합니다.
- 각 토큰을 고유한 **숫자 ID(input_ids)**로 매핑합니다.
- 모델이 실제 단어와 패딩(padding)을 구분할 수 있도록 **어텐션 마스크(attention_mask)**를 생성합니다.
- 모델의 종류에 따라 문장의 시작([CLS])이나 끝([SEP])을 알리는 특수 토큰을 추가합니다.

`AutoTokenizer`의 장점

모델마다 사용하는 토크나이저가 다르기 때문에, 이를 직접 관리하는 것은 번거로울 수 있습니다.
AutoTokenizer는 from_pretrained()에 모델 이름만 전달하면, 해당 모델에 맞는 토크나이저를 자동으로 찾아 로드해주므로 실수를 줄이고 편의성을 높여줍니다.
내부적으로는 Python 기반의 토크나이저와 Rust로 구현된 Fast Tokenizer가 있으며, 보통 더 빠른 Fast Tokenizer가 사용됩니다.

토크나이저 활용법

기본 사용: 토크나이저에 문장을 입력하면 input_ids와 attention_mask가 포함된 딕셔너리를 반환합니다.
주요 옵션:
- return_tensors='pt': 결과를 PyTorch 텐서 형태로 반환합니다.
- padding=True: 배치(batch) 내에서 문장 길이를 맞추기 위해 가장 긴 문장을 기준으로 나머지 문장 뒤에 패딩 토큰을 추가합니다.
- truncation=True: 모델이 처리할 수 있는 최대 길이를 초과하는 문장을 잘라냅니다.
디코딩: batch_decode 메소드를 사용하면, 모델의 입력(input_ids)을 다시 원래의 문자열로 복원할 수 있습니다. skip_special_tokens=True 옵션으로 특수 토큰을 제외하고 볼 수 있습니다.

# 토큰화 과정 확인
sequence = "Hugging Face Transformers is great!"
tokenized_output = tokenizer(sequence)
print(tokenized_output)
# {'input_ids': [101, 10372, 12111, 22558, 2003, 2307, 999, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}

# input_ids를 다시 토큰으로 변환
tokens = tokenizer.convert_ids_to_tokens(tokenized_output['input_ids'])
print(tokens)
# ['[CLS]', 'hugging', 'face', 'transformers', 'is', 'great', '!', '[SEP]']

# 디코딩
decoded_string = tokenizer.decode(tokenized_output['input_ids'], skip_special_tokens=True)
print(decoded_string)
# Hugging Face Transformers is great!

4. Hugging Face 모델(Model) 심층 탐구

모델 아키텍처의 종류

트랜스포머 모델은 크게 세 가지 아키텍처로 나뉩니다.
- 인코더(Encoder) 모델: 문장의 전체적인 의미를 이해하는 데 특화되어 있습니다. (예: BERT, RoBERTa). 문장 분류, 개체명 인식과 같은 과제에 주로 사용됩니다.
- 디코더(Decoder) 모델: 이전 단어들을 바탕으로 다음 단어를 예측하는 데 특화되어 있습니다. (예: GPT-2). 텍스트 생성 과제에 주로 사용됩니다.
- 인코더-디코더(Encoder-Decoder) 모델: 입력 문장의 의미를 이해하고(인코더), 이를 바탕으로 새로운 문장을 생성(디코더)합니다. (예: BART, T5). 번역, 요약 과제에 주로 사용됩니다.

`AutoModel`의 장점

AutoTokenizer와 마찬가지로, AutoModel 클래스를 사용하면 특정 작업에 맞는 모델 아키텍처를 자동으로 불러올 수 있어 편리합니다.
예를 들어, AutoModelForSequenceClassification은 문장 분류 작업에 맞는 인코더 모델의 헤드(head)가 추가된 형태로 모델을 로드합니다.

모델의 입력과 출력

입력 전달: 토크나이저가 반환한 딕셔너리는 ** (dictionary unpacking) 문법을 사용하여 model(**model_inputs)와 같이 간결하게 모델에 전달할 수 있습니다.
출력 분석:
- 모델은 일반적으로 **로짓(logits)**을 포함하는 객체를 출력합니다.
- 입력에 labels를 함께 전달하면, 모델이 자동으로 **손실(loss)**을 계산하여 출력에 포함시켜 줍니다. 이는 PyTorch의 학습 루프를 매우 간단하게 만들어줍니다.
- loss.backward()를 호출하여 역전파를 수행하고 모델의 가중치를 업데이트할 수 있습니다.

# labels를 함께 전달하여 loss 자동 계산하기
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
labels = torch.tensor([1, 0]) # Positive, Negative

outputs = model(**inputs, labels=labels)
print(f"Logits: {outputs.logits}")
print(f"Loss: {outputs.loss}") # loss가 함께 출력됨

# loss를 이용한 역전파
loss = outputs.loss
loss.backward()

모델 내부 들여다보기

모델을 로드할 때 output_attentions=True, output_hidden_states=True 인자를 설정하면, 모델의 각 레이어에서 계산된 **어텐션 가중치(attention weights)**와 **은닉 상태(hidden states)**를 출력으로 얻을 수 있습니다.
이는 모델이 문장의 어떤 부분에 집중하는지, 각 레이어를 거치며 정보가 어떻게 변환되는지를 분석하는 데 유용하며, 모델의 해석 가능성을 높여줍니다.

# 어텐션 가중치와 은닉 상태 출력하도록 모델 로드
model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint,
    output_attentions=True,
    output_hidden_states=True,
)

# 모델 실행
outputs = model(**inputs)

# 출력 확인 (매우 큰 텐서들이므로 shape만 확인)
print(f"첫 번째 은닉 상태의 shape: {outputs.hidden_states[0].shape}")
print(f"첫 번째 어텐션 가중치의 shape: {outputs.attentions[0].shape}")

심화: BERT와 GPT의 차이점

BERT (Bidirectional Encoder Representations from Transformers):
- 기술적 배경: 인코더 아키텍처를 사용하며, 문장의 양방향 문맥을 모두 고려하여 단어의 의미를 파악합니다. 마스크드 언어 모델(Masked Language Model, MLM) 방식을 통해 "나는 [MASK]에 가서 밥을 먹었다"와 같이 문장 중간의 빈칸을 맞추는 방식으로 학습됩니다.
- 최신 동향: BERT 이후로 문맥 이해 능력을 개선한 RoBERTa, ALBERT, ELECTRA 등 다양한 변형 모델이 등장했습니다.
- 한계점: 본질적으로 텍스트 생성(Generation) 작업에는 적합하지 않다는 명확한 한계가 있습니다.
GPT (Generative Pre-trained Transformer):
- 기술적 배경: 디코더 아키텍처를 사용하며, 문장의 왼쪽에서 오른쪽으로 이어지는 단방향 문맥만을 학습합니다. "나는 학교에 가서" 다음에 올 단어 "밥을"을 예측하는 방식으로 학습됩니다.
- 최신 동향: GPT-2, GPT-3를 거쳐 최근의 GPT-4에 이르기까지 모델의 크기를 키우고 대규모 데이터를 학습시켜 매우 뛰어난 텍스트 생성 및 대화 능력을 보여주고 있습니다.
- 한계점: 양방향 문맥을 고려하지 않기 때문에, 문장 전체의 미묘한 의미를 파악하는 일부 NLP 작업에서는 BERT 계열 모델보다 성능이 낮을 수 있습니다.

5. 모델 파인튜닝(Fine-tuning) 실전

사전 훈련된 모델을 특정 작업과 데이터셋에 맞게 추가로 학습시키는 과정을 파인튜닝이라고 합니다. 강의에서는 IMDb 영화 리뷰 데이터셋을 이용한 감성 분석을 예시로 설명합니다.

데이터 준비

datasets 라이브러리의 load_dataset 함수로 IMDb 데이터셋을 쉽게 불러옵니다.
map 함수와 토크나이저를 사용하여 전체 데이터셋을 한 번에 토큰화합니다. 이때 batched=True 옵션을 사용하면 처리 속도가 향상됩니다.
불필요한 컬럼은 제거하고, 모델이 인식할 수 있도록 label 컬럼의 이름을 labels로 변경합니다.
set_format('torch')를 통해 데이터셋을 PyTorch 텐서 형식으로 변환합니다.
torch.utils.data.DataLoader를 사용하여 훈련 및 검증용 데이터 로더를 생성합니다.

from datasets import load_dataset

# 1. 데이터셋 로드 (GLUE 벤치마크의 MRPC 데이터셋 예시)
raw_datasets = load_dataset("glue", "mrpc")

# 2. 토큰화 함수 정의
def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)

# 3. map 함수로 전체 데이터셋에 토큰화 적용
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

파인튜닝 방법 1: 수동 PyTorch 학습 루프

옵티마이저(AdamW)와 학습률 스케줄러(get_scheduler)를 transformers 라이브러리에서 직접 가져와 설정합니다.
일반적인 PyTorch 코드와 동일하게, 에폭(epoch)과 배치(batch)를 순회하는 학습 루프를 직접 구현하여 모델을 파인튜닝할 수 있습니다.

파인튜닝 방법 2: `Trainer` 클래스 활용

Hugging Face는 파인튜닝 과정을 매우 쉽게 만들어주는 Trainer API를 제공합니다.
TrainingArguments: 학습률, 배치 크기, 에폭 수, 로그 저장 경로 등 학습에 필요한 모든 설정을 정의하는 클래스입니다.
Trainer: 모델, 학습 설정, 데이터셋, 토크나이저, 그리고 성능 평가 함수(compute_metrics)를 인자로 받아 학습의 모든 과정을 자동으로 관리합니다.
trainer.train(): 이 한 줄의 코드로 파인튜닝을 시작할 수 있습니다.
trainer.predict(): 학습된 모델을 사용하여 예측을 수행합니다.
콜백(Callbacks): EarlyStoppingCallback과 같은 콜백을 추가하여, 검증 성능이 더 이상 개선되지 않을 때 학습을 조기 종료하는 등의 부가 기능을 쉽게 구현할 수 있습니다.

from transformers import TrainingArguments, Trainer

# 1. 학습에 필요한 인자(argument)들을 정의
training_args = TrainingArguments(
    output_dir="my_awesome_model",        # 결과물이 저장될 디렉토리
    evaluation_strategy="epoch",          # 매 epoch 마다 평가 진행
    num_train_epochs=3,                   # 총 학습 epoch
    per_device_train_batch_size=16,       # training용 batch size
    per_device_eval_batch_size=16,        # evaluation용 batch size
)

# 2. Trainer 객체 생성
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
)

# 3. 학습 시작
trainer.train()

모델 저장 및 로드

Trainer는 학습 과정에서 설정된 경로에 모델의 체크포인트(checkpoint)를 자동으로 저장합니다.
AutoModel.from_pretrained()에 이 체크포인트 경로를 전달하면, 파인튜닝된 모델을 나중에 다시 불러와 사용할 수 있습니다.

# 학습이 완료된 모델을 저장
trainer.save_model("my_final_model")

# 저장된 모델을 다시 로드하기
from transformers import AutoModelForSequenceClassification

loaded_model = AutoModelForSequenceClassification.from_pretrained("my_final_model")

김성윤(Jack)

AI 공부합니다

이전 포스트

[NLP] CS224N 20강 정리 [Model Interpretability & Editing]

다음 포스트

[NLP] CS224N 21강 정리 [Hugging Face Tutorial🤗]

NLP

1. Hugging Face 라이브러리 소개 및 기본 설정

라이브러리 소개

설치

2. Hugging Face 모델 사용의 3단계

1단계: 원하는 모델 찾기

2단계: 토크나이저 및 모델 로드

3단계: 입력 처리 및 예측 수행

3. 토크나이저(Tokenizer) 심층 탐구

토크나이저의 역할

`AutoTokenizer`의 장점

토크나이저 활용법

4. Hugging Face 모델(Model) 심층 탐구

모델 아키텍처의 종류

`AutoModel`의 장점

모델의 입력과 출력

모델 내부 들여다보기

심화: BERT와 GPT의 차이점

5. 모델 파인튜닝(Fine-tuning) 실전

데이터 준비

파인튜닝 방법 1: 수동 PyTorch 학습 루프

파인튜닝 방법 2: `Trainer` 클래스 활용

모델 저장 및 로드

[NLP] CS224N 20강 정리 [Model Interpretability & Editing]

[NLP] CS224N 22강 정리 [PyTorch Tutorial]

0개의 댓글

[NLP] CS224N 21강 정리 [Hugging Face Tutorial🤗]

NLP

1. Hugging Face 라이브러리 소개 및 기본 설정

라이브러리 소개

설치

2. Hugging Face 모델 사용의 3단계

1단계: 원하는 모델 찾기

2단계: 토크나이저 및 모델 로드

3단계: 입력 처리 및 예측 수행

3. 토크나이저(Tokenizer) 심층 탐구

토크나이저의 역할

AutoTokenizer의 장점

토크나이저 활용법

4. Hugging Face 모델(Model) 심층 탐구

모델 아키텍처의 종류

AutoModel의 장점

모델의 입력과 출력

모델 내부 들여다보기

심화: BERT와 GPT의 차이점

5. 모델 파인튜닝(Fine-tuning) 실전

데이터 준비

파인튜닝 방법 1: 수동 PyTorch 학습 루프

파인튜닝 방법 2: Trainer 클래스 활용

모델 저장 및 로드

[NLP] CS224N 20강 정리 [Model Interpretability & Editing]

[NLP] CS224N 22강 정리 [PyTorch Tutorial]

0개의 댓글

`AutoTokenizer`의 장점

`AutoModel`의 장점

파인튜닝 방법 2: `Trainer` 클래스 활용