BERT Model과 Processor의 차이

Ann Jongmin·2025년 8월 25일

BERT

목록 보기
6/6
from transformers import WhisperProcessor, WhisperForConditionalGeneration
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

model_name = "openai/whisper-small"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperForConditionalGeneration.from_pretrained(model_name)
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="ko", task="transcribe")
model.config.suppress_tokens = []

위 코드에서 사전 학습된 BERT 모델(Model) 및 프로세서(Processor)는 Hugging Face Transformers 라이브러리를 이용해 사용한다.


Model과 Processor의 차이


1. 모델(Model)
모델은 실제로 학습하고 예측을 수행하는 '두뇌'

역할: 딥러닝 모델, 즉 신경망 그 자체

기능: 정제된 숫자 데이터(텐서)를 입력받아 연산을 수행한다. 예를 들면 오디오의 특징을 담고 있는 숫자 벡터를 입력받으면 텍스트 토큰을 나타내는 숫자 벡터를 출력한다.

예시: WhisperForConditionalGeneration


2. 프로세서(Processor)
프로세서는 **모델이 이해할 수 있도록 데이터를 준비(오디오를 바이너리로)하며 모델의 결과를 다시 해석(토큰을 다시 사람 언어 텍스트로)한다.

역할: 모델의 입력과 출력을 처리하는 도구.

구성: 주로 특징 추출기(Feature Extractor)와 토크나이저(Tokenizer) 두 가지를 통합한 객체.

특징 추출기: 원시 데이터(예: .wav 오디오 파일)를 모델이 이해할 수 있는 숫자 형태로 변환. 오디오의 샘플링 레이트를 맞추고, 소리의 특성을 담은 벡터(예: 로그-멜 스펙트로그램)로 변환하는 작업을 수행.

토크나이저: 원시 텍스트(예: "안녕하세요")를 모델이 이해할 수 있는 숫자 토큰(예: [123, 456])으로 변환. 또한, 모델의 출력인 숫자 토큰을 다시 사람이 읽을 수 있는 텍스트로 복원하는 역할.

예시: WhisperProcessor

프로세서에 대해 쉽게 비유하면,
특징 추출기(귀): 세상의 소리(원시 오디오)를 듣고, 두뇌가 이해할 수 있는 언어적 정보(특징 벡터)로 바꿔준다.
토크나이저(입): 두뇌가 생각한 내용(숫자 토큰)을 다시 사람이 알아들을 수 있는 말(텍스트)로 바꿔준다.

profile
AI Study

0개의 댓글