[인공지능사관학교: 자연어분석A반] 학습 내용 보충 - representation

Suhyeon Lee·2025년 8월 1일

Feature-based Approach에서 representation이 정확히 뭘 말하는 걸까?

Feature-based Approach에서의 "representation"은 미리 학습된(pre-trained) 언어 모델이 만들어내는 단어나 문장에 대한 수치적 표현(feature vector)을 의미
"representation"은 downstream task(예: 문장 분류, 질문응답 등)에 필요한 추가 특징(feature)으로 사용됨
- 즉, 기존 입력(input)에 pretrained된 representation을 feature로서 추가하여 task-specific 네트워크와 함께 사용하는 방식
원래의 텍스트 데이터를 기계가 이해할 수 있는 수치형태(벡터 등)로 변환한 "특징"
기존 입력을 보완하는 역할을 하여, 모델이 더 풍부한 언어 정보를 바탕으로 작업을 처리할 수 있도록 도움

예시:
ELMo는 왼쪽 문맥과 오른쪽 문맥에서 각각 학습된 언어 표현들을 합쳐서 단어의 representation을 만듭니다. 이 representation은 단순한 단어 인덱스가 아니라 언어의 문맥적 의미를 포착한 벡터 형태이며, 이를 다른 NLP 작업에 피쳐로 추가하는 형태로 쓸 수 있습니다.

좀 더 구체적으로, representation은 모델이 입력 데이터를 수치적·벡터 형태로 가공(processing)한 결과물임 → 원본 데이터의 중요한 의미적 특성을 담고 있어 이후의 학습이나 분류 작업을 더 쉽게 하도록 도움
- 예: BERT의 경우 token embedding, position embedding, segment embedding을 합쳐서 하나의 input representation을 생성

즉, Feature-based Approach에서 representation은

미리 훈련된 모델이 생성한 벡터화된 언어 표현
downstream task에 사용할 수 있는 추가적인 피쳐(feature)
텍스트의 문맥적 의미를 반영한 수치적 입력 정보

라는 의미로 이해할 수 있습니다.

정리:
- Representation은 데이터의 의미를 잘 반영하는 수치적 표현으로서, downstream task 수행을 용이하게 함
- ELMo는 Pre-trained representation을 feature로 추가하여 사용하는 대표적인 feature-based approach
  - ELMo는 양방향 언어 모델에서 얻은 단어 표현을 concatenate하여 추가 feature로 씀
- BERT input representation은 토큰 임베딩, 위치 임베딩, 세그먼트 임베딩의 합으로 구성되어 입력의 representation을 형성
  - BERT도 여러 층의 hidden representation을 추출해 feature로 활용하는 방식이 존재

Feature-based Approach에서의 "representation"이 담고 있는 구체적인 정보

의미적·문맥적 정보: Representation은 단어나 문장 등의 텍스트가 가진 의미와 문맥 정보를 벡터 형태로 압축해 담고 있습니다. 단순히 단어 자체의 의미뿐 아니라, 그 단어가 문장 내에서 어떤 역할과 관계를 갖는지도 반영합니다. 예를 들어, 같은 단어라도 문맥에 따라 다르게 해석될 수 있는데, 이 문맥적 의미 차이를 포착합니다.
언어적 특징과 구조: 텍스트의 형태학적, 구문론적, 의미론적 특징들이 수치화되어 포함됩니다. 즉, 단어의 품사, 어근, 접사, 문장 내 위치와 관계 등의 구조적 정보도 representation에 일부 반영됩니다.
감정과 스타일 같은 부가적 특징: 경우에 따라 감정, 작성 스타일, 문체 등의 텍스트 특성도 포함될 수 있습니다. 이러한 특징들은 downstream task에 따라 추가적으로 표현될 수 있습니다.
수치적·벡터적 표현으로의 변환: 원본의 텍스트 정보는 컴퓨터가 이해하고 처리하기 쉬운 다차원 벡터 공간 내의 점으로 변환되어, 유사한 의미를 갖는 단어들이 벡터 공간에서 가까운 위치에 있게 됩니다.
뇌파, 신경망 연산과 유사한 신경활동의 추상화: 연구에 따르면, 인간이 생각할 때 뇌에서 발생하는 신경 세포들의 전기적 활동이 정보의 형태로 통합되듯, 딥러닝 언어 모델의 representation도 입력되는 텍스트 정보의 다양한 신경망 연산을 거쳐 종합된 정보 표현입니다. 즉, representation은 실제 뇌의 신경 활동과도 비슷한 방식으로 복합적 의미를 내포합니다.

이처럼 representation은 텍스트의 문맥적이고 의미적인 핵심 정보를 담은 고차원 수치 벡터로, downstream task(예: 분류, 번역, 질문응답 등)에서 중요한 기능적 특징(feature) 역할을 하도록 설계되어 있습니다. 이 과정에서 단순한 단어의 나열이 아니라, 복잡한 언어 작용과 의미 관계를 포함하는 정보가 축약되어 있습니다.

요약하면, representation은 텍스트가 지니는 의미, 문맥, 구조, 감정, 스타일 등 다양한 복합적 언어 정보를 수치적 벡터 형식으로 요약하여 내포한 정보라고 할 수 있습니다.
이는 뇌의 신경망 활동과 비교하여 생각할 때, 뇌파에 생각이 담기듯이, representation 벡터에 텍스트의 여러 의미 정보가 함축되어 있다고 이해할 수 있습니다.

Feature-based approach에서 representation의 역할

미리 학습된 언어 모델이 생성한 벡터화된 표현(pretrained language representation)을 downstream task에 추가적인 feature로 제공하는 것
- representation은 원본 텍스트를 기계가 이해할 수 있는 수치적 벡터 형태로 변환한 것으로, 이 벡터를 기존 입력에 결합하여 특정 NLP 작업(예: 문장 분류, 질의응답)에 필요한 추가 정보를 제공함
구체적으로 feature-based approach에서는 pretrained representation을 그대로 활용하고, 전체 모델을 미세 조정(fine-tuning)하지 않으며, 대신 task-specific 네트워크에 이 representation을 feature로서 추가하는 구조를 가짐

이 representation이 제공하는 정보는 단어와 문장의 의미적·문맥적 특징을 반영하는 고차원 벡터로, downstream task에서는 이를 활용해 언어의 복잡한 의미 관계와 문맥 이해를 증진시키는 역할을 합니다. 따라서 feature-based approach에서 representation은 원본 텍스트 데이터에 더해져, 해당 task 수행 성능을 향상시키는 중요한 기능적 특성(feature)으로 작용합니다.

요약하면:
- Representation은 pretrained 모델이 텍스트 입력을 벡터화해 추출한 의미·문맥 정보를 담은 feature 벡터
- Feature-based approach에서는 이 representation을 downstream task 모델에 추가적인 입력(feature)으로 제공하여 학습 및 예측에 사용
- 전체 모델을 fine-tuning하지 않고도 pretrained representation 덕분에 좋은 성능을 달성할 수 있음
- 대표적인 예: ELMo, BERT 등
  - BERT에서는 주로 마지막 몇 개 레이어의 hidden state를 feature로 활용

두 설명이 모두 맞는 내용이지만, ‘representation’의 의미와 역할이 어디에 초점을 두느냐에 따라 접근 방식이 다른 것처럼 보일 수 있습니다. 각각의 설명을 정리하고 차이점을 명확히 해드리겠습니다.

1. 수업에서 말한 내용

Feature-based Approach
- pretrained language model(PLM)으로부터 더 좋은 입력 representation을 얻어서 기존 모델(word embedding 등)이 갖는 한계를 극복하려는 방식입니다.
- 여기서 representation은 단순한 단어 임베딩(for example, Word2Vec, GloVe, FastText 등) 또는 더 나아가 PLM이 학습한 고차원 문맥 표현까지도 의미할 수 있습니다.
- ELMo처럼 pretrained representation을 feature로 추가해서 downstream task의 입력(feature)에 포함시키는 방법이 대표적입니다.
Fine-tuning Approach
- PLM의 weight(가중치) 전체를 downstream task 데이터에 맞춰 미세조정(fine-tuning)하는 방식입니다.
- 여기서의 representation은 PLM이 내부적으로 생성한 contextual representation(문맥적 표현, hidden state)을 직접 downstream task에 활용하고, 모델 전체를 함께 학습합니다.
- ELMo, BERT, GPT 등 최신 언어모델이 대표적입니다.

2. 제가 앞서 드린 설명

‘representation’이란 입력 텍스트의 의미와 문맥 정보를 담은 수치적 벡터(embedding or hidden state)를 가리킵니다.
Feature-based Approach에서는 pretrained representation을 downstream task의 feature로 추가하는 게 핵심입니다.
즉, PLM/ELMo/BERT의 hidden representation(히든 상태의 벡터)을 입력(feature)로 사용하는 것이 Feature-based Approach의 특징이라고 설명드렸습니다.

3. 어느 쪽 설명이 맞는가?

➡️ 본질적으로 두 설명은 표현 방식에 차이가 있지만 내용상 완전히 다르지 않습니다.

“더 좋은 입력 representation을 사용하는 것”도, “pretrained된 의미·문맥 정보를 feature로 활용하는 것”도, 결과적으로 PLM의 rich representation을 downstream task에 feature로서 활용한다는 점에서 동일합니다.
수업에서는 Word Embedding과 PLM representation을 비교하는 과정에서, representation을 입력 임베딩 + PLM에서 뽑은 representation 모두 포괄적으로 쓴 것으로 보입니다.
ELMo, BERT 등에서 사용하는 representation(히든 스테이트)은 모두 pretrained 언어모델의 풍부한 의미 표현을 뜻합니다. 이를 downstream task에서 어떻게 쓰느냐(추가적인 feature로 넣는지, 전체 모델을 fine-tune하는지)만 차이가 있을 뿐입니다.

✅ 정리하면:

Feature-based Approach에서는 PLM이 만들어낸 representation(문맥·의미를 담은 벡터)을 입력 feature로 추가하여 성능을 높입니다.
Fine-tuning Approach는 PLM의 전체 weight와 representation을 downstream task에 맞춰 재학습하여 최적화합니다.
즉, representation 자체는 “텍스트 의미와 문맥 정보를 풍부하게 담은 벡터 표현”이고, 이것을 어떻게 활용하는지(입력 feature vs 모델 전체 파라미터 업데이트)가 접근 방식의 차이입니다.

💡 따라서 두 설명 모두 맞고, 핵심은 “representation = 학습된 문맥적 의미 벡터”라는 점, 그리고 그 활용 방식에 따라 ‘feature-based’와 ‘fine-tuning’이 구분된다는 점입니다.

수업 설명에서 "PLM을 하기 전에 더 좋은 입력 representation을 갖게 하여 성능을 개선하는 방법"이라고 표현한 이유는, 기존의 단어나 문장 표현 방식(예: BOW, TF-IDF, Word2Vec 등)만 사용하던 시점과 대비해서, PLM이 등장하기 전의 한계를 보여주기 위한 목적이 큽니다.

즉, 예전에는 주로 Frequency-based(빈도 기반)나 Prediction-based(예측 기반) 방법들로 입력 텍스트를 벡터화(embedding)했습니다. 이런 전통적 representation이 downstream task에 한계가 있었기 때문에, "PLM을 하기 전에 더 좋은 입력 벡터를 만들자"는 접근이 중요했습니다. 이 말은 곧 PLM 이전 시대의 representation 강화법을 강조한 표현입니다.

Feature-based Approach의 맥락에서는, 기존 임베딩(Word2Vec 등)에 더해 "미리 훈련된 언어 모델(PLM)의 representation"을 feature로 추가하여 성능을 높이는 작업도 했지만, 이 역시 "PLM 자체를 전부 사용하는 fine-tuning 방식 이전"의 feature 활용법이라는 맥락입니다.

정리하면:

"PLM을 하기 전에"란 표현은, PLM이 본격적으로 fine-tuning 등으로 강력하게 쓰이기 전, 즉 기존 feature engineering 관점에서 더 좋은 feature(입력 벡터)를 확보하기 위한 시도를 뜻합니다.
실제로는 ELMo나 BERT 기반 feature-based 방식도 넓은 의미의 PLM 활용이지만, 모델 전체를 fine-tuning하는 full PLM 활용 이전 단계로 구분해서 설명하기 위한 장치입니다.
즉, 수업에서 단계별로 입력 representation 개선 → PLM 활용(but, fine-tuning 전) → full PLM fine-tuning처럼 발전 단계를 명확히 하려고 한 표현이라고 볼 수 있습니다.

Suhyeon Lee

2 B R 0 2 B

이전 포스트

[인공지능사관학교: 자연어분석A반] 텍스트마이닝 (5)

다음 포스트