LLM Day13 - BERT

Soyee Sung·2025년 2월 15일

LLM

목록 보기

15/34

📌 BERT 기반 문서와 질문의 유사도 평가 상세 설명

💡 BERT를 활용해 질문과 문서 내용을 숫자로 변환한 후, 코사인 유사도를 이용해 의미적 유사성을 계산하여 신뢰할 수 있는 문서를 찾는다. 코드에서 BERT 기반 문서와 질문의 유사도 평가는 evaluate_with_bert() 함수에서 수행된다.
이 함수는 Sentence-BERT (SBERT) 모델을 이용해 질문과 문서 간 의미적 유사도를 측정한다.

1️⃣ BERT란?

BERT (Bidirectional Encoder Representations from Transformers)는
Google에서 개발한 자연어 처리(NLP) 모델로, 문장의 맥락을 양방향으로 이해할 수 있는 강력한 AI 모델이다.

💡 일반적인 NLP 모델과의 차이점

기존 모델들은 문장을 왼쪽 → 오른쪽 방향(또는 반대)으로만 해석했음.
하지만 BERT는 양방향으로 문장을 읽어 더 정확한 의미 분석 가능!
📌 예제:

"나는 은행에 간다."
BERT는 '은행'이 금융기관인지, 강가인지 문맥을 보고 판단할 수 있음!

2️⃣ BERT 기반 문서-질문 유사도 분석 과정

🔹 evaluate_with_bert(question, context) 함수는 BERT를 이용해 문장 간 의미적 유사도를 계산한다.

def evaluate_with_bert(question, context):
    """ BERT 기반 문서와 질문의 유사도 평가 """
    question_embedding = bert_model.encode(question, convert_to_tensor=True)  # 질문을 숫자로 변환
    context_embedding = bert_model.encode(context, convert_to_tensor=True)  # 문서 내용을 숫자로 변환
    similarity_score = util.pytorch_cos_sim(question_embedding, context_embedding).item()  # 코사인 유사도 계산
    return min(max(similarity_score, 0), 1)  # 0~1 범위 유지

위 코드의 동작을 한 줄씩 살펴보자.

(1) 문장을 벡터로 변환 (Embedding)

question_embedding = bert_model.encode(question, convert_to_tensor=True)
context_embedding = bert_model.encode(context, convert_to_tensor=True)

📌 BERT는 문장을 숫자로 변환하는 "임베딩(embedding)" 작업을 수행한다.

bert_model.encode(text): 문장을 벡터(숫자로 이루어진 리스트)로 변환
convert_to_tensor=True: 벡터를 PyTorch Tensor 형태로 변환 (연산 최적화)

📝 예제:

"강아지는 귀엽다."  →  [0.21, -0.67, 1.34, ..., 0.87]
"나는 고양이를 키운다."  →  [0.15, -0.71, 1.22, ..., 0.93]

🔹 이렇게 숫자로 변환된 문장은 벡터 공간에서 비교 가능해짐!

(2) 문장 간 의미적 유사도 계산 (Cosine Similarity)

similarity_score = util.pytorch_cos_sim(question_embedding, context_embedding).item()

📌 BERT로 변환된 두 개의 벡터 간 유사도를 비교하는 과정

코사인 유사도 (Cosine Similarity) 를 사용하여 두 문장의 유사도를 측정
util.pytorch_cos_sim(vec1, vec2): 두 벡터 간의 코사인 유사도를 반환

📌 코사인 유사도 (Cosine Similarity)

코사인 유사도 관련 상세 설명

(3) 유사도 점수 정규화

return min(max(similarity_score, 0), 1)

📌 계산된 유사도 점수를 0~1 범위로 조정

min(max(score, 0), 1): 음수 방지 & 1 초과 방지 (값 안정화)
이렇게 하면 일관된 0~1 스케일로 점수를 제공할 수 있음!

4️⃣ 전체 흐름 정리

✅ 1) 문장을 SBERT(BERT 기반) 모델을 사용하여 숫자 벡터로 변환
✅ 2) 벡터 간 유사도를 코사인 유사도로 측정 (0~1 범위)
✅ 3) 정규화하여 최종 점수 반환

5️⃣ BERT 유사도 평가가 중요한 이유

📌 GPT와 달리 BERT는 "정확한 의미 비교"에 강함!

GPT는 "생성" (텍스트를 만들기) 에 특화
BERT는 "이해" (텍스트 간 의미 비교) 에 특화
✅ 그래서 이 코드에서는 "신뢰할 수 있는 문서를 검색하는 데" BERT를 활용!
✅ 최종적으로 GPT 모델과 결합하여 더욱 정교한 답변을 생성

Soyee Sung

이전 포스트

LLM Day13 - RAG 기반 챗봇+평가모델

다음 포스트