BERT - cased와 uncased의 차이

SeongGyun Hong·2024년 10월 1일

NLP

목록 보기
1/5

1. BERT란?

BERT는 자연어 처리(NLP)에서 많이 사용되는 사전 학습된 언어 모델이다.
그러나 BERT라고 다 같은건 아니고, cased와 uncased 버전에 대하여 각각 텍스트 전처리 방식에서 차이가 있다.

2. Lowercasing (소문자 변환)

BERT uncased: 모든 텍스트를 소문자로 변환한다.
예: “OpenGenus” -> “opengenus”
BERT cased: 텍스트의 대소문자를 그대로 유지한다.
예: “OpenGenus” -> “OpenGenus”

3. Accent Stripping (악센트 제거)

BERT uncased: 악센트를 제거하여 텍스트를 표준화한다.
예: “OpènGènus” -> “opengenus”
BERT cased: 악센트를 제거하지 않고 그대로 유지한다.
예: “OpènGènus” -> “OpènGènus”

4. Unicode Normalization (NFD)

유니코드 정규화(NFD)란, 유니코드 문자를 분해하여 기본 문자와 결합 문자를 분리하는 과정을 의미한다. BERT uncased의 경우 유니코드 정규화를 실시한다.

BERT uncased: 유니코드 문자를 분해하여 표준화한다.
예: “안녕” -> “ㅇ, ㅏ, ㄴ, ㄴ, ㅕ, ㅇ”
BERT cased: 유니코드 문자를 그대로 유지한다.
예: “안녕” -> “안녕”

5. 요약

BERT uncased: 텍스트를 소문자로 변환하고, 악센트를 제거하며, 유니코드 문자를 분해하여 표준화합니다.
BERT cased: 텍스트의 대소문자, 악센트, 유니코드 문자를 그대로 유지합니다.

profile
헤매는 만큼 자기 땅이다.

0개의 댓글