표제어(Lemma)는 사전에서 대표 형태로 사용되는 단어의 기본형입니다.
표제어의 개념
표제어는 한 단어의 여러 변형들을 대표하는 기준이 되는 형태로, 사전을 찾을 때 찾아보는 그 단어입니다.
언어별 표제어 예시
영어:
- 동사: go, goes, going, went, gone → go (부정사형)
- 명사: cats, cat's → cat (단수형)
- 형용사: better, best → good (원급)
한국어:
- 동사: 먹어, 먹었다, 먹는다 → 먹다 (기본형)
- 형용사: 예쁘다, 예쁜, 예뻤다 → 예쁘다 (기본형)
- 명사: 책들, 책이 → 책 (기본형)
일본어:
- 동사: 食べる, 食べた, 食べて → 食べる (辞書形)
- 형용사: 美しい, 美しく, 美しかった → 美しい (기본형)
표제어와 어간의 차이
- 표제어: 실제 사전에 등재된 완전한 단어 (예: "good", "먹다")
- 어간: 단어에서 변화하는 부분을 제거한 핵심 부분 (예: "studi", "먹-")
표제어는 언어학적으로 의미있는 완전한 단어 형태를 유지하기 때문에, 텍스트의 의미를 보존하면서 정규화할 수 있어 자연어 처리에서 중요한 개념입니다.