텍스트 마이닝 #3 Text Preprocessing (2)

Kyeongmin·2024년 10월 6일

대학원

목록 보기

26/34

이 글은 이도길 교수님의 텍스트 마이닝 강의를 듣고 정리한 내용입니다.

본 글은 Text Preprocessing 기법들 대한 설명으로 이전 글과 이어집니다.

이전 글에서는 Text Preprocessing 기법 중 Tokenization에 대해서 설명했고,
본 글에서는 다른 기법들에 대해서 설명하고자 한다.

Normalization

먼저 Normalization(정규화)란,
여러 표기 방식으로 표현된 단어 또는 토큰을 동일한 표기 방식으로 변환하는 것을 말하며,
이는 주어진 corpus의 토큰을 줄이고 복잡성을 낮추려고 하는 경우나 정보 검색 분야에서 많이 활용된다.

간단한 예시로는, 대소문자가 혼용된 단어 → 소문자로 통일한다거나
악센트가 포함 된 언어(ex. 불어)에서는 이를 동일한 형태로 바꿔주는 작업이 있을 것이다.

여기에서는 정규화의 여러 방법들 중,
Lemmatization(표제어 추출)과 Stemming(어간 추출)에 대해 더 자세히 알아보고자 한다.

1️⃣ Lemmatization

Lemma란 한글로 표제어를 말하는데 이는 단어의 기본형 또는 원형을 의미하고,
이를 언어학 관점에서는 동일한 stem(어간), part of speech(품사), 의미를 가지는 어휘를 의미한다.
따라서 Lemmatization(표제어 추출)은 단어가 주어졌을 때 이에 대한 표제어를 찾아내는 것을 말한다.
예시 : am/are/is → be, car/cars/car's → car

이런 Lemmatization을 위해 주로 사용되는 것이 바로 Morphological parsing(형태학적 분석)인데,
주어진 단어로부터 Morphemes(형태소)를 찾는 방법이며, 형태소에는 Stem(어간), Affix(접사)와 같은 종류가 있다. 예시 : cats → cat(stem)+s(affix)

※ 용어 설명
    1. Morphemes (형태소) : 의미를 가진 가장 작은 단위
    2. Stem (어간) : 단어의 의미를 담고 있는 단어의 핵심 부분
    3. Affix (접사) : 단어에 추가적인 의미를 주는 부분

2️⃣ Stemming

어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 합니다. 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있습니다. 이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다. 예제를 보면 쉽게 이해할 수 있습니다. 어간 추출 알고리즘 중 하나인 포터 알고리즘(Porter Algorithm)에 아래의 문자열을 입력으로 넣는다고 해봅시다.

- Lemmatization (표제어 추출)

	의미를 갖는 가장 작은 단위 : Morphemes 형태소 
    						(Stems 어간, Affixes 접사)
    
	1) morphological parsing(형태소 분석)
    	가장 정교한 형태의 Lemma
	2) Stemming(어간 추출)
        가장 단순한 형태의 Lemma
    	어간을 제거함, 형태의 동일화에 집중
		porter's algorithm

Sentence Segmentation

POS-Tagging

POS-Tagging(품사 태깅)

- 품사 구분 종류

Kyeongmin

개발자가 되고 싶은 공장장이🛠

이전 포스트

텍스트 마이닝 #2 Text Preprocessing (1)

다음 포스트