NLP(자연어 처리):Nature Language Processing

신민기·2025년 9월 18일

AI

목록 보기
9/17

NLP(자연어 처리):Nature Language Processing

NLP란 머신러닝, 딥러닝에 한 분야로 인간의 언어(한국어, 일본어, 중국어, 영어 등)를 기계가 이해하고 생성할 수 있게 하는 기술이다.

전처리(Preprocessing)

전처리란 모델이 데이터를 이해하기 쉽게 가공하는 과정입니다.

토큰화(Tokenization)

  • 토큰화는 텍스트를 작은 단위로 나누는 과정으로, 이 단위를 토큰(Token)이라고 부릅니다. 토큰은 단어, 형태소 등이 될 수 있습니다.

스테밍(Stemming)

  • 스테밍은 단어에서 접미사나 접두사를 제거해 어근으로 만드는 과정입니다.
  • 스테밍은 레마타이제이션보다 성능이 떨어지지만 속도가 빠르고 비용이 적게든다는 장점이 있습니다.

레마타이제이션(Lemmatization)

  • 레마타이제이션은 단어를 사전형태로 변환하는 과정입니다마타이제이션은 단어를 사전형태로 변환하는 과정입니다.
  • 단어의 접미사, 접두사를 제거할 뿐만 아니라 단어를 기본형태로 묶을 수 있습니다.
  • 스테밍보단 느리지만 더 정확하고 의미있는 단어를 생성합니다.

정규화(Normalization)

  • 정규화는 텍스트를 표준 형태로 변환 하는 과정입니다. 이로인해 텍스트 데이터가 일관되게 처리되어 모델이 더 잘 이해할 수 있습니다.
  • 소문자화(Lowercasing):모든 문자를 소문자로 변환합니다.
  • 구두점 제거(Removing Punctuation):구두점은 보통 크게 의미를 가지지 않으므로 제겁됩니다.
  • 불용어 제거(Removing Stop Words): 불용어란 실제 데이터 내에서 크게 의미없는 단어를 말합니다. 이런 불용어를 제거합니다.ex)"그리고","의","이"

품사태깅(Part of Speech, POS Tagging)

  • 품사 태킹은 문장에서 각 단어의 문법적 역할을 할당하는 과정입니다. 이로 인해 문장의 구조와 의미를 이해하는데 도움이 됩니다.

단어 임베딩

단어 임베딩은 단어를 숫자로 바꾸어 주는 기술이다.
특징으로는 단어의 의미를 고려하여 의미가 비슷하면 백터공간에서 가깝게 위치합니다.

단어 임베딩이 가져다 준 이점으로는 모델을 처음부터 학습할 필요없이 사전 훈련된 임베딩을 가져와 사용할 수 있다는 것입니다. 또한 단어를 벡터로 표현함으로써, 모델은 단어가 나타나는 문맥이나 배경 등을 더 잘 포착하고 다음에 나올 단어를 더 정확한 예측을 할 수 있습니다.

백터만 붙임

딥러닝 모델

RNN(순환 신경망)

순서가 있는 데이터를 다루는 신경망이다.
hidden layer에 전에 왔던 정보를 다시 입력으로 되돌려보내는 구조이다.

단점으로는 RNN기반 모델들은 순차적처리를 해 병렬처리가 안되어 학습 속도가 느립니다. 또한 문장이 길어질수록 앞쪽 정보가 뒤에까지 전달이 안됩니다.

Transformer

Transformer는 순환(RNN)이나 합성곱 없이 어텐션(Attention)만으로 시퀀스를 처리하는 모델이다.

이러한 설계로 문장 내에 모든 토큰들을 한번에 고려할 수 있게 되었고 병렬처리가 가능해져 학습 속도가 훨씬 빨라졌다.

출처:
https://datasciencebeehive.tistory.com/188#google_vignette

https://www.elastic.co/kr/what-is/word-embedding

https://www.ibm.com/kr-ko/think/topics/word-embeddings

https://www.ibm.com/kr-ko/think/topics/natural-language-processing

profile
AI 어렵다

0개의 댓글