자연어

모와이·2026년 1월 16일

llm

목록 보기
1/20

NLP 사용하는 것

분류 : 감정분석, 스팸메일, 유형분류
검색 / 추천 : Q&A, 유사문서 찾기 검색
정보추출 : 개체 뽑기
요약/번역/대화

(멀티미디어(음성, 이미지)) -> 텍스트 -> 전처리(토큰화, 벡터화)-> 모델 학습 -> 성능 평가


NLP

언어 이해 → 언어 변환

언어별 어순 차이, 그 언어만의 특수한 문법 (존댓말)


음성 인식 및 합성

STT

Speech To Text ( 음성 → 텍스트 )

TTS

Text To Speech ( 텍스트 → 음성 )


질의응답 시스템

검색 기반 : DB, 문서, 웹 정보 이용

생성 기반 : 모델이 생성

검색 + 생성 ⇒ 요즘 시스템

(RAG = Retrieval And Generative


텍스트 요약

추출 : 중요한 문장 뽑는다.

생성 : 새 문장으로 재작성


규칙 기반 시스템

~ 가 안된다 ⇒ 부정

YYYY-MM-DD ⇒ 날짜 추출

프로그래밍

커버리지 문제 : 규칙 수 폭발

모호성 문제 : 예) 그건 안되는건 아니야


통계적 모델

BoW/TF-IDF -> 빈도수 체크
n-gram -> OOV(Out Of Vocabulary)


딥러닝 기반 NLP의 장점

  • 적응력 : 사전학습 Pretraining + 미세조정(Fine - tuning)

코피스 분석

데이터가 어떤 형태인지 파악

전처리/ 토큰화 전략 결정

(띄어쓰기, 특수문자, 이모지, 맞춤법 등)

모델 학습 설정 결정

(max length, vocab size, padding)


  • 크기 : 문서 / 문장 수 (=토큰 수), 길이 분포
  • 노이즈 : URL/ 이모지/ 중복 문장/ 오타
  • 어휘 특성 : 고유 단어 수, 희귀 단어 비율, 클래스 불균형

NLP 데이터셋 준비 절차

  • 데이터 수집
    • robots.txt
  • 데이터 전처리
    • 불필요한 단어 제거 ( 특수문자 !, ㅋㅋㅋ, 이모지 ) ⇒ 감성 분석에서 주요포인트
  • 토근화 및 정규화
    • 형태소 분석 - 글자를 의미 형태로 쪼개는거 (달린다 / 달렸다/ 달리다 → 달리다 ) 같은 의미인데 표현만 다른 것을 한 형태로 하하하/ㅎㅎㅎ/ㅋㅋㅋ → ㅋㅋ 100,000원/ 10원/ 200원 → 원

자연어 이해

  • 의도 파악
    • 내일 아침은 김밥천국이다 → 의도 : 예약
  • 개체명 인식
    • 나는 내일 공원에서 산책하겠다 → 장소 : 공원, 시간 : 내일, 주체 : 나, 행위 : 산책

의도,장소,시간을 알면 예약하는 서비스 구현 가능


문장 구조

  • 형태소 분석 - 먹었습니다 ⇒ 먹(어근) + 었(접두사 과거) + 습니다(접미사 과거)
  • 구문 분석
    • 의미 해석 : 단어 순서에 따라 의미가 달라진다

    • 정보 추출 : 주어/ 동사/ 목적어 관계로 행위 - 대상을 뽑아낸다


문맥 자유 문법

  • V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합비터미널
    • 문장 구성 틀 (S, NP, VP)
  • Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합
    • 실제 단어
  • R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합
    • 문장 구성틀을 어떻게 쪼갤지/ 바꿀지 규칙
  • S(Start symbol): 시작 기호
    • 분석 시작점

규칙이 명확한 곳 - 챗봇/ 콜센터 “ 예약/ 취소/ 조회 ”

정보 추출/ 파싱이 정확해야 하는 도메인 - 게약서/ 규정 문서 ⇒ 경우에 따라 사용한다


MLU 의미 해석

모호성 처리

  • 어휘적 모호성: 단어의 여러 뜻 ⇒ 앞뒤 문맥을 본다
  • 구조적 모호성: 문장의 구조로 인한 여러 해석 ⇒ 가장 자연러운 해석을 확률적으로 선택한다

코퍼스

자연어 처리에서 연구 및 모델 개발을 위해 사용하는 택스트 데이터의 집합

데이터 종류

  1. 정형 : csv, Excel 파일
  2. 비정형 : 텍스트 파일, JSON 파일
  3. 반정형 : XML 파일

코퍼스 접근 자원

  1. nltk : 다양한 코퍼스 제공
  2. Kaggle : 여러 데이터 세트를 다운로드
  3. Open Subtitle : 영화 자막 데이터 세트

NLP 데이터셋 준비 절차

  1. 데이터 수집 : 웹 크롤링,API
  2. 데이터 전처리 : 불필요한 기호 제거
  3. 토큰화 및 정규화 : 단어, 문장 단위로 나눔 (ex:하하하/ㅋㅋㅋ -> 'ㅋㅋ' / 1000원, 100원 -> <'num'>원

문장 구조

자연어 이해

의도 파악 : 오늘 쉬고 싶다
개체별 인식 : 는 오늘 5시에 나가겠다
의도 + 인식 -> 조퇴관리 시스템(쉬고싶다, 5시에 나가겠다)

NLP 주요 컴포넌트

1. 토큰화 : 텍스트를 단어 또는 문장 단위
2. 형태소 분석 : 어근/접사 분석
3. 구문 분석 : 문법 구조 분석 후 트리 구조로 표현
4. 의미 분석 : 어휘 / 문장 의미 분석

문맥 자유 분석

  1. 문맥 자유 문법
    • V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합
    • Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합
    • R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합
    • S(Start symbol): 시작 기호

NLU 의미 해석

  • 어휘적 모호성 : 단어의 여러 뜻
  • 구조적 모호성 : 문장 구조로 인한 해석

profile
공부하는거 정리하는 블로그

0개의 댓글