자연어

모와이·2026년 1월 16일

llm

목록 보기

1/20

NLP 사용하는 것

분류 : 감정분석, 스팸메일, 유형분류
검색 / 추천 : Q&A, 유사문서 찾기 검색
정보추출 : 개체 뽑기
요약/번역/대화

(멀티미디어(음성, 이미지)) -> 텍스트 -> 전처리(토큰화, 벡터화)-> 모델 학습 -> 성능 평가

NLP

언어 이해 → 언어 변환

언어별 어순 차이, 그 언어만의 특수한 문법 (존댓말)

음성 인식 및 합성

STT

Speech To Text ( 음성 → 텍스트 )

TTS

Text To Speech ( 텍스트 → 음성 )

질의응답 시스템

검색 기반 : DB, 문서, 웹 정보 이용

생성 기반 : 모델이 생성

검색 + 생성 ⇒ 요즘 시스템

(RAG = Retrieval And Generative

텍스트 요약

추출 : 중요한 문장 뽑는다.

생성 : 새 문장으로 재작성

규칙 기반 시스템

~ 가 안된다 ⇒ 부정

YYYY-MM-DD ⇒ 날짜 추출

프로그래밍

커버리지 문제 : 규칙 수 폭발

모호성 문제 : 예) 그건 안되는건 아니야

통계적 모델

BoW/TF-IDF -> 빈도수 체크
n-gram -> OOV(Out Of Vocabulary)

딥러닝 기반 NLP의 장점

적응력 : 사전학습 Pretraining + 미세조정(Fine - tuning)

코피스 분석

데이터가 어떤 형태인지 파악

전처리/ 토큰화 전략 결정

(띄어쓰기, 특수문자, 이모지, 맞춤법 등)

모델 학습 설정 결정

(max length, vocab size, padding)

크기 : 문서 / 문장 수 (=토큰 수), 길이 분포
노이즈 : URL/ 이모지/ 중복 문장/ 오타
어휘 특성 : 고유 단어 수, 희귀 단어 비율, 클래스 불균형

NLP 데이터셋 준비 절차

데이터 수집
- robots.txt
데이터 전처리
- 불필요한 단어 제거 ( 특수문자 !, ㅋㅋㅋ, 이모지 ) ⇒ 감성 분석에서 주요포인트
토근화 및 정규화
- 형태소 분석 - 글자를 의미 형태로 쪼개는거 (달린다 / 달렸다/ 달리다 → 달리다 ) 같은 의미인데 표현만 다른 것을 한 형태로 하하하/ㅎㅎㅎ/ㅋㅋㅋ → ㅋㅋ 100,000원/ 10원/ 200원 → 원

자연어 이해

의도 파악
- 내일 아침은 김밥천국이다 → 의도 : 예약
개체명 인식
- 나는 내일 공원에서 산책하겠다 → 장소 : 공원, 시간 : 내일, 주체 : 나, 행위 : 산책

의도,장소,시간을 알면 예약하는 서비스 구현 가능

문장 구조

형태소 분석 - 먹었습니다 ⇒ 먹(어근) + 었(접두사 과거) + 습니다(접미사 과거)
구문 분석
- 의미 해석 : 단어 순서에 따라 의미가 달라진다
- 정보 추출 : 주어/ 동사/ 목적어 관계로 행위 - 대상을 뽑아낸다

문맥 자유 문법

V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합비터미널
- 문장 구성 틀 (S, NP, VP)
Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합
- 실제 단어
R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합
- 문장 구성틀을 어떻게 쪼갤지/ 바꿀지 규칙
S(Start symbol): 시작 기호
- 분석 시작점

규칙이 명확한 곳 - 챗봇/ 콜센터 “ 예약/ 취소/ 조회 ”

정보 추출/ 파싱이 정확해야 하는 도메인 - 게약서/ 규정 문서 ⇒ 경우에 따라 사용한다

MLU 의미 해석

모호성 처리

어휘적 모호성: 단어의 여러 뜻 ⇒ 앞뒤 문맥을 본다
구조적 모호성: 문장의 구조로 인한 여러 해석 ⇒ 가장 자연러운 해석을 확률적으로 선택한다

코퍼스

자연어 처리에서 연구 및 모델 개발을 위해 사용하는 택스트 데이터의 집합

데이터 종류

정형 : csv, Excel 파일
비정형 : 텍스트 파일, JSON 파일
반정형 : XML 파일

코퍼스 접근 자원

nltk : 다양한 코퍼스 제공
Kaggle : 여러 데이터 세트를 다운로드
Open Subtitle : 영화 자막 데이터 세트

NLP 데이터셋 준비 절차

데이터 수집 : 웹 크롤링,API
데이터 전처리 : 불필요한 기호 제거
토큰화 및 정규화 : 단어, 문장 단위로 나눔 (ex:하하하/ㅋㅋㅋ -> 'ㅋㅋ' / 1000원, 100원 -> <'num'>원

문장 구조

자연어 이해

의도 파악 : 오늘 쉬고 싶다
개체별 인식 : 나는 오늘 5시에 나가겠다
의도 + 인식 -> 조퇴관리 시스템(쉬고싶다, 5시에 나가겠다)

NLP 주요 컴포넌트

1. 토큰화 : 텍스트를 단어 또는 문장 단위
2. 형태소 분석 : 어근/접사 분석
3. 구문 분석 : 문법 구조 분석 후 트리 구조로 표현
4. 의미 분석 : 어휘 / 문장 의미 분석

문맥 자유 분석

문맥 자유 문법
- V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합
- Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합
- R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합
- S(Start symbol): 시작 기호

NLU 의미 해석

어휘적 모호성 : 단어의 여러 뜻
구조적 모호성 : 문장 구조로 인한 해석

모와이

공부하는거 정리하는 블로그

다음 포스트

자연어

llm

NLP 사용하는 것

NLP

음성 인식 및 합성

STT

TTS

질의응답 시스템

텍스트 요약

규칙 기반 시스템

통계적 모델

딥러닝 기반 NLP의 장점

코피스 분석

NLP 데이터셋 준비 절차

자연어 이해

문장 구조

문맥 자유 문법

MLU 의미 해석

모호성 처리

코퍼스

데이터 종류

코퍼스 접근 자원

NLP 데이터셋 준비 절차

문장 구조

자연어 이해

NLP 주요 컴포넌트

문맥 자유 분석

자연어 처리

0개의 댓글