분류 : 감정분석, 스팸메일, 유형분류
검색 / 추천 : Q&A, 유사문서 찾기 검색
정보추출 : 개체 뽑기
요약/번역/대화
(멀티미디어(음성, 이미지)) -> 텍스트 -> 전처리(토큰화, 벡터화)-> 모델 학습 -> 성능 평가
언어 이해 → 언어 변환
언어별 어순 차이, 그 언어만의 특수한 문법 (존댓말)
Speech To Text ( 음성 → 텍스트 )
Text To Speech ( 텍스트 → 음성 )
검색 기반 : DB, 문서, 웹 정보 이용
생성 기반 : 모델이 생성
검색 + 생성 ⇒ 요즘 시스템
(RAG = Retrieval And Generative
추출 : 중요한 문장 뽑는다.
생성 : 새 문장으로 재작성
~ 가 안된다 ⇒ 부정
YYYY-MM-DD ⇒ 날짜 추출
프로그래밍
커버리지 문제 : 규칙 수 폭발
모호성 문제 : 예) 그건 안되는건 아니야
BoW/TF-IDF -> 빈도수 체크
n-gram -> OOV(Out Of Vocabulary)
데이터가 어떤 형태인지 파악
전처리/ 토큰화 전략 결정
(띄어쓰기, 특수문자, 이모지, 맞춤법 등)
모델 학습 설정 결정
(max length, vocab size, padding)
의도,장소,시간을 알면 예약하는 서비스 구현 가능
의미 해석 : 단어 순서에 따라 의미가 달라진다
정보 추출 : 주어/ 동사/ 목적어 관계로 행위 - 대상을 뽑아낸다
V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합비터미널Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합S(Start symbol): 시작 기호규칙이 명확한 곳 - 챗봇/ 콜센터 “ 예약/ 취소/ 조회 ”
정보 추출/ 파싱이 정확해야 하는 도메인 - 게약서/ 규정 문서 ⇒ 경우에 따라 사용한다
자연어 처리에서 연구 및 모델 개발을 위해 사용하는 택스트 데이터의 집합
의도 파악 : 오늘 쉬고 싶다
개체별 인식 : 나는 오늘 5시에 나가겠다
의도 + 인식 -> 조퇴관리 시스템(쉬고싶다, 5시에 나가겠다)
1. 토큰화 : 텍스트를 단어 또는 문장 단위
2. 형태소 분석 : 어근/접사 분석
3. 구문 분석 : 문법 구조 분석 후 트리 구조로 표현
4. 의미 분석 : 어휘 / 문장 의미 분석
V(Variable): 비단말 기호 집합, 문법에서 사용하는 비터미널(non-terminal) 심볼 집합Σ(Terminal symbols): 단말 기호 집합, 실제 문장을 구성하는 문자 집합R(Production rules): 생성 규칙 집합, 비터미널을 변환하는 규칙 집합S(Start symbol): 시작 기호
NLU 의미 해석