자연어처리

이주원·2025년 1월 2일

단어 의미 모호성 해소

단어 의미 모호성 해소란?

정의

문장 내에서 모호한 단어의 정확한 의미를 문맥에 맞게 결정하는 작업입니다.

이유

문장 맥락을 파악해야만 단어의 정확한 의미를 이해할 수 있습니다.

예시

맛있는 밤을 먹고 차도 마셨다
밤->밤 (밤나무 열매)

어제 어두운 밤 거리를 걸었다
밤->밤 (저녁)

해결방법

레스크 알고리즘

아이디어

단어의 사전 정의(뜻풀이)와 문장의 주변 단어를 비교하여 가장 많이 겹치는 의미를 선택합니다.

단계

단어를 선택합니다.
문맥의 범위를 정의합니다.
사전 정의와 문맥을 비교합니다.
가장 많이 겹치는 의미를 선택합니다.

예시

pine -> 뜻풀이 비교:
Definition 1 : Kind of evergreen tree
Definition 2 : Piece of wood used for building
->주변 문맥 단어와 겹치는 부분이 많은 의미가 선택됩니다.

어휘 의미망 기반 방법

아이디어

주변 단어를 기반으로 어휘 의미망을 생성하고 연결성이 높은 의미를 선택합니다.

단계

문장의 단어와 주변 단어의 의미망을 추출합니다.
의미망에서 부분 그래프를 생성합니다.
가장 연결된 의미를 선택합니다.

예시

she drank some milk
drink와 milk의 의미망을 workdNet에서 가져와서 연결성을 확인합니다
연결된 부분이 가장 많은 drink2와 milk1을 선택합니다.

분류 기반 방법

아이디어

지도 학습을 이용해 단어의 의미를 주변 단어를 기반으로 분류합니다.

단계

학습 데이터를 준비합니다.
각 단어의 의미에 레이블을 부여합니다.
주변 단어를 기반으로 의미를 분류합니다.

예시

학습 데이터
밤 : 낮 일 좋다
밤 : 맛있다 몸 과일

문장 : 맛있는 밤이 좋다
주변단어 맛있는, 좋다를 기반으로 밤 2가 선택됩니다.

요약

단어 의미 모호성 해소는 모호한 단어를 문맥에 맞게 의미를 결정하는 과정입니다.

주요 해결 방법

레스크 알고리즘

사전 뜻풀이와 문맥 비교

어휘 의미망 기반 방법

그래프를 이용한 연결성 비교

분류 기반 방법

지도 학습을 통해 의미를 분류

분류기반 및 딥러닝 기법

1. 분류 기반방법

나이브 베이즈 분류기

핵심 아이디어
확률 통계를 사용해 문맥 단어의 출현 확률을 기반으로 단어의 의미를 결정합니다.

단계
가. 문장 내 단어와 의미 레이블을 학습 데이터로 확률 계산
나. 문장에서 나타난 단어가 특정 의미에 출현할 확률을 더함
다. 가장 높은 확률의 의미를 선택 합니다.

예시
맛있는 밤이 좋다 -> 주변 단어 맛있다, 좋다의 확률 계산
밤1: 확률 합계 = -0.6
밤2: 확률 합계 = -0.3 -> 밤2선택

k-Nearest Neighbors

핵심 아이디어
문장 내 단어를 벡터 공간에 나타내고, 가장 가까운 의미 클래스를 선택합니다.

거리 계산 방법
1.유클리드 거리
2.코사인 유사도

단계
단어를 벡터화합니다.
k개의 가장 가까운 벡터를 찾습니다.
가장 많이 선택된 의미 클래스를 결과로 결정합니다.

SVM

핵심 아이디어
벡터 공간에서 클래스 간의 최대 거리를 기준으로 분류합니다.

장점
잡음이 많거나 데이터 크기가 큰 경우에도 뛰어난 성능을 보입니다.

단계
단어의 의미를 벡터로 변환합니다.
가장 넓은 경계를 기준으로 선을 그어 의미를 분류합니다.

2. 딥러닝 기반 방법

BERT 기반 분류

*파인튜닝이란 이미 학습된 사전학습 모델을 새로운 데이터ㄴ에 맞게 세부 조정하는 과정입니다.

핵심 아이디어
BERT와 같은 사전학습된 언어 모델을 사용하여 문맥에 맞는 단어의 의미를 학습합니다.

과정
BERT 모델을 가져옵니다
의미 모호성 해소를 위한 학습 데이터로 *파인튜닝 합니다.
문장에서 단어의 의미를 레이블로 출력합니다.

예시
입력 : 밤을 먹다
출력 : 밤 -> 밤2

압축된 의미 레이블 기반 분류

아이디어
의미 레이블을 최소화하여 학습의 효율을 높입니다.

단계
의미 레이블을 공통 레이블로 압축합니다.
학습된 모델을 사용해 새로운 문장에 공통 레이블을 부착합니다.
최종적으로 개별 의미 레이블로 변환합니다.

장점
레이블 개수를 줄여 미학습 데이터 부족 문제를 해결합니다.

요약

분류 기반 방법
나이브 베이즈 : 확률 계산 기법
kNN : 거리 기반
SVM : 클래스 간 경계 활용
딥러닝 기반 방법
BERT 기반 분류 : 문맥 벡터를 학습하여 의미를 예측
압축된 레이블 : 의미 레이블 최소화로 효율 개선

문맥과 의미 정의 비교 방법

문맥과 의미 정의의 문맥 비교

핵심 아이디어
문맥 벡터와 정의 문맥 벡터를 비교하여 단어의 의미를 판별합니다.
문장 내 모호한 단어가 어떤 의미인지 확인하기 위해 단어의 사전 정의와 문맥을 비교합니다.

수행 방법

가. 문백 벡터 생성
문장의 단어를 벡터로 변환합니다.
BERT와 같은 언어 모델을 사용해 문맥 정보를 포함한 벡터를 생성합니다.

나. 정의 벡터 생성
모호한 단어의 사전 전의를 같은 방식으로 벡터화합니다.

다. 두 벡터를 비교
문장 벡터와 의미 정의 벡터를 비교하여 유사도가 가장 높은 정의를 선택합니다.

대표적인 예시 : GlossBERT

BERT 모델을 사용하여 문맥 벡터와 의미 정의 벡터를 비교합니다.
가장 유사도가 높은 정의를 해당 단어의 의미로 선택합니다.

문맥 벡터와 의미 정의 벡터 비교의 속도 향상

핵심 문제
BERT를 사용해 두 문장을 직접 비교하면 속도가 느립니다.
매번 생성하고 비교하는 것은 비효율적입니다

해결 방법
1. Bi-Encoder 방식
문맥 벡터와 의미 정의 벡터를 독립적으로 생성한 후 나중에 벡터 유사도를 계산합니다.
빠른 비교가 가능합니다.

Cross-Encoder 방식
문맥과 의미 정의를 동시에 비교하여 유사도를 계산합니다.
더 정확하지만 속도가 느립니다.

연습 문제

1. 단어 의미 모호성 해소를 위한 나이브 베이즈 방법

나이브 베이즈 분류기는 조건부 확률을 이용해 모호한 단어의 의미를 분류합니다.
문장에 있는 단어들이 특정 의미에 나타날 확률을 계산하여 가장 높은 확률의 의미를 선택합니다.

2. 단어 의미 모호성 해소를 위한 딥러닝 기법

BERT와 같은 사전학습된 언어 모델을 사용하여 문맥을 벡터화하고 단어의 의미를 예측합니다.
이 모델을 파인튜닝 하여 단어 의미 모호성 해소에 맞게 학습시킵니다.

*파인튜닝이란 이미 학습된 사전학습 모델을 새로운 데이터에 맞게 세부 조정하는 과정입니다.

의미역 분석의 개념과 방법 정리

의미역 분석이란?

정의
문장에서 특정 단어가 수행하는 역할이나 의미적 관계를 파악하는 작업입니다.

예를들어 누가행동을 수행했는지 - 주어
무엇을 했는지 - 목적어
등을 분석합니다.

중요성
문장의 구조와 의미를 명확하게 이해하기 위함
다양한 자연어처리작업의 기반이 됩니다.

의미역 종류

서술어와 그 역할을 구성하는 의미역 종류

agent 행위자 : 행동을 수행하는 주체
theme 주제 : 동작이나 사건의 대상
Instrument 도구 : 동작을 수행하는 데 사용된 도구
Location 위치 : 사건이 일어나는 장소
Goal 목적지 : 동작의 최종 목적지
Source 출발지 : 동작이 시장된 지점

예시
John opened the door with a key
agent : john
theme : the door
instrument : a key

PropBank 의미역 분석

PropBank
서술어의 의미를 정의하고 각 의미에 맞는 의미역을 부탁한 데이터 셋입니다.

예를들어 accept라는 단어에 대해 ARGO(행위자),ARG1(수락된 것)등으로 역할을 정의합니다.

예시
[John] accepted [the offer]
ARG0 : John (행위자)
ARG1 : the offer (수락된 대상)

CoNLL 데이터 의미역 분석

CoNLL 데이터 : 의미역 부착을 위한 학습 데이터셋입니다.
주어진 문장에서 각 단어의 역할을 태그로 부착합니다.

Mary gave john a book
Gave : 동사 (서술어)
Mary : ARG0 (행위자)
John : ARG1 (수혜자)
a book : ARG2 (주어진 대상)

규칙 기반 의미역 분석

핵심아이디어
문장의 구문 구조를 분석하고 규칙에 따라 의미역을 부착합니다.
구문 트리를 이용해 문장의 주어, 목적어 등을 파악합니다.

단계
1. 문장을 구문 구조 분석으로 트리 형태로 변환합니다.
2. 의미역 규칙을 적용하여 각 노드에 의미역을 부착합니다.

the hungry boy ate an apple

the hungry boy -> ARG0 (행위자)
an apple -> ARG1(행동의 대상)

딥러닝 기반 의미역 분석

핵심아이디어
BERT와 같은 사전학습된 모델을 사용해 문장에서 의미역을 자동으로 부착합니다.
학습 데이터를 기반으로 의미역 태그를 예측합니다.

단계
1. 문장 입력: the dogs barked at the stranger
2. bert 모델에 문장을 입력해 각 단어의 벡터를 생성합니다.
3. 출력 : 각 단어에 의미역 태그를 부착합니다.

the dogs -> ARG0 (행위자)
barked -> V (서술어)
at the stranger -> ARG1 (대상)

요약

의미역 분석
문장에서 단어들의 의미적 역할을 분석하여 정확한 관계를 파악합니다.
주요 방법
PropBank : 의미역을 정의하고 레이블링된 데이터 제공
규칙 기반 방법 : 구문 트리 기반으로 규칙에 따라 의미역을 부착
딥러닝 기반 방법 : BERT와 같은 모델로 문맥을 이해하고 의미역을 예측

연습문제

1. 의미역과 분법적 논항의 차이

문법적 논항
문법적논항은 문장의 구문적 구조에 따라 주어 목적어 부사어 등으로 결정됩니다.
문장의 형식적 관계를 기반으로 분석합니다.

의미역
의미역은 문장에서 각 단어가 서술어와 맺는 의미적 관계를 나타냅니다.
의미적 역할에 따라 행위자(Agent) 대상(Theme) 수혜자(Recipient) 등으로 분류됩니다.

차이점
문법적 논항은 문장의 형식적 관계에 따라 결정되며 의미역은 서술어와의 의미적 관계에 따라 의미역이 결정이된다.

2. 규칙이나 기계학습을 사용한 의미역 분석 방법

(1) 규칙 기반 의미역 분석
구문 분석을 기반으로 의미역을 부착하는 방식입니다.
규칙을 사전에 정의하고 구문 트리르 통해 논항에 의미역을 할당합니다.

가. 구문 분석 : 문장을 트리 구조로 변환합니다.
나. 규칙 적용 : 주어 목적어 부사어 등의 위치와 패턴을 이용해 의미역을 결정합니다.

장점 : 오류가 적음
단점 : 예외적 패턴에 약함

(2) 딥러닝 기반 의미역 분석
학습 데이터를 사용해 의미역을 자동으로 예측하는 방식입니다.
BERT와 같은 딥러닝 모델을 사용하여 문장의 문맥을 이해하고 의미역을 분류합니다.

가. 학습 데이터 준비
나. 모델 훈련
다. 새로운 문장 입력 -> 의미역 자동 예측

장점 : 복잡한 문장과 다양한 패턴을 처리 가능
단점 : 대량의 학습 데이터와 연산 자원이 필요함

추상 의미 표현과 의미역 분석의 차이점

추상 의미 표현 : 문장의 전체를 추상화된 그래프 형태로 표현합니다. , 문장의 전체 의미 관계를 표현한 것입니다.

의미역 분석 : 문장에서 서술어를 중심으로 각단어의 의미적 역할을 부착합니다. , 동사와 관련된 역할을 분석한 것 입니다.

정보 추출과 관계 추출

정보 추출

문장에서 구체적인 정보를 자동으로 추출하는 작업입니다.
예시 : 인물, 날짜, 장소 등 구체적인 엔티티를 추출하거나 관계를 파악합니다.

예시 Google은 Android를 개발했습니다.

요소 |가치 |관계표현
주체 google 개발
객체 Android 대상
시간 - -

관계 추출

단어들 사이의 관계를 자동으로 추출하는 작업입니다.
주어진 텍스트에서 주어-관계-목적어 구조를 분석합니다.

문장 : "뉴욕에서 열린 회의에 7명의 관객이 참석했고 독일 비지니스 관계자는 큰 관심을 보였습니다."

요소 |추출된 관계
주어 독일 비지니스 관계자
관계 관심을 보였다
대상 회의

관계 추출의 종류

규칙 기반 관계 추출

문장의 구문 구조를 분석하여 패턴과 규칙을 이용해 관계를 추출합니다.
구문 트리와 같이 문장 구조를 활용합니다.

문장 분석 -> 문장의 구문 트리 생성
패턴 적용 -> 주어-서술어-목적어 구조를 기반으로 관계 추출

예시:
문장: Salesforce recently acquired Tableau
주어 : Salesforce
관계 : acquired
대상 : Tableau

말뭉치 기반 관계 추출

학습 데이터를 기반으로 관계를 자동으로 학습하고 예측합니다.
지도 학습과 비지도 학습으로 나눌 수 있습니다.

지도 학습 과정
1. 학습 데이터 준비 : 주어 관계 객체가 레이블된 데이터를 준비합니다.
2. 모델 훈련 : 관계를 학습합니다. (BERT기반 모델)
3. 관계 예측 : 새로운 문장에서 관계를 예측합니다.

예시 Tableau was recently acquired by Salesforce
주어 : Salesforce
관계 : accuire
객체 : Tableau

이벤트 추출

문장에서 특정 이벤트를 자동으로 추출하는 작업입니다.
주체 동작 시간 장소와 같은 이벤트의 핵심 요소를 파악합니다

예시 Apple은 2020년에 새로운 iPhone을 출시했다.

요소 |추출된 정보
주체 Apple
동작 출시
대상 새로운 iPhone
시간 2020년

정보 추출 방법의 분류

규칙 기반 방법
사람이 만든 규칙과 패턴을 사용합니다.
장점 : 명확하고 오류가 적음
단점 : 새로운 패턴에 약함
기계학습 기반 방법
학습 데이터를 통해 모델이 관계를 자동으로 학습합니다.
장점 : 다양한 패턴을 학습 가능
단점 : 대량의 학습 데이터 필요
하이브리드 방법
규칙 기반과 기계 학습 기반을 결합하여 사용합니다.

요약

정보 추출 : 문장에서 구체적인 정보를 추출하는 작업입니다.
관계 추출 : 단어들 사이의 관계를 분석하고 추출합니다.
주요 방법 :
1. 규칙 기반 : 구문 구조와 패턴 사용
2. 말뭉치 기반 : 학습 데이터를 사용해 관계를 학습
3. 이벤트 추출 : 사건의 주체, 대상, 시간, 장소 등을 분석

정보 추출과 관계 추출

말뭉치 기반 관계 추출

준지도 학습

레이블이 일부만 있는 상황에서 패턴을 학습해 관계를 추출하는 방법입니다.

과정
1. Seed 관계를 설정합니다.
예시 : Tableau was recently acquired by Salesforce
2. 이 문장에서 패턴을 추출합니다.
패턴 : X was accuired by Y
3. 패턴을 활용해 새로운 관계를 추출합니다.
관계 : (Salesforce, acquire, Tableau)

문제점 : 정확도가 낮고 의미가 잘못 학습되는 의미적 표류가 발생할 수 있습니다.

간접지도 학습

레이블된 데이터가 없을 때 이미 알려진 지식베이스를 사용해 학습합니다.

과정
1. 지식베이스에 있는 두 개체 관계를 학습합니다.
(Saleforce,acquire,Tableau)
2. 같은 개체 관계가 포함된 문장을 찾아 관계를 매칭합니다.
Tableau was recently acquired by Salesforce
Tableau was bought by Salesforce
3. 패턴을 학습해 새로운 관계를 추출합니다.
패턴(was recently by ,was bought by)

비지도 학습

레이블이 없는 데이터를 기반으로 관계를 추출하는 방법입니다.

과정
문장에서 개체와 관계를 나타내는 단어 열을 추출합니다.
추출된 관계를 클러스터링하여 관계 이름을 정합니다.

예시
문장: "Tableau was recently acquired by Salesforce."
결과: (Tableau, recently_acquired_by, Salesforce)
문장: "Salesforce acquired Tableau."
결과: (Salesforce, acquired, Tableau)

문제점 : 관계 이름이 기존 지식베이스와 일치하지 않을 수 있습니다.

딥러닝 기반 정보 추출

개방 정보 추출

선행학습된 모델을 활용해 문장에서 정해지지 않은 관계를 자동으로 추출합니다.

주요 방법

bio태깅 방법

문장 내 단어를 시작(B), 내부(I), 외부(O)로 구분해 레이블링합니다.

과정
문장의 각 단어에 BIO 태그를 부여합니다.
동사와 대상을 인식합니다.

span 선택 방법

정의: 단어 단위가 아닌 범위 단위로 관계를 인식합니다.
1. 동사를 먼저 학습합니다.
2. 동사를 기준으로 Argument(대상,시간)를 예측합니다.

Sequence 생성 방법

문장의 단어를 차례로 분석해 관계 쌍을 생성합니다.
Encoder-Decoder 모델을 사용해 관계를 차례대로 예측합니다.

Sequence 디코딩 방법

이미 출력된 관계를 다시 모델에 입력해 중복되지 않은 새로운 관계를 추출합니다.

과정
가. 첫 번째 관계를 모델에 다시 넣어 추가 관계를 예측합니다.
나. 이를 반복해 모든 관계를 추출합니다.

요약

정보 추출
비정형 텍스트에서 구체적인 관계나 개체를 자동으로 추출합니다.
결과는 튜플 형태로 표현됩니다.
말뭉치 기반 관계 추출
준지도 학습 : 일부 레이블과 패턴을 이용
간접지도 학습 : 지식베이스를 활용
비지도 학습 : 패턴을 자동으로 클러스터링
딥러닝 기반 개방 정보 추출
BIO 태깅: 단어에 bio 태그를 부여
SPAN 선택 : 범위 단위로 관계를 예측
Sequence 생성 : 관계 쌍을 차례로 생성
Sequence 디코딩 : 출력된 관계를 반복적으로 확장

연습문제

정보 추출이 무엇인지 서술하시오

정의 : 비정형 텍스트 데이터에서 구조화된 정보를 자동으로 추출하는 과정입니다.
목적 : 텍스트에서 의미 있는 정보를 찾고 이를 튜플 형태로 표현합니다.
하위 작업 : 1.개채명 인식 2.관계 추출 3.이벤트 추출

규칙 기반 정보추출 방법을 설명하고 문제점을 토론하시오

규칙 기반 정보 추출 : 사람이 정의한 규칙을 사용하여 택스트에서 정보를 추출하는 방법입니다.

과정
문장을 구문분석하여 구조를 파악합니다.
정해진 패턴에따라 정보를 추출합니다.

문제점
1. 확장성 부족 : 새로운 표현이나 문장 구조를 처리하기 어렵습니다.
2. 유연성 부족 : 사람이 모든 패턴을 정의해야하므로 시간과 비용이 많이 듭니다.
3. 오류 발생 : 패턴이 문장의 모호성을 처리하지 못할 경우 오류가 발생할 수 있습니다.

지정 관계 정보 추출과 개방 정보 추출의 차이

지정관계 정보 추출은 미리 정의된 관계를 기반으로 정보를 추출하고
개방정보 추출은 사전에 정의 되지 않은 관계를 자동으로 추출합니다.

Sequence 생성 기반 정보 추출에서 중복 추출 문제와 해결방법

sequence 생성 기반 방법은 동일한 관계를 여러 번 반복해서 추출할 수 있습니다.

원인 : 모델이 특정 패턴을 반복해서 학습하거나
beam search와 같은 생성 과정에서 중복된 관계를 출력하기 때문입니다.

해결 방법 : Sequence 디코딩 방법
핵심 아이디어 : 출력된 관계를 다시 모델에 입력하여 중복이 적은 새로운 관계를 추출합니다.

정보 추출의 평가 방법

정확도 : 정확한정보의비율
재현율 : 정확하게 추출된 비율
f1-score : 정확도와 재현율의 조화 평균

평가 방법
정답 데이터와 비교 : 사람이 수작업으로 만든 정답 데이터와 비교합니다.
추출된 관계의 일치여부 확인 : 정확한 개체명과 관계가 맞는지 평가합니다.

기계 번역

개요

정의 : 기계 번역은 컴퓨터를 이용해 한 언어를 다른 언어로 변환 하는 기술입니다.

상용화
국제 : 2016년 구글이 신경망 기반 번역 서비스를 도입
국내 : 네이버의 파파고 같은 다양한 ai 번역기 등장

기계 번역의 발전 역사
1. 규칙기반 번역(RBMT,1950~) : 문법 규칙을 이용해 번역
2. 통계 기반 번역(SMT,1980~) : 통계적 규칙으로 번역
3. 신경망 기반 번역(NMT,2010~) : 딥러닝 기반 번역

규칙 기반 기계 번역

언어학적 문법적 규칙을 이용해 번역

번역과정
1. 직접 번역 : 언어 구조 변형 없이 1:1 매칭
2. 구문 전달 번역 : 구문 구조를 분석하고 번역
3. 의미 전달 번역 : 단어 의미를 상황에 맞게 번역
4. 피봇 번역 : 원어를 중간 언어로 변환후 번역

장단점
문법적으로 정확하지만 개발 비용과 시간이 많이 듦
문법 예외가 많아 오류가 발생함

통계 기반 기계 번역

개념 : 병렬 말뭉치(원문과 번역문 1:1 쌍)를 바탕으로 통계쩍으로 번역

번역 과정
병렬 텍스트 정렬 -> 단어 간의 번역 확률 계산 -> 번역 모델 구축

특징
언어 모델 : 번역문이 자연스러운지 확률적으로 평가
번역 모델 : 번역 확률이 가장 높은 문장을 선택

장단점
언어가 비슷할수록 성능이 좋음
대량의 말뭉치가 필요하고 데이터가 부족하면 품질 저하

신경망 기반 기계 번역

개념 : 딥러닝을 이용해 번역

발전 과정
1. RNN 기반 번역 : 원본 문장을 인코더로 처리하고 디코더로 번역 생성
한계 : 원거리 정보 소실 문제와 노출 편향

Attention 기반 번역 : RNN에 Attention 메커니즘을 추가해 문맥 고려 , 원거리 문제를 해결하며 성능 향상
Transformer 기반 번역 :
attention만으로 인코더-디코더 구조 구성
현재 가장 높은 번역 성능 제공

장점 : 문맥과 의미를 잘 파악 , 실용화에 적합한 성능
단점 : 학습에 대량의 데이터와 계산 리소스 필요

요약

규칙 기반 기계 번역 : 문법 규칙을 이용
통계 기반 기계 번역 : 통계적 확률을 기반으로 번역
신경망 기반 기계 번역 : 딥러닝과 Attention,Transformer 모델 사용

연습문제

1. 피봇 방식 번역이 무엇인지 설명하고 실현 가능성에 대해 논의하시오

정의 : 피봇 번역은 원어를 중간 언어의 의미 표현으로 변환한 후 그 중간 언어를 다시 번역어로 변환하는 방식입니다.

한국어 -> 중간언어 -> 영어

실현 가능성 : 새로운 언어를 추가할때 중간 언어만 매핑하면되지만 의미가 손실되고 중간언어에 대한 정확한 데이터 확보가 어려우므로 이론적으로는 효율적이지만 중간 언어의 정확성이 뒷받침 되어야 실현이 가능합니다.
또한 현재는 신경망 모델이 피봇의 기능을 수행하고 있으므로 딥러닝 기술이 더 발전하면 실현 가능성이 높아집니다.

2. 규칙 기반 기계 번역의 한계에 대해 서술하시오

개발 비용과 시간 : 언어학적 지식과 문법 규칙 작성에 많은 시간이 소요됩니다.
문법 예외 문제 : 모든 문법을 완벽하게 정의하기 어렵고 예외 사항이 많아 오류가 발생합니다.
자연스러움 부족 : 문장 구조가 딱딱하고 부자연스러운 번역 결과가 나올 수 있습니다.
언어 확장성 문제 : 새로운 언어를 추가하려면 새롭게 문법 규칙을 작성해야 하므로 비효율 적입니다.
잘못된 분석 오류 : 문장 분석이 잘못되면 오류가 번역 전체에 전파됩니다.

3. 통계 기반 기계 번역의 한계에 대해 서술하시오

대량의 병렬 말뭉치가 필요 : 통계 기반 번역은 데이터에 의존하기 때문에 데이터가 부족하면 성능이 크게 저하됩니다.
언어 특성 반영의 한계 : 문법 구조나 어순이 크게 다른 언어는 번역 성능이 낮아질 수 있습니다.
단순 통계적 접근 : 문맥과 의미를 잘 파악하지 못해 어색하거나 잘못된 번역이 발생합니다.
텍스트 정렬 시 단어나 구의 위치가 불완전하게 매칭될 수 있습니다.
문장 길이 문제 : 문장이 길어질수록 번역 품질이 떨어집니다.

4. 신경망 기반 기계 번역의 장점과 단점에 대해 서술하시오

장점
1. 문맥 이해 : Attention과 Transformer 모델을 통해 문맥을 잘 파악하여 번역 품질이 높습니다.
2. 자연스러운 번역 : 문장 단위가 아닌 단어와 구의 연관성을 고려해 번역이 자연스럽습니다.
3. 자동 학습 : 규칙이나 통계를 따로 정의하지 않아도 대량의 데이터를 학습하면서 번역 모델이 자동으로 생성됩니다.

단점
데이터 의존성 : 학습에 많은 병렬 말뭉치가 필요합니다.
계산 리소스 소모 : 모델 학습에 많은 gpu와 연산능력이 요구됩니다.
해석 어려움 : 번역 과정이 블랙박스처럼 동작해 내부 동작 원리를 이해하기 어렵습니다.
언어 데이터 편향 : 특정 언어의 데이터가 부족하면 번역 품질이 저하됩니다.

이주원

뭐가될지 모름

이전 포스트

rookies - 벡엔드

다음 포스트