딥러닝 스터디

박철민·2021년 11월 11일
0

자연어 처리 : 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술, 컴퓨터가 언어를 해독하는 과정

규칙 지식 기반 접근법 VS 확률 통계 기반 접근법
오늘 / 날씨 / 어때?
When/What/how is it?(패턴) VS TF-IDF 키워드 추출

Tokenizing
우리말 : 형태소 단위로 나눈다. 어절 단위로 나누면 우리날 말은 그 안에 다른 의미가 있기 때문. 최근에는 자소단위까지 나누기도 한다.

대부분의 자연어 처리 문제는 '분류'의 문제
의미 분석 : 질문/요구/거절/승낙...
감성 분석 : 기쁨/슬픔/분노/...
형태소 분석 : 명사/부사/동사/...

요즘은 통계적 모델로 하는데 우리가 배운 n-gram 또한 통계적 모델

통계적 언어 모델(Statisical Language Model, SLM)
희소 문제
만약 맕뭉치에 "in Korea, more than half of"란 표현은 3 번 등장하지만, "in Korea, more than half of residents"란 표현은 한 번도 등장하지 않는 다면?
"in Korea, more than half of residents speak Korean"이라는 문장이 등장할 확률은 0

n-gram
Bi-gram을 사용할 때 'of residents"

장기 의존성에 대한 문제

N-gram에서는 일부 단어 시퀀스의 횟수만을 가지고 판다하기 때문에 문장 앞쪽의 문맥을 고려하지 않ㅇ느 채 토큰을 선택하게 됩니다.
In Korea, more than half of residents speak Korean
핀란드에 관한 기사
In Korea, more than half of residents speak Finnish

N을 증가시키면 이전에 살펴보았던 희소성 문제가 부활하게 됩니다.
N-gram 모델에서 발생하는 희소성 문제를 해결하기 위해서 스무딩과 백오프라는 방법이 사용되고 있습니다.

스무딩 & 백오프
개인적으로 공부할것

희소 표현
one-hot-Encoding
표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현
원-핫 벡터는 희소 벡터이다.

표현 / 단어 / 인덱스
[1,0,0]

[0,1,0]

[0,0,0]

한계점
이러한 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있다.

그는 왕이다 => 명사 : 그, 왕
그 : [1,0]
왕 : [1,0]
-> 두단어는 의미상 밀접한 관계가 있지만 벡터 공간에 표현 불가능



분산 표현
Word Embeding
분산 표현을 이용하여 단어의 의미를 벡터화하는 작업은 워드 임베딩(Embedding) 작업에 속하기 때문에 이렇게 표현한 벡터 또한 임베딩 벡터라고 한다.

개 가 멍멍! 짖는다.
강아지가 멍멍! 짖는다. -=> '개'와 '강아지는 비슷한 의미일 것이다.

단어가 가지는 의미 자체를 다차원 공간에 '벡터화'
단어간의 유사도 측정에 용이, 관계 파악에 용이
벡터 연산을 통한 추론 가능

왕 남자
여자 여왕

두 차이가 같다

Word2Vec에는 CBOW와 Sip-Gram 두 가지 방식이 있다.
CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법이다.
Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법

Fasttext(Facebook research에서 공개한 오픈 소스 라이브러리)
Out Of Vocabuilary,OOV에 다른 단어와 유사도 비교 가능
n-gram으로 나누어 학습
n-gram의 범위가 2-5일 때
"assumption"= as,ss,su,.....ass,ssu,sum.......,ption, assumption)
assumtion-> 중간에 p를 적기를 추천한다.

등등 OOV에 강하다.

word embading의 한계점
동형어, 다의어에 대한 embadding의 성능이 좋지 못한다.
account 단어의 뜻 : ~라고 생각하다, 이유, 근거, ~때문에, 보고서, 계좌

profile
취준좀비 컴공

0개의 댓글

관련 채용 정보