복습질문(RNN)

hyemin·2022년 12월 18일

목록 보기

50/51

221218 SUN

Q1. Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요?
자연어 처리를 할 때, 많이 등장하지만 중요하지 않은 단어 또는 제외했으면 하는 단어를 전처리 해주어야 하는데, 이와 같은 단어들을 불용어(Stop_words)라고 한다.
문장을 구성하는 것에는 필수 요소지만, 분석 할 때는 큰 의미가 없는 문자열이기 때문에, 불용어가 포함되어 분석을 하게 되면 원하는 결과가 나오지 않을 수 있기 때문에 사전 제거 작업이 필요하다.

Q2. TF-IDF 점수는 무엇이며 어떤 경우 유용한가요?
TF(Term Frequency) 는 특정 단어가 문서 내에 얼마나 자주 등장하는지, IDF 는 역문서 빈도로 DF 에 반비례한다. TF-IDF 는 TF 와 IDF 를 곱한 값으로, 자주 등장하는 단어는 중요도가 낮고, 특정 문서에서만 등장하는 단어는 중요도가 높다. DTM 내의 중요한 단어에 가중치를 더 주는 것이다.
=> 문서 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업에 활용되며 추천 시스템과 연결되기도 한다.
참고 : https://wikidocs.net/31698

Q3. Bag of Words 방식과 시퀀스 방식의 인코딩의 차이는 무엇이며 왜 인코딩 방법을 달리 할까요?
Bag of Words 는 단어들의 순서를 고려하지 않고, 단어들의 빈도에 집중하여 텍스트 데이터를 수치화한다. 그리고 단어 순서가 무시되는 단점을 보완하기 위해 n-gram 을 사용한다.
시퀀스 데이터는 연관된 연속의 데이터로, 순서가 있다. 시계열 자료나 텍스트 자료에서 사용된다.

인코딩 방법을 달리 하는 이유는, 순서가 중요한 연속 데이터(시퀀스)와, 특정 단어의 중요도를 찾기 위한 데이터(BOW) 등 활용 분야가 다르기 때문이라고 생각한다.

Q4. RNN과 LSTM에 대해서 설명해주세요.
RNN 은 시퀀스 데이터에 사용하는 신경망이다. 기존 신경망과의 차이점은, 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징이 있다. 하지만 비교적 짧은 시퀀스에 대해서만 효과를 보이고 기울기 소실 문제가 여전하다.(Long Dependency 장기 의존성) 이를 해결하기 위해 나온 것이 LSTM 이다.
LSTM 은 장기의존성 문제를 해결하기 위해 1997년에 나왔다. 3개의 Gate(Forget Gate, Input Gate, Output Gate), 2개의 state(Cell State, Hidden State)로 구성되어 있다.

hyemin

아직 고쳐나가는 중.

이전 포스트

221215 TIL

다음 포스트

복습질문(RNN)

TIL

221215 TIL

221219-221221 TIL 시계열부터 비즈니스 데이터분석까지. 수업을 마무리하며

0개의 댓글