[TIL]RNN, LSTM

lena_log·2022년 3월 4일
0

Codestates Section4

목록 보기
7/12
post-thumbnail

언어모델이란
문장과 같은 단어 시퀀스에서 단어의 확률을 구하는 것
1) 통계적 언어 모델
단어 등장 횟수 기반으로 조건부 확률을 계산
한계) 희소성 문제
2) 신경망 언어 모델

  • 임베딩벡터 사용> 희소성 문제 해결

순환신경망(RNN)
연속형 데이터: 순서가 달라지면 데이터의 의미가 달라짐
예) 자연어, 시계열

구조

  • 기존 신경망과 차이점: 은닉층에서 나와서 다시 은닉층으로 들어감

장점: 간단, 이론적으로 어떤 연속형 데이터도 처리 가능
단점: 병렬화가 불가능

LSTM
기울기 정보 조절=> Gate 추가
3개의 게이트는?
:forget/input/output

파라미터 갯수 관련 내용담긴 링크
https://medium.com/deep-learning-with-keras/lstm-understanding-the-number-of-parameters-c4e087575756

Attention

  • 기울기 소실 => 장기의존성
  • 병렬연산

https://lynnshin.tistory.com/3
https://github.com/cs231n/cs231n.github.io

https://wjddyd66.github.io/keras/Keras(4-2)/

https://media-ai.tistory.com/7

profile
안녕하세요. 기억보다 기록을 믿는 레나입니다!

0개의 댓글