[딥러닝] 모델 학습을 위해 사전 조사 진행하기

지현·2022년 4월 10일
0

앞으로 수어 영상 데이터의 학습 모델로 CNN, RNN, LSTM, CNN-LSTM 등을 구현하고, 각 모델의 정확도를 알아볼 것이다.
오늘은 모델을 공부해보려고 한다.


CNN이란? Convolutional Neural Network

LSTM이란?

모델, 논문 정리


데이터셋 처리

  1. 국립국어원 한국수어사전 수어 영상 다운
  2. 영상의 길이, 크기를 동일하게 맞춤
  3. MediaPipe를 이용하여 landmark 추출
  4. landmark가 찍힌 영상을 프레임화
  5. 몇프레임마다 유의미한 프레임인지 확인

5번 진행 과정 (중급단어 '괜찮다'로 진행)
0~57까지는 빈 프레임
58~94까지 같은 프레임으로 봐도 무방(수어동작x)
95~155까지는 모든 프레임에서 동작이 변하는데 어떤게 유의미한 것인지 판단하기 어려움... 모든 프레임이 유의미하다고 해야할지...
156~168까지 같은 프레임으로 봐도 무방(수어동작x)
169~227까지는 빈 프레임


찾아보면서 든 생각

  • CNN으로 진행해보는 것이 옳은 것인지 잘 모르겠다. 의미가 있을까?
  • 따라서 나는 LSTM으로 먼저 진행해보려고 하는데, LSTM으로 효율적인 이미지 학습이 가능한지에 대한 의문도 들었다.
    왜냐하면 LSTM의 예제 코드들을 찾아봤을 때, LSTM의 INPUT이 이미지인 것을 찾을 수 없었다.
  • 이미지를 설명하는 문장을 만들어내는 Image Captioning : Image Captioning은 이미지를 설명하는 문장을 만드는 것을 말하는데, 문장을 만드는 데에는 LSTM을 사용한다. 하지만 여기서도 이미지는 CNN을 이용한다.
  • 꼬리를 무는 의문점으로는 그렇다면 CNN과 LSTM을 따로 진행해보는 것이 맞는가, CNN-LSTM을 처음부터 진행해야하는 것이 아닌가 라는 생각이 들었다.

추가적으로 찾아본 자료들

profile
화이팅!

0개의 댓글