앞으로 수어 영상 데이터의 학습 모델로 CNN, RNN, LSTM, CNN-LSTM 등을 구현하고, 각 모델의 정확도를 알아볼 것이다.
오늘은 모델을 공부해보려고 한다.
CNN이란? Convolutional Neural Network
LSTM이란?
모델, 논문 정리
데이터셋 처리
- 국립국어원 한국수어사전 수어 영상 다운
- 영상의 길이, 크기를 동일하게 맞춤
- MediaPipe를 이용하여 landmark 추출
- landmark가 찍힌 영상을 프레임화
- 몇프레임마다 유의미한 프레임인지 확인
5번 진행 과정 (중급단어 '괜찮다'로 진행)
0~57까지는 빈 프레임
58~94까지 같은 프레임으로 봐도 무방(수어동작x)
95~155까지는 모든 프레임에서 동작이 변하는데 어떤게 유의미한 것인지 판단하기 어려움... 모든 프레임이 유의미하다고 해야할지...
156~168까지 같은 프레임으로 봐도 무방(수어동작x)
169~227까지는 빈 프레임
찾아보면서 든 생각
- CNN으로 진행해보는 것이 옳은 것인지 잘 모르겠다. 의미가 있을까?
- 따라서 나는 LSTM으로 먼저 진행해보려고 하는데, LSTM으로 효율적인 이미지 학습이 가능한지에 대한 의문도 들었다.
왜냐하면 LSTM의 예제 코드들을 찾아봤을 때, LSTM의 INPUT이 이미지인 것을 찾을 수 없었다.
- 이미지를 설명하는 문장을 만들어내는 Image Captioning : Image Captioning은 이미지를 설명하는 문장을 만드는 것을 말하는데, 문장을 만드는 데에는 LSTM을 사용한다. 하지만 여기서도 이미지는 CNN을 이용한다.
- 꼬리를 무는 의문점으로는 그렇다면 CNN과 LSTM을 따로 진행해보는 것이 맞는가, CNN-LSTM을 처음부터 진행해야하는 것이 아닌가 라는 생각이 들었다.
추가적으로 찾아본 자료들