[딥러닝] 모델 학습을 위해 사전 조사 진행하기

지현·2022년 4월 10일

SONSU 딥러닝

앞으로 수어 영상 데이터의 학습 모델로 CNN, RNN, LSTM, CNN-LSTM 등을 구현하고, 각 모델의 정확도를 알아볼 것이다.
오늘은 모델을 공부해보려고 한다.

CNN이란? Convolutional Neural Network

https://www.youtube.com/watch?v=ggBQj1NXUEg
CNN의 원리적인 면을 잘 성명한 영상

LSTM이란?

https://brunch.co.kr/@chris-song/9

모델, 논문 정리

데이터셋 처리

국립국어원 한국수어사전 수어 영상 다운
영상의 길이, 크기를 동일하게 맞춤
MediaPipe를 이용하여 landmark 추출
landmark가 찍힌 영상을 프레임화
몇프레임마다 유의미한 프레임인지 확인

5번 진행 과정 (중급단어 '괜찮다'로 진행)
0~57까지는 빈 프레임
58~94까지 같은 프레임으로 봐도 무방(수어동작x)
95~155까지는 모든 프레임에서 동작이 변하는데 어떤게 유의미한 것인지 판단하기 어려움... 모든 프레임이 유의미하다고 해야할지...
156~168까지 같은 프레임으로 봐도 무방(수어동작x)
169~227까지는 빈 프레임

찾아보면서 든 생각

CNN으로 진행해보는 것이 옳은 것인지 잘 모르겠다. 의미가 있을까?
따라서 나는 LSTM으로 먼저 진행해보려고 하는데, LSTM으로 효율적인 이미지 학습이 가능한지에 대한 의문도 들었다.
왜냐하면 LSTM의 예제 코드들을 찾아봤을 때, LSTM의 INPUT이 이미지인 것을 찾을 수 없었다.
이미지를 설명하는 문장을 만들어내는 Image Captioning : Image Captioning은 이미지를 설명하는 문장을 만드는 것을 말하는데, 문장을 만드는 데에는 LSTM을 사용한다. 하지만 여기서도 이미지는 CNN을 이용한다.
꼬리를 무는 의문점으로는 그렇다면 CNN과 LSTM을 따로 진행해보는 것이 맞는가, CNN-LSTM을 처음부터 진행해야하는 것이 아닌가 라는 생각이 들었다.

추가적으로 찾아본 자료들

CNN-LSTM 결합 코드
CNN모델에 시계열 데이터를 사용하기 위한 이미지 표현화
빵형 : 손제스처 인식 딥러닝 인공지능 학습시키기 : Input 각도값, LSTM
빵형 : 가위바위보 기계 만들기 : Input 각도값(Google MediaPipe for Pose Estimation 데이터 셋 사용), KNN

지현

화이팅!

이전 포스트

[협업툴] 협업툴 이용해보기

다음 포스트